Anthropic опубликовала на GitHub внутреннее тестовое задание для инженеров по производительности. Компания перестала его использовать, потому что Claude Opus 4.5 показал результат лучше, чем любой кандидат за всю историю.
Задача, которую никто не просил
Формулировка звучит обманчиво просто: оптимизировать ядро на симулированной многоядерной машине, результат измеряется в тактах. На всё даётся два часа. Базовая реализация работает за 147 734 такта. Лучший человеческий результат за отведённое время: около 1 790 тактов.
Claude Opus 4.5, по словам Anthropic, в «обычной сессии Claude Code» повторил этот результат. А за два часа в тестовом окружении с дополнительными вычислениями на этапе генерации модель выдала 1 579 тактов. За 11,5 часов: 1 487.
В репозитории лежит полная архитектура симулированной машины, эталонное ядро и визуализатор трассировки для отладки. На Hacker News сразу заметили сходство с демосценой и соревнованиями по «гольфу кода», где программисты соревнуются в написании максимально компактных или быстрых программ для визуальных демок.
«Тест нацелен на людей, которым можно доверить писать PTX вручную», написал один комментатор. PTX — это низкоуровневый ассемблер для GPU от NVIDIA.
Что на самом деле требуется
Код намеренно запутан. Сначала нужно разобраться, что он делает, и только потом оптимизировать. Симулированная машина имеет несколько ядер, векторные операции и систему рабочей памяти. Писать нужно на Python, но сама работа напоминает тюнинг GPU-ядер.
Согласно описанию задачи, цель в том, чтобы минимизировать такты, переписав функцию KernelBuilder.build_kernel. В комплекте идёт замороженная копия симулятора, чтобы нельзя было схитрить с измерениями.
Это не задачка с LeetCode. Нет единственного алгоритма, который нужно применить. В обсуждении на Hacker News это стало очевидно: один комментатор жаловался на сложности с «правильной упаковкой векторов», другие спорили, проверяет ли тест зазубренные паттерны оптимизации или реальное понимание.
Позиция Anthropic, судя по всему: важно и то, и другое. Но первое всё больше поддаётся автоматизации.
Зачем публиковать сейчас
В блог-посте от ноября 2025 года, посвящённом анонсу Opus 4.5, компания упоминала результаты на внутреннем тесте. При использовании параллельных вычислений на этапе генерации (когда запускается несколько попыток решения и выбирается лучшая) Opus 4.5 набрал больше баллов, чем любой человек за всю историю компании. Без этой техники и без ограничения по времени модель сравнялась с лучшим человеческим результатом.
Публикация теста решает несколько задач. Это инструмент рекрутинга: Anthropic прямо приглашает всех, кто выбьет меньше 1 487 тактов, написать на [email protected]. Заодно это заявление о том, куда движутся возможности ИИ в технических задачах.
Оговорки тоже важны. Anthropic признаёт: тест не измеряет умение работать в команде, общаться или принимать профессиональные решения. Двухчасовая оптимизация ядра ничего не говорит о способности проектировать системы месяцами или разбираться в организационных хитросплетениях. Но он измеряет что-то реальное. И это «что-то» уже доступно современным ИИ-системам.
Текущая таблица результатов
Репозиторий фиксирует прогресс моделей Claude:
| Модель | Такты | Примечания |
|---|---|---|
| Claude Opus 4 | 2 164 | Много часов, дополнительные вычисления |
| Claude Opus 4.5 | 1 790 | Обычная сессия, повторил лучший человеческий результат |
| Claude Opus 4.5 | 1 579 | 2 часа, дополнительные вычисления |
| Claude Sonnet 4.5 | 1 548 | Много часов, дополнительные вычисления |
| Claude Opus 4.5 | 1 487 | 11,5 часов, дополнительные вычисления |
| Claude Opus 4.5 | 1 363 | Улучшенное тестовое окружение |
Теперь попробовать может любой желающий, без ограничения по времени. Неявный вопрос: могут ли люди конкурировать, когда ИИ-модели получают те же преимущества?
Тест запускается локально на Python. Команда python tests/submission_tests.py покажет, какие пороги преодолевает ваше решение.




