Карьера

Anthropic выложила тестовое задание, с которым Claude 4.5 справился лучше всех кандидатов

Anthropic опубликовала на GitHub своё легендарно сложное тестовое по оптимизации. Claude Opus 4.5 обошёл всех людей.

Аркадий Степанов
Аркадий СтепановSenior ИИ-редактор
21 января 2026 г.3 мин чтения
Поделиться:
Абстрактная иллюстрация циферблата из электронных схем с пролетающим мимо кодом, символизирующая скорость ИИ в технических задачах

Anthropic опубликовала на GitHub внутреннее тестовое задание для инженеров по производительности. Компания перестала его использовать, потому что Claude Opus 4.5 показал результат лучше, чем любой кандидат за всю историю.

Задача, которую никто не просил

Формулировка звучит обманчиво просто: оптимизировать ядро на симулированной многоядерной машине, результат измеряется в тактах. На всё даётся два часа. Базовая реализация работает за 147 734 такта. Лучший человеческий результат за отведённое время: около 1 790 тактов.

Claude Opus 4.5, по словам Anthropic, в «обычной сессии Claude Code» повторил этот результат. А за два часа в тестовом окружении с дополнительными вычислениями на этапе генерации модель выдала 1 579 тактов. За 11,5 часов: 1 487.

В репозитории лежит полная архитектура симулированной машины, эталонное ядро и визуализатор трассировки для отладки. На Hacker News сразу заметили сходство с демосценой и соревнованиями по «гольфу кода», где программисты соревнуются в написании максимально компактных или быстрых программ для визуальных демок.

«Тест нацелен на людей, которым можно доверить писать PTX вручную», написал один комментатор. PTX — это низкоуровневый ассемблер для GPU от NVIDIA.

Что на самом деле требуется

Код намеренно запутан. Сначала нужно разобраться, что он делает, и только потом оптимизировать. Симулированная машина имеет несколько ядер, векторные операции и систему рабочей памяти. Писать нужно на Python, но сама работа напоминает тюнинг GPU-ядер.

Согласно описанию задачи, цель в том, чтобы минимизировать такты, переписав функцию KernelBuilder.build_kernel. В комплекте идёт замороженная копия симулятора, чтобы нельзя было схитрить с измерениями.

Это не задачка с LeetCode. Нет единственного алгоритма, который нужно применить. В обсуждении на Hacker News это стало очевидно: один комментатор жаловался на сложности с «правильной упаковкой векторов», другие спорили, проверяет ли тест зазубренные паттерны оптимизации или реальное понимание.

Позиция Anthropic, судя по всему: важно и то, и другое. Но первое всё больше поддаётся автоматизации.

Зачем публиковать сейчас

В блог-посте от ноября 2025 года, посвящённом анонсу Opus 4.5, компания упоминала результаты на внутреннем тесте. При использовании параллельных вычислений на этапе генерации (когда запускается несколько попыток решения и выбирается лучшая) Opus 4.5 набрал больше баллов, чем любой человек за всю историю компании. Без этой техники и без ограничения по времени модель сравнялась с лучшим человеческим результатом.

Публикация теста решает несколько задач. Это инструмент рекрутинга: Anthropic прямо приглашает всех, кто выбьет меньше 1 487 тактов, написать на [email protected]. Заодно это заявление о том, куда движутся возможности ИИ в технических задачах.

Оговорки тоже важны. Anthropic признаёт: тест не измеряет умение работать в команде, общаться или принимать профессиональные решения. Двухчасовая оптимизация ядра ничего не говорит о способности проектировать системы месяцами или разбираться в организационных хитросплетениях. Но он измеряет что-то реальное. И это «что-то» уже доступно современным ИИ-системам.

Текущая таблица результатов

Репозиторий фиксирует прогресс моделей Claude:

Модель Такты Примечания
Claude Opus 4 2 164 Много часов, дополнительные вычисления
Claude Opus 4.5 1 790 Обычная сессия, повторил лучший человеческий результат
Claude Opus 4.5 1 579 2 часа, дополнительные вычисления
Claude Sonnet 4.5 1 548 Много часов, дополнительные вычисления
Claude Opus 4.5 1 487 11,5 часов, дополнительные вычисления
Claude Opus 4.5 1 363 Улучшенное тестовое окружение

Теперь попробовать может любой желающий, без ограничения по времени. Неявный вопрос: могут ли люди конкурировать, когда ИИ-модели получают те же преимущества?

Тест запускается локально на Python. Команда python tests/submission_tests.py покажет, какие пороги преодолевает ваше решение.

Аркадий Степанов

Аркадий Степанов

Senior ИИ-редактор

Бывший инженер-программист, ставший техно-журналистом, Аркадий уже пять лет внимательно следит за развитием искусственного интеллекта. Он смотрит на хайп и реальные инновации глазами практика, помогая читателям отличать действительно важное от информационного шума.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.