Anthropic выложила тестовое задание, с которым Claude 4.5 справился лучше всех кандидатов

Абстрактная иллюстрация циферблата из электронных схем с пролетающим мимо кодом, символизирующая скорость ИИ в технических задачах

Anthropic опубликовала на GitHub внутреннее тестовое задание для инженеров по производительности. Компания перестала его использовать, потому что Claude Opus 4.5 показал результат лучше, чем любой кандидат за всю историю.

Задача, которую никто не просил

Формулировка звучит обманчиво просто: оптимизировать ядро на симулированной многоядерной машине, результат измеряется в тактах. На всё даётся два часа. Базовая реализация работает за 147 734 такта. Лучший человеческий результат за отведённое время: около 1 790 тактов.

Claude Opus 4.5, по словам Anthropic, в «обычной сессии Claude Code» повторил этот результат. А за два часа в тестовом окружении с дополнительными вычислениями на этапе генерации модель выдала 1 579 тактов. За 11,5 часов: 1 487.

В репозитории лежит полная архитектура симулированной машины, эталонное ядро и визуализатор трассировки для отладки. На Hacker News сразу заметили сходство с демосценой и соревнованиями по «гольфу кода», где программисты соревнуются в написании максимально компактных или быстрых программ для визуальных демок.

«Тест нацелен на людей, которым можно доверить писать PTX вручную», написал один комментатор. PTX — это низкоуровневый ассемблер для GPU от NVIDIA.

Что на самом деле требуется

Код намеренно запутан. Сначала нужно разобраться, что он делает, и только потом оптимизировать. Симулированная машина имеет несколько ядер, векторные операции и систему рабочей памяти. Писать нужно на Python, но сама работа напоминает тюнинг GPU-ядер.

Согласно описанию задачи, цель в том, чтобы минимизировать такты, переписав функцию KernelBuilder.build_kernel. В комплекте идёт замороженная копия симулятора, чтобы нельзя было схитрить с измерениями.

Это не задачка с LeetCode. Нет единственного алгоритма, который нужно применить. В обсуждении на Hacker News это стало очевидно: один комментатор жаловался на сложности с «правильной упаковкой векторов», другие спорили, проверяет ли тест зазубренные паттерны оптимизации или реальное понимание.

Позиция Anthropic, судя по всему: важно и то, и другое. Но первое всё больше поддаётся автоматизации.

Зачем публиковать сейчас

В блог-посте от ноября 2025 года, посвящённом анонсу Opus 4.5, компания упоминала результаты на внутреннем тесте. При использовании параллельных вычислений на этапе генерации (когда запускается несколько попыток решения и выбирается лучшая) Opus 4.5 набрал больше баллов, чем любой человек за всю историю компании. Без этой техники и без ограничения по времени модель сравнялась с лучшим человеческим результатом.

Публикация теста решает несколько задач. Это инструмент рекрутинга: Anthropic прямо приглашает всех, кто выбьет меньше 1 487 тактов, написать на [email protected]. Заодно это заявление о том, куда движутся возможности ИИ в технических задачах.

Оговорки тоже важны. Anthropic признаёт: тест не измеряет умение работать в команде, общаться или принимать профессиональные решения. Двухчасовая оптимизация ядра ничего не говорит о способности проектировать системы месяцами или разбираться в организационных хитросплетениях. Но он измеряет что-то реальное. И это «что-то» уже доступно современным ИИ-системам.

Текущая таблица результатов

Репозиторий фиксирует прогресс моделей Claude:

Модель	Такты	Примечания
Claude Opus 4	2 164	Много часов, дополнительные вычисления
Claude Opus 4.5	1 790	Обычная сессия, повторил лучший человеческий результат
Claude Opus 4.5	1 579	2 часа, дополнительные вычисления
Claude Sonnet 4.5	1 548	Много часов, дополнительные вычисления
Claude Opus 4.5	1 487	11,5 часов, дополнительные вычисления
Claude Opus 4.5	1 363	Улучшенное тестовое окружение

Теперь попробовать может любой желающий, без ограничения по времени. Неявный вопрос: могут ли люди конкурировать, когда ИИ-модели получают те же преимущества?

Тест запускается локально на Python. Команда python tests/submission_tests.py покажет, какие пороги преодолевает ваше решение.

Теги:Anthropic Claude ИИ-программирование техническое собеседование открытый код оптимизация производительности оптимизация ядра найм бенчмарк

Аркадий Степанов

Senior ИИ-редактор

Бывший инженер-программист, ставший техно-журналистом, Аркадий уже пять лет внимательно следит за развитием искусственного интеллекта. Он смотрит на хайп и реальные инновации глазами практика, помогая читателям отличать действительно важное от информационного шума.

Anthropic выложила тестовое задание, с которым Claude 4.5 справился лучше всех кандидатов

Задача, которую никто не просил

Что на самом деле требуется

Зачем публиковать сейчас

Текущая таблица результатов

Аркадий Степанов

Похожие статьи

В McKinsey теперь 25 000 ИИ-«сотрудников». К декабрю хотят довести до 40 000

Anthropic выложила «душу» Claude в открытый доступ

Сооснователь Instagram возвращается к стартап-режиму в Anthropic Labs

Будьте впереди в мире ИИ