Cursor неделю гонял сотни ИИ-агентов. Они написали браузер

Cursor опубликовал результаты своего эксперимента по масштабированию агентов. Главная цифра: сотни параллельно работающих агентов почти неделю генерировали код. Итог: больше трёх миллионов строк на Rust для браузера, написанного с нуля. В репозитории 3 342 коммита, код разбросан по тысяче файлов.

Браузер рендерит простые сайты. На скриншотах выглядит прилично. Но интересно тут не это.

Про координацию никто не говорит

Сначала попробовали демократию. Все агенты равны, координируются через общий файл: забирают задачи, обновляют статус, отпускают блокировки по завершении.

Не сработало.

Двадцать агентов выдавали производительность двух-трёх. Почти всё время уходило на ожидание блокировок. Агенты держали их слишком долго, забывали отпускать, падали с блокировкой в руках или вообще правили файлы без захвата. Классический кошмар распределённых систем.

Попробовали оптимистичный контроль конкурентности. Стало лучше, но вылезла другая проблема: без иерархии агенты стали перестраховываться. Делали мелкие безопасные правки. Никто не брался за сложное. В блоге пишут, что работа «буксовала подолгу без прогресса». Видел такое и в человеческих командах.

Планировщики и исполнители

Решение: ввести роли. Планировщики исследуют кодовую базу и создают задачи. Исполнители просто пашут над назначенными задачами до готовности, потом пушат. Агент-судья решает, продолжать ли после каждого цикла.

Это сняло большинство проблем с координацией. Но в посте есть любопытная деталь: пробовали добавить роль «интегратора» для контроля качества и разрешения конфликтов. Создало больше затыков, чем решило. Исполнители справлялись с конфликтами сами.

Вывод от Cursor: лучшая система проще, чем ожидаешь. Начинали с концепций распределённых вычислений и паттернов организационного дизайна. Большинство не перенеслось на агентов.

Что там реально работает

Браузер называется fastrender. Внутри HTML-парсер, каскад CSS, движок лейаута, рендеринг текста и кастомная виртуальная машина JavaScript. Всё на Rust. Агенты также провернули миграцию с Solid на React в самой кодовой базе Cursor: три недели, 266 тысяч строк добавлено, 193 тысячи удалено. Эту часть, возможно, даже замерджат.

Другие эксперименты, которые ещё крутятся на момент публикации:

Java LSP: 7 400 коммитов, 550 тысяч строк
Эмулятор Windows 7: 14 600 коммитов, 1,2 миллиона строк
Клон Excel: 12 000 коммитов, 1,6 миллиона строк

Публичных репозиториев для них я не нашёл. Делайте выводы.

GPT-5.2 против Opus 4.5

Тут становится интересно для тех, кто сравнивает модели. Cursor обнаружил, что GPT-5.2 заметно лучше справляется с длительной автономной работой. Следует инструкциям, держит фокус, не дрейфует, доводит реализацию до конца.

Opus 4.5? «Склонен останавливаться раньше и срезать углы когда удобно, быстро возвращая контроль». Вежливый способ сказать, что он сдаётся.

И контринтуитивная находка: GPT-5.2 лучше планирует, чем GPT-5.1-codex, хотя последнюю модель специально тренировали для кода. Теперь Cursor назначает разные модели на разные роли вместо использования одной модели для всего.

Главный вывод

Самое важное спрятано в секции «Чему мы научились». После всей работы над архитектурой, после разбиения на планировщиков и исполнителей, после сравнения моделей, главным фактором успеха оказались промпты.

Заставить агентов координироваться, избегать патологического поведения и держать фокус неделями удалось благодаря «обширным экспериментам» с инструкциями. Обвязка и модели важны, но промпты важнее.

Это совпадает с тем, что я слышал от других команд, работающих с долгоживущими агентами. Можно неделями пилить инфраструктуру, но поведение реально формируется в промптах.

Что пока не решено

Система неоптимальна. Их слова, не мои. Планировщики должны просыпаться при завершении задач, чтобы планировать следующий шаг, но не просыпаются. Агенты иногда работают непозволительно долго. Периодически нужны свежие запуски для борьбы с тем, что они называют «дрейфом и туннельным зрением».

Но оптимизм явно присутствует. Пост заканчивается приглашением на работу, а это намекает, что в подход верят.

Браузер вряд ли заменит Chrome. Но сам факт, что он существует, написанный агентами без код-ревью от людей за неделю, заставляет пересматривать прогнозы. Посмотрим, что из этого выйдет.