Исследователи из Improbable AI Lab при MIT опубликовали статью, в которой представили SEAL (Self-Adapting Language Models). Это фреймворк, который позволяет языковым моделям генерировать собственные обучающие данные и затем дообучаться на них. Препринт появился в июне 2025-го, обновлённая версия вышла в сентябре, код выложен под лицензией MIT.
Деталь, которая зацепила: один из авторов, Экин Акюрек, теперь работает в OpenAI. Он защитил PhD в MIT в апреле 2025-го и перешёл в их исследовательскую команду. Остальные соавторы пока в MIT. Выводы делайте сами.
Аналогия с учебником, которую они повторяют
Базовая идея SEAL такая: люди не зубрят учебники дословно. Мы делаем конспекты. Пересказываем своими словами. Готовим карточки для повторения. Модели, оказывается, должны делать то же самое.
Вместо того чтобы дообучать модель напрямую на сыром тексте (что, как выяснилось, почти не помогает), SEAL учит модель генерировать «самоправки»: переформулированные версии информации, на которых якобы проще учиться. Затем модель дообучается на этих самоправках через LoRA. Внешний цикл обучения с подкреплением награждает те самоправки, которые реально улучшают результаты на тестах.
Вложенная структура поначалу сбивает с толку. Есть внутренний цикл (сгенерировать самоправку, применить дообучение) и внешний цикл (оценить результат, наградить удачные самоправки, обновить политику). Для внешней оптимизации используют ReST-EM от DeepMind, потому что PPO и GRPO оказались «нестабильными». Подробности опущу.
Цифры
Тестировали на двух задачах. Первая: научить модель Qwen2.5-7B отвечать на вопросы по текстам из SQuAD, не имея самого текста в контексте. По сути, просто запомнить факты.
Базовая модель без адаптации: 32,7% точности. Дообучение на исходном тексте: 33,5%. То есть прямое дообучение практически ничего не даёт. Любопытно.
Добавление синтетических «импликаций», сгенерированных базовой моделью, поднимает результат до 39,7%. Если импликации генерирует GPT-4.1, получается 46,3%. А вот SEAL после двух раундов обучения с подкреплением выдаёт 47,0%. Семимиллиардная модель обходит синтетические данные от GPT-4.1. Это главная цифра, которую авторы продвигают, и она действительно удивляет.
Вторая задача: упрощённая версия ARC-AGI, бенчмарка на абстрактное мышление. SEAL достиг 72,5% успешных решений против 20% у test-time training без цикла RL. А обычное обучение в контексте дало буквально 0%. «Оракул» с идеально подобранными параметрами набрал 100%, так что есть куда расти.
О чём умалчивают
Статья честно говорит о вычислительных затратах, но как-то вскользь. Каждая оценка самоправки занимает 30–45 секунд. Они прогнали 750 итераций за два раунда. Это примерно 6 часов на двух H100 только на обучение с подкреплением. На одну задачу. Само дообучение быстрое благодаря LoRA, но внешний цикл съедает ресурсы.
И есть катастрофическое забывание. Авторы признают это открыто: по мере накопления самоправок результаты на предыдущих задачах деградируют. Пробовали корректировать функцию награды. Не особо помогло. В разделе про будущие исследования упоминают «воспроизведение данных, ограниченные обновления или репрезентационную суперпозицию» как возможные решения.
Главный вопрос
Практическая польза пока неясна. Сценарий, который они тестируют, то есть запоминание фактов из текстов без поиска, не соответствует тому, как работают реальные системы. Проще использовать RAG. Но как исследовательское направление к моделям, способным учиться после развёртывания, результаты наводят на мысли.
Финальное видение у авторов амбициозное: модели, которые решают прямо во время инференса, нужна ли им самоправка. Модели, которые дистиллируют свою цепочку рассуждений в постоянные веса. До этого далеко. Но когда семимиллиардная модель обходит синтетические данные GPT-4.1 на его же территории, это результат, на который обращают внимание.
Обновлённый код выложили в октябре. Ждём волну статей, которые будут на это ссылаться, к весне.




