LLM

В коде FlashMLA от DeepSeek нашли MODEL1: похоже, это не V3.2

Анализ кода показывает, что MODEL1 — самостоятельная ветка разработки с поддержкой будущих чипов Nvidia Blackwell.

Игорь Исаев
Игорь ИсаевАвтор об ИИ
21 января 2026 г.4 мин чтения
Поделиться:
Абстрактная визуализация расходящихся архитектур ИИ-моделей в виде параллельных световых потоков

20 января разработчики, копавшиеся в репозитории FlashMLA от DeepSeek, обнаружили кое-что любопытное. Идентификатор «MODEL1» встречается 28 раз в 114 файлах и стоит отдельно от «V32». Дата не случайна: ровно год назад DeepSeek выкатил R1 — ту самую reasoning-модель, из-за которой капитализация Nvidia на короткое время просела на 593 миллиарда долларов.

Что конкретно видно в коде

FlashMLA — это библиотека оптимизированных ядер внимания для инференса. На ней работают V3 и V3.2-Exp. Когда в коммитах появился MODEL1, он не был помечен как вариант V32. Код обрабатывает их как параллельные архитектуры.

В логике обработки есть конкретные расхождения. Разная компоновка KV-кэша. Разные правила работы с разреженностью. Отдельный путь для FP8-декодирования. Для минорного апдейта такие изменения не делают. Это архитектурные отличия.

Сообщество LocalLLaMA на Reddit заметило дополнительные детали. MODEL1 включает совместимость с архитектурой SM100 от Nvidia (это Blackwell), а не только с нынешними чипами Hopper. Ещё упоминается «Value Vector Position Awareness» и возврат к единому стандарту размерности 512.

Engram, скорее всего, войдёт в состав

Две недели назад DeepSeek опубликовал статью про Engram — модуль условной памяти, который принципиально меняет работу трансформеров с извлечением знаний. Вместо того чтобы заставлять модель реконструировать частые паттерны через дорогие вычисления, Engram даёт O(1) lookup для статических знаний.

На практике это означает вот что. Когда модель встречает «Диана, принцесса Уэльская», ей не нужно тратить несколько слоёв внимания, чтобы понять, что это значит. Она просто смотрит в память. В тестах DeepSeek их Engram-27B улучшил точность в Needle-in-a-Haystack с 84,2% до 97%.

Статью про Engram подписал в том числе основатель компании Лян Вэньфэн. Когда CEO ставит своё имя под исследованием, оно обычно попадает в продакшн.

Интегрирован ли Engram в MODEL1 — не подтверждено. Но совпадение по времени показательно. У DeepSeek есть привычка публиковать фундаментальные исследования незадолго до крупных релизов. С R1 было так же.

Вопрос названия

Если MODEL1 — новая архитектура, а не производная от V3, возникает вопрос: как её назовут? Логичная версия — V4, это вписывается в конвенцию DeepSeek. Но «MODEL1» как внутреннее кодовое имя может означать что угодно.

Понятно одно: это не V3.3 и не V3.2.1. Структура кода обращается с MODEL1 и V32 как с отдельными ветками со своими путями инференса. Отдельную поддержку GPU-архитектур для минорного обновления не пилят.

Окно релиза — февраль

У DeepSeek есть традиция выкатывать крупные анонсы под китайский Новый год. V3 и R1 оба вышли в окно Праздника весны в прошлом году. 17 февраля — китайский Новый год 2026. Отраслевые наблюдатели уже несколько недель указывают на середину февраля.

Компания ничего не подтверждала. DeepSeek предпочитает операционную тишину, прерываемую внезапными релизами. Но сигналов накопилось много: опубликовано исследование Engram, обновления FlashMLA с упоминаниями MODEL1, годовщина R1, приближающееся праздничное окно.

По неподтверждённым данным от сотрудников DeepSeek, внутренние бенчмарки показывают, что следующая модель превосходит Claude и GPT в задачах на код, особенно с длинным контекстом. К этому стоит относиться со здоровым скептицизмом до независимого тестирования.

Что это значит для рынка

Релиз R1 в прошлом январе вызвал настоящую панику. Китайская лаборатория, достигшая frontier-уровня при стоимости обучения в 20 раз меньше, поставила под вопрос предположения о вычислительных рвах и эффективности экспортного контроля. Если V4 реализует обещания архитектуры Engram по эффективной работе с длинным контекстом, разрыв может сократиться ещё сильнее.

DeepSeek выпускает модели с темпом, который заставляет западные лаборатории нервничать. V3 в декабре 2024, R1 в январе 2025, R1-0528 в мае, V3.1 в августе, V3.2 в декабре. Каждая — чуть ближе к границе возможного или на ней. По имеющимся данным, компания потратила на обучение R1 меньше 6 миллионов долларов, а переход от V3-Base к R1 обошёлся в 294 000 долларов.

Claude Opus 4.5 сейчас лидирует в SWE-bench Verified с результатом 80,9%. Это бенчмарк, который V4 должна превзойти, чтобы заявления о доминировании в коде имели основания. V3.2 уже показала результаты на уровне золотых медалей на IOI 2025 и финале ICPC World Finals без специального обучения на этих задачах, так что фундамент у DeepSeek есть.

Требования к железу остаются неизвестной переменной. Если V4 сохранит mixture-of-experts архитектуру V3 (671B параметров всего, 37B активных), она всё ещё будет требовать серьёзных объёмов VRAM. Энтузиасты локального развёртывания надеются на квантованные версии, работающие на двух RTX 4090 или новых 5090. Насколько это реалистично — зависит от того, какие архитектурные изменения на самом деле содержит MODEL1.

DeepSeek не комментирует ничего из этого. Коммуникационная стратегия компании состоит в публикации статей и выкладывании кода. Коммиты в FlashMLA и есть сообщение.

Игорь Исаев

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.