Чипы

China Telecom выпустила модель рассуждения, обученную целиком на китайском железе

36 миллиардов параметров, бенчмарки на уровне Qwen и GPT-OSS. И ни одного чипа Nvidia.

Ирина Андреева
Ирина АндрееваКорреспондент по ИИ и Инновациям
20 января 2026 г.4 мин чтения
Поделиться:
Абстрактная иллюстрация, изображающая слияние китайской разработки отечественных ИИ-чипов и архитектуры нейронных сетей

Исследовательский институт ИИ при China Telecom в конце декабря выложил TeleChat3-36B-Thinking. Это языковая модель с упором на рассуждение, которую, по заявлению компании, от начала до конца обучали на ускорителях Huawei Ascend с использованием фреймворка MindSpore. Веса модели доступны на Hugging Face.

Про железо

Интересен не размер модели. Интересна инфраструктура.

TeleChat3 работает на серверах Atlas 800T A2 — китайской альтернативе дата-центровых GPU от Nvidia. В карточке модели отдельно подчёркивается совместимость с железом Ascend и MindSpore Transformers, хуавеевским тулкитом для обучения больших моделей. Судя по техническому отчёту China Telecom, предыдущие модели TeleChat2 обучались на кластерах из 8 000 ускорителей Ascend с использованием стратегии 4D-параллелизма.

Время релиза неслучайно. В мае 2025-го Министерство торговли США выпустило разъяснение, что использование чипов Huawei Ascend 910B, 910C и 910D может нарушать американские экспортные ограничения. Сначала там утверждалось, что это касается «всех стран мира», потом формулировку смягчили. Китайское Министерство коммерции в ответ пригрозило судебным преследованием всем, кто будет эти ограничения соблюдать.

Архитектура позаимствована у DeepSeek

В карточке модели прямо признаётся, что авторы опирались на архитектурные решения DeepSeek. Более крупный вариант TeleChat3-105B-A4.7B использует Multi-Latent Attention — технику эффективного использования памяти, которую DeepSeek представила в модели V2. MLA сжимает key-value векторы в низкоразмерное латентное пространство перед кэшированием. Это резко снижает требования к KV-кэшу при инференсе, что особенно полезно для задач с длинным контекстом.

В 36-миллиардной dense-модели используется grouped-query attention, выбор более консервативный. Но в разделе благодарностей документации China Telecom явно упоминается «команда DeepSeek» за архитектурные идеи, которые помогли добиться стабильности и эффективности обучения.

Вопрос бенчмарков

China Telecom опубликовала результаты по нескольким бенчмаркам в режиме рассуждения. Кое-что бросается в глаза.

На SWE-Bench Verified заявлено 51% для 36-миллиардной модели. По их таблице это выше, чем у Qwen3-30B-A3B (21%) и Qwen3-32B (28%). Я бы усомнился. Результаты SWE-Bench печально известны своей чувствительностью к обвязке и методологии оценки, а были ли условия сопоставимыми, мы не знаем.

Результат AIME 2025 — 73,3% — в их отчёте точно совпадает с GPT-OSS-120B. GPQA-Diamond 70,56% обходит 68,4% у Qwen3-32B. Всё это самоотчёт, независимая проверка не помешала бы.

Чего нет: никакого сравнения с DeepSeek-V3 или R1, то есть с моделями, чьи архитектурные идеи позаимствованы. Отсутствие бросается в глаза.

Шире, чем одна модель

Серия TeleChat — это не просто очередной ИИ-проект одной компании. China Telecom публично заявляла, что их модели демонстрируют «полную самодостаточность в обучении отечественных LLM». Заявление столько же политическое, сколько техническое.

Ещё в 2024-м China Telecom анонсировала триллионнопараметрическую модель, тоже обученную на отечественном железе. Тот же стек Ascend и MindSpore. Институт ИИ при China Telecom называл это доказательством того, что Китай избавился от зависимости от иностранных полупроводников в крупномасштабном обучении ИИ.

Реальность сложнее. Производство чипов Huawei ограничено. По оценке Council on Foreign Relations от конца 2025 года, Huawei может выпустить от 300 000 до 400 000 ИИ-чипов в 2025-м. Для сравнения, у Nvidia прогноз 4-5 миллионов. Даже по оптимистичным оценкам Huawei даёт примерно 5% совокупной ИИ-вычислительной мощности Nvidia.

Но вычислительная мощность — не всё. DeepSeek показал, что эффективность обучения имеет огромное значение. Если китайские лаборатории смогут выжимать больше возможностей из меньшего числа чипов за счёт архитектурных инноваций и оптимизации обучения, прямые сравнения по compute становятся менее показательными.

Ставка на полный стек

Huawei делает не только чипы. MindSpore, их фреймворк глубокого обучения, обеспечивает программный слой. Он спроектирован для того, что Huawei называет развёртыванием «устройство-edge-облако»: одни и те же модели работают в дата-центрах, на edge-серверах и мобильных устройствах. Фреймворк использует автоматическое дифференцирование через преобразование исходного кода, а не перегрузку операторов. По словам Huawei, это позволяет лучше оптимизировать на этапе компиляции.

Сможет ли MindSpore сравниться с экосистемой PyTorch и его популярностью у разработчиков — другой вопрос. Но для китайских компаний, которые могут столкнуться с ограничениями на софт американского происхождения, наличие отечественной альтернативы важно хотя бы для управления рисками.

China Telecom и Huawei в начале 2025-го совместно запустили то, что они называют первым коммерческим «супернодом Ascend», нацеленным на крупномасштабные задачи обучения ИИ. Компании позиционируют это как инфраструктуру, которую китайские фирмы могут взять целиком, избегая комплаенс-неопределённости, связанной с железом Nvidia.

Что дальше

TeleChat3-36B-Thinking уже доступна на Hugging Face и ModelScope. China Telecom рекомендует конкретные параметры инференса для задач рассуждения: temperature 1,1-1,2, repetition penalty 1,0, top_p 0,95. Для общих задач советуют снизить temperature до 0,6 и поднять repetition penalty до 1,05, чтобы уменьшить повторы.

В репозитории на GitHub есть интеграция с MindSpore Transformers для развёртывания на отечественном железе. Также выпущен более крупный MoE-вариант TeleChat3-105B-A4.7B-Thinking со 192 маршрутизируемыми экспертами.

Получит ли модель широкое распространение за пределами Китая — непонятно. Заявленные бенчмарки интересны, но не проверены. Архитектура во многом заимствована у DeepSeek. Что действительно ново — это демонстрация того, что обучение моделей триллионного масштаба возможно на полностью отечественном китайском железе и софте, несмотря на экспортные ограничения США.

Билл Гейтс недавно сказал CNN, что американские технологические запреты «вынудили китайцев в области производства чипов и всего остального идти на полной скорости вперёд». TeleChat3 — одно из свидетельств того, что он, возможно, прав.

Ирина Андреева

Ирина Андреева

Корреспондент по ИИ и Инновациям

Ирина освещает стремительно развивающийся мир искусственного интеллекта, от прорывов в исследовательских лабораториях до практических решений, которые меняют целые отрасли. Имея опыт в компьютерных науках и журналистике, она превращает сложные технические разработки в понятные и доступные инсайты для любознательных читателей.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.