Абстрактная визуализация архитектуры MoE с избирательной активацией нейронных путей

SEO METADATA

Meta Title: Z.ai выпустила GLM-4.7-Flash: MoE-модель на 30B для локального запуска Meta Description: Z.ai представила GLM-4.7-Flash — MoE-модель с 30 миллиардами параметров, из которых активны только 3 миллиарда. Открытые веса, поддержка vLLM и SGLang. URL Slug: glm-4-7-flash-moe-release Primary Keyword: GLM-4.7-Flash Secondary Keywords: MoE-модель, Z.ai, локальный запуск LLM, SWE-bench Tags: ["GLM-4.7-Flash", "Z.ai", "MoE", "открытые LLM", "модели для кода", "SWE-bench", "локальный запуск"]

ARTICLE

Z.ai выложила GLM-4.7-Flash — MoE-модель на 30 миллиардов параметров для локального инференса

Облегчённая версия флагманской GLM-4.7 рассчитана на тех, кто запускает модели на своём железе.

На этой неделе Z.ai залила на Hugging Face модель GLM-4.7-Flash. Это младший брат полноразмерной GLM-4.7, которую выпустили в конце декабря. Архитектура Mixture-of-Experts: всего 30 миллиардов параметров, но при прямом проходе активируется около 3 миллиардов. Экономия на вычислениях при сопоставимом качестве.

По бенчмаркам от самой компании: 91,6% на AIME 2025, 75,2% на GPQA, 59,2% на SWE-bench Verified. Последняя цифра интересная. Если модель действительно решает реальные баги с GitHub с такой точностью, это один из лучших результатов среди моделей её весовой категории. BrowseComp — 42,8%, τ²-Bench — 79,5%. Z.ai заявляет, что для моделей около 30B это state-of-the-art. (Проверить пока некому.)

Для деплоя используется vLLM или SGLang, оба из основных веток. В документации Z.ai есть команды запуска SGLang со speculative decoding. Полные веса модели занимают около 62,5 ГБ на Hugging Face в bf16. Для локального запуска железо нужно приличное, но активных параметров всё-таки в десять раз меньше, чем у dense-моделей того же размера.

Z.ai позиционирует Flash как бесплатный вариант рядом с флагманом. Применение: кодинг-агенты, задачи веб-браузинга, обычный чат.

Итог: GLM-4.7-Flash — open-weight MoE для тех, кому нужен компромисс между размером и скоростью инференса. Бенчмарки выглядят неплохо, но это данные от самих разработчиков. Ждём независимых тестов.

QUICK FACTS

Архитектура: 30B параметров всего, около 3B активных (MoE)
Размер весов: 62,5 ГБ (bf16)
SWE-bench Verified: 59,2% (данные компании)
AIME 2025: 91,6% (данные компании)
Лицензия: MIT
Фреймворки для инференса: vLLM и SGLang (основные ветки)

Теги:GLM-4.7-Flash Z.ai MoE открытые LLM модели для кода SWE-bench локальный запуск

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Z.ai выложила GLM-4.7-Flash — MoE-модель на 30 миллиардов параметров для локального инференса

SEO METADATA

ARTICLE

Z.ai выложила GLM-4.7-Flash — MoE-модель на 30 миллиардов параметров для локального инференса

QUICK FACTS

Игорь Исаев

Похожие статьи

В коде FlashMLA от DeepSeek нашли MODEL1: похоже, это не V3.2

Liquid AI выпустила модель с рассуждениями, которая помещается в смартфон

Microsoft выложила OptiMind: модель, которая сама пишет оптимизационную математику

Будьте впереди в мире ИИ