SEO METADATA
Meta Title: Z.ai выпустила GLM-4.7-Flash: MoE-модель на 30B для локального запуска Meta Description: Z.ai представила GLM-4.7-Flash — MoE-модель с 30 миллиардами параметров, из которых активны только 3 миллиарда. Открытые веса, поддержка vLLM и SGLang. URL Slug: glm-4-7-flash-moe-release Primary Keyword: GLM-4.7-Flash Secondary Keywords: MoE-модель, Z.ai, локальный запуск LLM, SWE-bench Tags: ["GLM-4.7-Flash", "Z.ai", "MoE", "открытые LLM", "модели для кода", "SWE-bench", "локальный запуск"]
ARTICLE
Z.ai выложила GLM-4.7-Flash — MoE-модель на 30 миллиардов параметров для локального инференса
Облегчённая версия флагманской GLM-4.7 рассчитана на тех, кто запускает модели на своём железе.
На этой неделе Z.ai залила на Hugging Face модель GLM-4.7-Flash. Это младший брат полноразмерной GLM-4.7, которую выпустили в конце декабря. Архитектура Mixture-of-Experts: всего 30 миллиардов параметров, но при прямом проходе активируется около 3 миллиардов. Экономия на вычислениях при сопоставимом качестве.
По бенчмаркам от самой компании: 91,6% на AIME 2025, 75,2% на GPQA, 59,2% на SWE-bench Verified. Последняя цифра интересная. Если модель действительно решает реальные баги с GitHub с такой точностью, это один из лучших результатов среди моделей её весовой категории. BrowseComp — 42,8%, τ²-Bench — 79,5%. Z.ai заявляет, что для моделей около 30B это state-of-the-art. (Проверить пока некому.)
Для деплоя используется vLLM или SGLang, оба из основных веток. В документации Z.ai есть команды запуска SGLang со speculative decoding. Полные веса модели занимают около 62,5 ГБ на Hugging Face в bf16. Для локального запуска железо нужно приличное, но активных параметров всё-таки в десять раз меньше, чем у dense-моделей того же размера.
Z.ai позиционирует Flash как бесплатный вариант рядом с флагманом. Применение: кодинг-агенты, задачи веб-браузинга, обычный чат.
Итог: GLM-4.7-Flash — open-weight MoE для тех, кому нужен компромисс между размером и скоростью инференса. Бенчмарки выглядят неплохо, но это данные от самих разработчиков. Ждём независимых тестов.
QUICK FACTS
- Архитектура: 30B параметров всего, около 3B активных (MoE)
- Размер весов: 62,5 ГБ (bf16)
- SWE-bench Verified: 59,2% (данные компании)
- AIME 2025: 91,6% (данные компании)
- Лицензия: MIT
- Фреймворки для инференса: vLLM и SGLang (основные ветки)




