Генерация Изображений

Z-Image-Omni-Base на подходе: код уже в репозитории

В DiffSynth-Studio добавили полную инфраструктуру для единой 6-миллиардной модели Alibaba, включая поддержку ControlNet

Игорь Исаев
Игорь ИсаевАвтор об ИИ
9 января 2026 г.3 мин чтения
Поделиться:
Абстрактная иллюстрация единой генерации текста и изображений через однопоточную архитектуру

Седьмого и восьмого января в репозиторий ModelScope DiffSynth-Studio посыпались коммиты с полной поддержкой Z-Image-Omni-Base. Это та самая единая модель Alibaba для генерации и редактирования картинок, которую сообщество ждёт уже несколько месяцев. Код готов. Веса на Hugging Face по-прежнему «coming soon». Выводы делайте сами.

Что появилось в коммитах

Мердж от разработчика Artiprocher 8 января получился солидным: 37 файлов, 2 341 строка нового кода. Artiprocher, судя по истории репозитория, ведёт основную разработку DiffSynth-Studio.

Добавили: конфигурации для самой Z-Image-Omni-Base, визуальный энкодер Siglip2 на 428 млн параметров, ZImageControlNet. И ещё кое-что под названием ZImageImage2LoRAModel (об этом ниже).

ControlNet заслуживает отдельного внимания. В коммите 15-слойная управляющая архитектура, которая подключается к трансформерным блокам базовой модели через определённые интервалы. Есть управление VRAM для инференса на слабых машинах, скрипты обучения, код валидации.

Это не заглушки. Это готовая к запуску инфраструктура, которой не хватает только весов модели.

Почему Omni-Base, а не просто Base

Alibaba тихо переименовала модель. В техническом отчёте от 1 декабря объясняется, откуда взялось «omni»: модель с самого начала обучали одновременно на данных для генерации и редактирования. Из одного чекпоинта получаешь и text-to-image, и image-to-image.

Главный аргумент: одна модель, две задачи, никаких накладных расходов на переключение. LoRA-адаптеры, обученные для генерации, должны работать и для редактирования. По крайней мере, в теории.

Z-Image-Turbo доступен с 26 ноября и занимает 8-е место в рейтинге Artificial Analysis, первое среди открытых моделей. Но Turbo дистиллирован для скорости, дообучать его толком нельзя, потеряешь ускорение. Сообщество просит базовые веса с первого дня.

Ожидание затянулось

На Hugging Face есть тред, где один пользователь признаётся, что написал бота, который каждые 8 часов проверяет, не выложили ли веса. Другой умоляет назвать хотя бы примерные сроки, что угодно. Кто-то отвечает в тему: «Если бы разработчики могли назвать точную дату, они бы уже это сделали».

В официальном GitHub Omni-Base и Z-Image-Edit по-прежнему числятся как «to be released». Формулировка не менялась. Но появление инфраструктуры в DiffSynth-Studio говорит само за себя.

Что реально нового

Модель Image-to-LoRA я раньше не встречал. В коммите появился ZImageImage2LoRAModel со слоем сжатия на 128 измерений. DiffSynth-Studio выпустили похожую штуку для Qwen-Image в декабре: генерируешь LoRA из одной картинки. Если для Z-Image это работает так же, получается серьёзное дополнение к рабочему процессу.

Поддержка ControlNet идёт в двух вариантах: tile и union (несколько типов контроля сразу). Union-версия ссылается на путь к модели PAI, так что, возможно, их выложат отдельно.

Вопрос про 6 миллиардов

Весь смысл Z-Image в эффективности. Шесть миллиардов параметров выдают результаты на уровне моделей в 20-80 миллиардов. В статье пишут, что всё обучение заняло 314 тысяч GPU-часов на H800, примерно 630 тысяч долларов. Для сравнения: это неделя вычислений на приличном кластере.

Архитектура называется «Scalable Single-Stream Diffusion Transformer». Всё идёт через одну последовательность: текстовые эмбеддинги, токены изображения, визуальные семантические токены. Никаких двойных потоков, никаких отдельных путей обработки.

Устоит ли это под дообучением от сообщества, пока неясно. Turbo хорошо работает из коробки. Omni-Base нужен для кастомизации.

Что дальше

Код в DiffSynth-Studio смержен и готов к работе. На Reddit множатся треды. Кто-то на r/StableDiffusion 8 января написал «Z-Image OmniBase looking like it's gonna release soon», ссылаясь именно на эти коммиты.

Веса могут появиться на Hugging Face или ModelScope в любой момент. Скорее всего, в ближайшие дни. Может, часы. Команда Tongyi-MAI ничего публично не анонсирует. Они просто выкладывают обновления, когда готово.

Посмотрим.

Игорь Исаев

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.