Седьмого и восьмого января в репозиторий ModelScope DiffSynth-Studio посыпались коммиты с полной поддержкой Z-Image-Omni-Base. Это та самая единая модель Alibaba для генерации и редактирования картинок, которую сообщество ждёт уже несколько месяцев. Код готов. Веса на Hugging Face по-прежнему «coming soon». Выводы делайте сами.
Что появилось в коммитах
Мердж от разработчика Artiprocher 8 января получился солидным: 37 файлов, 2 341 строка нового кода. Artiprocher, судя по истории репозитория, ведёт основную разработку DiffSynth-Studio.
Добавили: конфигурации для самой Z-Image-Omni-Base, визуальный энкодер Siglip2 на 428 млн параметров, ZImageControlNet. И ещё кое-что под названием ZImageImage2LoRAModel (об этом ниже).
ControlNet заслуживает отдельного внимания. В коммите 15-слойная управляющая архитектура, которая подключается к трансформерным блокам базовой модели через определённые интервалы. Есть управление VRAM для инференса на слабых машинах, скрипты обучения, код валидации.
Это не заглушки. Это готовая к запуску инфраструктура, которой не хватает только весов модели.
Почему Omni-Base, а не просто Base
Alibaba тихо переименовала модель. В техническом отчёте от 1 декабря объясняется, откуда взялось «omni»: модель с самого начала обучали одновременно на данных для генерации и редактирования. Из одного чекпоинта получаешь и text-to-image, и image-to-image.
Главный аргумент: одна модель, две задачи, никаких накладных расходов на переключение. LoRA-адаптеры, обученные для генерации, должны работать и для редактирования. По крайней мере, в теории.
Z-Image-Turbo доступен с 26 ноября и занимает 8-е место в рейтинге Artificial Analysis, первое среди открытых моделей. Но Turbo дистиллирован для скорости, дообучать его толком нельзя, потеряешь ускорение. Сообщество просит базовые веса с первого дня.
Ожидание затянулось
На Hugging Face есть тред, где один пользователь признаётся, что написал бота, который каждые 8 часов проверяет, не выложили ли веса. Другой умоляет назвать хотя бы примерные сроки, что угодно. Кто-то отвечает в тему: «Если бы разработчики могли назвать точную дату, они бы уже это сделали».
В официальном GitHub Omni-Base и Z-Image-Edit по-прежнему числятся как «to be released». Формулировка не менялась. Но появление инфраструктуры в DiffSynth-Studio говорит само за себя.
Что реально нового
Модель Image-to-LoRA я раньше не встречал. В коммите появился ZImageImage2LoRAModel со слоем сжатия на 128 измерений. DiffSynth-Studio выпустили похожую штуку для Qwen-Image в декабре: генерируешь LoRA из одной картинки. Если для Z-Image это работает так же, получается серьёзное дополнение к рабочему процессу.
Поддержка ControlNet идёт в двух вариантах: tile и union (несколько типов контроля сразу). Union-версия ссылается на путь к модели PAI, так что, возможно, их выложат отдельно.
Вопрос про 6 миллиардов
Весь смысл Z-Image в эффективности. Шесть миллиардов параметров выдают результаты на уровне моделей в 20-80 миллиардов. В статье пишут, что всё обучение заняло 314 тысяч GPU-часов на H800, примерно 630 тысяч долларов. Для сравнения: это неделя вычислений на приличном кластере.
Архитектура называется «Scalable Single-Stream Diffusion Transformer». Всё идёт через одну последовательность: текстовые эмбеддинги, токены изображения, визуальные семантические токены. Никаких двойных потоков, никаких отдельных путей обработки.
Устоит ли это под дообучением от сообщества, пока неясно. Turbo хорошо работает из коробки. Omni-Base нужен для кастомизации.
Что дальше
Код в DiffSynth-Studio смержен и готов к работе. На Reddit множатся треды. Кто-то на r/StableDiffusion 8 января написал «Z-Image OmniBase looking like it's gonna release soon», ссылаясь именно на эти коммиты.
Веса могут появиться на Hugging Face или ModelScope в любой момент. Скорее всего, в ближайшие дни. Может, часы. Команда Tongyi-MAI ничего публично не анонсирует. Они просто выкладывают обновления, когда готово.
Посмотрим.




