Qwen3-TTS: Alibaba открыла модели с клонированием голоса

Абстрактная визуализация звуковых волн, превращающихся в силуэты голосов, символизирующая ИИ-синтез речи

Команда Qwen выложила полный комплект Qwen3-TTS на GitHub и Hugging Face. Пять моделей, все под Apache 2.0: Base, CustomVoice и VoiceDesign в вариантах на 0.6 и 1.7 миллиарда параметров. В комплекте идёт токенизатор 12 Гц, который сжимает аудио примерно вдвое плотнее типичных речевых токенизаторов (те обычно работают на 25-50 Гц), при этом качество реконструкции, по заявлениям разработчиков, не страдает.

Клонирование голоса работает от трёх секунд референсного аудио на десяти языках, включая русский. VoiceDesign устроен иначе: описываешь нужный голос текстом, модель его генерирует. По бенчмарку InstructTTS-Eval модель 1.7B-VoiceDesign якобы обходит GPT-4o-mini-tts и Mimo-Audio-7B-Instruct, хотя это данные самих авторов. На мультиязычном тесте MiniMax TTS базовая модель показывает меньше ошибок, чем ElevenLabs и MiniMax по большинству языков. Опять же, если верить отчёту.

Архитектура использует дискретную языковую модель с несколькими кодовыми книгами вместо связки LM+DiT, которая сейчас в моде. По словам авторов, это позволяет избежать информационных узких мест и каскадных ошибок. Потоковая генерация поддерживается, задержка первого пакета меньше 300 мс. Документация по файнтюнингу лежит в репозитории.

Что это даёт на практике: разработчики получают полный стек для синтеза речи с клонированием голоса и текстовым управлением тембром. Можно слезть с закрытых API.

КРАТКО

5 моделей: варианты 0.6B и 1.7B для Base и CustomVoice, плюс 1.7B VoiceDesign
10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский, итальянский
Клонирование голоса от 3 секунд аудио (Base-модели)
Токенизатор 12 Гц (против обычных 25-50 Гц)
Лицензия Apache 2.0
Поддержка vLLM с первого дня

SOURCE INFO

Original Language: Russian Source Type: Announcement / social post Original Date: January 22, 2026

IMAGE PROMPT

A stylized sound wave visualization transforming into multiple diverse human silhouettes, representing voice synthesis and cloning. Clean modern aesthetic with a gradient from deep blue to teal. Abstract waveform patterns flow through the composition. Minimal, tech-forward design suitable for AI/ML news. 16:9 aspect ratio, digital illustration style. featuredImageAlt: Abstract visualization of sound waves transforming into voice silhouettes representing AI speech synthesis

EDITOR NOTES

Key entities to link: Qwen, Alibaba Cloud, Hugging Face, GitHub
Related recent coverage: Qwen3-TTS API launch (November 2025), voice design/clone API updates (December 2025)
Story freshness: Breaking
Claims to verify: Benchmark comparisons vs ElevenLabs, MiniMax, GPT-4o-mini-tts are company-reported
Dates to verify: January 22, 2026 release date confirmed in GitHub repo news section
LLM version note: Article references model names (Qwen3-TTS-12Hz-1.7B-Base, etc.) which are specific to this release

Anchor Text	URL	Context in Article
Qwen3-TTS	https://github.com/QwenLM/Qwen3-TTS	First mention of the release
Hugging Face	https://huggingface.co/collections/Qwen/qwen3-tts	Where models are hosted
technical paper	https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf	For architecture claims (if expanded)

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Qwen3-TTS: Alibaba открыла модели с клонированием голоса

КРАТКО

SOURCE INFO

IMAGE PROMPT

EDITOR NOTES

Suggested External Links

Игорь Исаев

Похожие статьи

Inworld выпустила TTS-1.5: задержка меньше 250 мс, цена $0.01 за минуту

Ollama научилась генерировать картинки локально на macOS

Бывшие сотрудники Stability AI выложили в открытый доступ модель мира реального времени

Будьте впереди в мире ИИ