Команда Qwen выложила полный комплект Qwen3-TTS на GitHub и Hugging Face. Пять моделей, все под Apache 2.0: Base, CustomVoice и VoiceDesign в вариантах на 0.6 и 1.7 миллиарда параметров. В комплекте идёт токенизатор 12 Гц, который сжимает аудио примерно вдвое плотнее типичных речевых токенизаторов (те обычно работают на 25-50 Гц), при этом качество реконструкции, по заявлениям разработчиков, не страдает.
Клонирование голоса работает от трёх секунд референсного аудио на десяти языках, включая русский. VoiceDesign устроен иначе: описываешь нужный голос текстом, модель его генерирует. По бенчмарку InstructTTS-Eval модель 1.7B-VoiceDesign якобы обходит GPT-4o-mini-tts и Mimo-Audio-7B-Instruct, хотя это данные самих авторов. На мультиязычном тесте MiniMax TTS базовая модель показывает меньше ошибок, чем ElevenLabs и MiniMax по большинству языков. Опять же, если верить отчёту.
Архитектура использует дискретную языковую модель с несколькими кодовыми книгами вместо связки LM+DiT, которая сейчас в моде. По словам авторов, это позволяет избежать информационных узких мест и каскадных ошибок. Потоковая генерация поддерживается, задержка первого пакета меньше 300 мс. Документация по файнтюнингу лежит в репозитории.
Что это даёт на практике: разработчики получают полный стек для синтеза речи с клонированием голоса и текстовым управлением тембром. Можно слезть с закрытых API.
КРАТКО
- 5 моделей: варианты 0.6B и 1.7B для Base и CustomVoice, плюс 1.7B VoiceDesign
- 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский, итальянский
- Клонирование голоса от 3 секунд аудио (Base-модели)
- Токенизатор 12 Гц (против обычных 25-50 Гц)
- Лицензия Apache 2.0
- Поддержка vLLM с первого дня
SOURCE INFO
Original Language: Russian Source Type: Announcement / social post Original Date: January 22, 2026
IMAGE PROMPT
A stylized sound wave visualization transforming into multiple diverse human silhouettes, representing voice synthesis and cloning. Clean modern aesthetic with a gradient from deep blue to teal. Abstract waveform patterns flow through the composition. Minimal, tech-forward design suitable for AI/ML news. 16:9 aspect ratio, digital illustration style. featuredImageAlt: Abstract visualization of sound waves transforming into voice silhouettes representing AI speech synthesis
EDITOR NOTES
- Key entities to link: Qwen, Alibaba Cloud, Hugging Face, GitHub
- Related recent coverage: Qwen3-TTS API launch (November 2025), voice design/clone API updates (December 2025)
- Story freshness: Breaking
- Claims to verify: Benchmark comparisons vs ElevenLabs, MiniMax, GPT-4o-mini-tts are company-reported
- Dates to verify: January 22, 2026 release date confirmed in GitHub repo news section
- LLM version note: Article references model names (Qwen3-TTS-12Hz-1.7B-Base, etc.) which are specific to this release
Suggested External Links
| Anchor Text | URL | Context in Article |
|---|---|---|
| Qwen3-TTS | https://github.com/QwenLM/Qwen3-TTS | First mention of the release |
| Hugging Face | https://huggingface.co/collections/Qwen/qwen3-tts | Where models are hosted |
| technical paper | https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf | For architecture claims (if expanded) |




