Голосовой AI

Qwen3-TTS: Alibaba открыла модели с клонированием голоса

Веса для 0.6B и 1.7B моделей под Apache 2.0.

Игорь Исаев
Игорь ИсаевАвтор об ИИ
22 января 2026 г.3 мин чтения
Поделиться:
Абстрактная визуализация звуковых волн, превращающихся в силуэты голосов, символизирующая ИИ-синтез речи

Команда Qwen выложила полный комплект Qwen3-TTS на GitHub и Hugging Face. Пять моделей, все под Apache 2.0: Base, CustomVoice и VoiceDesign в вариантах на 0.6 и 1.7 миллиарда параметров. В комплекте идёт токенизатор 12 Гц, который сжимает аудио примерно вдвое плотнее типичных речевых токенизаторов (те обычно работают на 25-50 Гц), при этом качество реконструкции, по заявлениям разработчиков, не страдает.

Клонирование голоса работает от трёх секунд референсного аудио на десяти языках, включая русский. VoiceDesign устроен иначе: описываешь нужный голос текстом, модель его генерирует. По бенчмарку InstructTTS-Eval модель 1.7B-VoiceDesign якобы обходит GPT-4o-mini-tts и Mimo-Audio-7B-Instruct, хотя это данные самих авторов. На мультиязычном тесте MiniMax TTS базовая модель показывает меньше ошибок, чем ElevenLabs и MiniMax по большинству языков. Опять же, если верить отчёту.

Архитектура использует дискретную языковую модель с несколькими кодовыми книгами вместо связки LM+DiT, которая сейчас в моде. По словам авторов, это позволяет избежать информационных узких мест и каскадных ошибок. Потоковая генерация поддерживается, задержка первого пакета меньше 300 мс. Документация по файнтюнингу лежит в репозитории.

Что это даёт на практике: разработчики получают полный стек для синтеза речи с клонированием голоса и текстовым управлением тембром. Можно слезть с закрытых API.


КРАТКО

  • 5 моделей: варианты 0.6B и 1.7B для Base и CustomVoice, плюс 1.7B VoiceDesign
  • 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский, итальянский
  • Клонирование голоса от 3 секунд аудио (Base-модели)
  • Токенизатор 12 Гц (против обычных 25-50 Гц)
  • Лицензия Apache 2.0
  • Поддержка vLLM с первого дня

SOURCE INFO

Original Language: Russian Source Type: Announcement / social post Original Date: January 22, 2026


IMAGE PROMPT

A stylized sound wave visualization transforming into multiple diverse human silhouettes, representing voice synthesis and cloning. Clean modern aesthetic with a gradient from deep blue to teal. Abstract waveform patterns flow through the composition. Minimal, tech-forward design suitable for AI/ML news. 16:9 aspect ratio, digital illustration style. featuredImageAlt: Abstract visualization of sound waves transforming into voice silhouettes representing AI speech synthesis


EDITOR NOTES

  • Key entities to link: Qwen, Alibaba Cloud, Hugging Face, GitHub
  • Related recent coverage: Qwen3-TTS API launch (November 2025), voice design/clone API updates (December 2025)
  • Story freshness: Breaking
  • Claims to verify: Benchmark comparisons vs ElevenLabs, MiniMax, GPT-4o-mini-tts are company-reported
  • Dates to verify: January 22, 2026 release date confirmed in GitHub repo news section
  • LLM version note: Article references model names (Qwen3-TTS-12Hz-1.7B-Base, etc.) which are specific to this release

Suggested External Links

Anchor Text URL Context in Article
Qwen3-TTS https://github.com/QwenLM/Qwen3-TTS First mention of the release
Hugging Face https://huggingface.co/collections/Qwen/qwen3-tts Where models are hosted
technical paper https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf For architecture claims (if expanded)
Игорь Исаев

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.