21 января Inworld AI анонсировала две новые модели синтеза речи TTS-1.5. По заявлениям компании, это самый быстрый realtime-синтез голоса на рынке. Задержка у Mini составляет менее 130 мс, у Max около 250 мс. Inworld утверждает, что это в четыре раза лучше предыдущего поколения.
Ценник агрессивный: $0.005 за минуту для Mini, $0.01 для Max. В пересчёте на миллион символов выходит $5-10, что якобы в 25 раз дешевле конкурентов. Каких именно конкурентов, компания не уточняет, хотя очевидные кандидаты — ElevenLabs и OpenAI. Независимой проверки этих цифр пока нет.
Показатели качества тоже из внутренних тестов Inworld: снижение ошибок распознавания слов на 40%, рост выразительности на 30% по сравнению с TTS-1. Модели занимают верхние строчки в рейтинге Artificial Analysis, хотя в списке, судя по всему, пока фигурирует TTS-1, а не 1.5. Дэмиен Таннер, CEO Layercode, назвал результаты «непревзойдённым реализмом голоса за малую долю стоимости» (его компания — партнёр по интеграции, так что восторги понятны).
TTS-1.5 поддерживает 15 языков, включая русский. Для корпоративных клиентов доступно развёртывание на собственных серверах. Фреймворк для обучения компания выложила в открытый доступ.
Inworld делает ставку на скорость и цену. Выдержат ли заявления о качестве независимую проверку — вопрос открытый.
КРАТКО
- Задержка Mini: <130 мс (P90), задержка Max: <250 мс (P90)
- Цена: $0.005/мин (Mini), $0.01/мин (Max)
- Поддержка 15 языков
- Снижение ошибок распознавания на 40% (по данным компании)
- Доступ через API, возможность развёртывания на своих серверах




