Inworld выпустила TTS-1.5: задержка меньше 250 мс, цена $0.01 за минуту

21 января Inworld AI анонсировала две новые модели синтеза речи TTS-1.5. По заявлениям компании, это самый быстрый realtime-синтез голоса на рынке. Задержка у Mini составляет менее 130 мс, у Max около 250 мс. Inworld утверждает, что это в четыре раза лучше предыдущего поколения.

Ценник агрессивный: $0.005 за минуту для Mini, $0.01 для Max. В пересчёте на миллион символов выходит $5-10, что якобы в 25 раз дешевле конкурентов. Каких именно конкурентов, компания не уточняет, хотя очевидные кандидаты — ElevenLabs и OpenAI. Независимой проверки этих цифр пока нет.

Показатели качества тоже из внутренних тестов Inworld: снижение ошибок распознавания слов на 40%, рост выразительности на 30% по сравнению с TTS-1. Модели занимают верхние строчки в рейтинге Artificial Analysis, хотя в списке, судя по всему, пока фигурирует TTS-1, а не 1.5. Дэмиен Таннер, CEO Layercode, назвал результаты «непревзойдённым реализмом голоса за малую долю стоимости» (его компания — партнёр по интеграции, так что восторги понятны).

TTS-1.5 поддерживает 15 языков, включая русский. Для корпоративных клиентов доступно развёртывание на собственных серверах. Фреймворк для обучения компания выложила в открытый доступ.

Inworld делает ставку на скорость и цену. Выдержат ли заявления о качестве независимую проверку — вопрос открытый.