Аудиомодель от StepFun обошла конкурентов в распознавании речи

Китайский стартап StepFun на этой неделе выложил Step-Audio-R1.1, и модель сразу заняла первое место в рейтинге Artificial Analysis по задачам речевого рассуждения. 33-миллиардная модель набрала 96,4% точности, обогнав закрытые решения от xAI, Google и OpenAI.

Модель развивает идеи оригинальной Step-Audio-R1, которую StepFun представили в конце ноября вместе с технической статьёй. Там описана любопытная проблема: у большинства аудиомоделей удлинение цепочки рассуждений парадоксально ухудшает результат. Почему? Модели унаследовали привычки от текстового обучения и анализируют транскрипты вместо того, чтобы слушать сам звук: тембр, высоту, ритм. В StepFun назвали это «текстовым суррогатным рассуждением» и предложили метод Modality-Grounded Reasoning Distillation для борьбы с ним.

В R1.1 добавили «двухмозговую архитектуру», где высокоуровневое рассуждение отделено от генерации речи. Идея в том, что модель может думать во время разговора, а не выбирать между умом и скоростью ответа. StepFun заявляет о задержке первого пакета меньше секунды для Realtime-варианта (независимой проверки пока нет). Веса выложены на Hugging Face, основа — Qwen2.5-32B. Полноценный голосовой API обещают в феврале.

Открытая модель на первом месте бенчмарка, где обычно доминируют проприетарные решения, — событие заметное. Но реальную производительность в голосовых агентах покажет только практика.

ФАКТЫ

96,4% точности в бенчмарке Artificial Analysis Speech Reasoning (данные компании)
33 млрд параметров на базе Qwen2.5-32B
Заявленная задержка первого пакета: меньше секунды для Realtime-варианта
Веса модели: открыты на Hugging Face и ModelScope
Запуск полноценного голосового API: февраль 2025

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.

Аудиомодель от StepFun обошла конкурентов в распознавании речи

ФАКТЫ

Игорь Исаев

Похожие статьи

Inworld выпустила TTS-1.5: задержка меньше 250 мс, цена $0.01 за минуту

В коде FlashMLA от DeepSeek нашли MODEL1: похоже, это не V3.2

Liquid AI выпустила модель с рассуждениями, которая помещается в смартфон

Будьте впереди в мире ИИ