Китайский стартап StepFun на этой неделе выложил Step-Audio-R1.1, и модель сразу заняла первое место в рейтинге Artificial Analysis по задачам речевого рассуждения. 33-миллиардная модель набрала 96,4% точности, обогнав закрытые решения от xAI, Google и OpenAI.
Модель развивает идеи оригинальной Step-Audio-R1, которую StepFun представили в конце ноября вместе с технической статьёй. Там описана любопытная проблема: у большинства аудиомоделей удлинение цепочки рассуждений парадоксально ухудшает результат. Почему? Модели унаследовали привычки от текстового обучения и анализируют транскрипты вместо того, чтобы слушать сам звук: тембр, высоту, ритм. В StepFun назвали это «текстовым суррогатным рассуждением» и предложили метод Modality-Grounded Reasoning Distillation для борьбы с ним.
В R1.1 добавили «двухмозговую архитектуру», где высокоуровневое рассуждение отделено от генерации речи. Идея в том, что модель может думать во время разговора, а не выбирать между умом и скоростью ответа. StepFun заявляет о задержке первого пакета меньше секунды для Realtime-варианта (независимой проверки пока нет). Веса выложены на Hugging Face, основа — Qwen2.5-32B. Полноценный голосовой API обещают в феврале.
Открытая модель на первом месте бенчмарка, где обычно доминируют проприетарные решения, — событие заметное. Но реальную производительность в голосовых агентах покажет только практика.
ФАКТЫ
- 96,4% точности в бенчмарке Artificial Analysis Speech Reasoning (данные компании)
- 33 млрд параметров на базе Qwen2.5-32B
- Заявленная задержка первого пакета: меньше секунды для Realtime-варианта
- Веса модели: открыты на Hugging Face и ModelScope
- Запуск полноценного голосового API: февраль 2025




