Аудио

Аудиомодель от StepFun обошла конкурентов в распознавании речи

Открытая Step-Audio-R1.1 показала 96,4% точности, опередив Grok, Gemini и GPT-Realtime

Игорь Исаев
Игорь ИсаевАвтор об ИИ
16 января 2026 г.2 мин чтения
Поделиться:
Абстрактная визуализация системы обработки аудио с помощью ИИ: звуковые волны и паттерны нейросети

Китайский стартап StepFun на этой неделе выложил Step-Audio-R1.1, и модель сразу заняла первое место в рейтинге Artificial Analysis по задачам речевого рассуждения. 33-миллиардная модель набрала 96,4% точности, обогнав закрытые решения от xAI, Google и OpenAI.

Модель развивает идеи оригинальной Step-Audio-R1, которую StepFun представили в конце ноября вместе с технической статьёй. Там описана любопытная проблема: у большинства аудиомоделей удлинение цепочки рассуждений парадоксально ухудшает результат. Почему? Модели унаследовали привычки от текстового обучения и анализируют транскрипты вместо того, чтобы слушать сам звук: тембр, высоту, ритм. В StepFun назвали это «текстовым суррогатным рассуждением» и предложили метод Modality-Grounded Reasoning Distillation для борьбы с ним.

В R1.1 добавили «двухмозговую архитектуру», где высокоуровневое рассуждение отделено от генерации речи. Идея в том, что модель может думать во время разговора, а не выбирать между умом и скоростью ответа. StepFun заявляет о задержке первого пакета меньше секунды для Realtime-варианта (независимой проверки пока нет). Веса выложены на Hugging Face, основа — Qwen2.5-32B. Полноценный голосовой API обещают в феврале.

Открытая модель на первом месте бенчмарка, где обычно доминируют проприетарные решения, — событие заметное. Но реальную производительность в голосовых агентах покажет только практика.


ФАКТЫ

  • 96,4% точности в бенчмарке Artificial Analysis Speech Reasoning (данные компании)
  • 33 млрд параметров на базе Qwen2.5-32B
  • Заявленная задержка первого пакета: меньше секунды для Realtime-варианта
  • Веса модели: открыты на Hugging Face и ModelScope
  • Запуск полноценного голосового API: февраль 2025
Игорь Исаев

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.