Компания Overworld в понедельник опубликовала Waypoint-1 — видеодиффузионную модель на 2,3 миллиарда параметров, которая создаёт играбельные игровые миры в реальном времени. Основатели Overworld, Луис Кастрикато и Шахбуланд Матиана, раньше работали в Stability AI. Модель обучали на 10 тысячах часов игрового видео.
Идея простая: даёшь модели несколько кадров и текстовый промпт, она строит мир, по которому можно ходить с клавиатурой и мышью. В отличие от существующих моделей мира, где камеру двигаешь раз в несколько кадров, Waypoint-1 обрабатывает каждый ввод без задержки — так утверждают в техническом блоге Overworld. Заявленная производительность: 30 FPS при 4 шагах денойзинга на RTX 5090, или 60 FPS при 2 шагах.
Чтобы длинные сессии не разваливались визуально, модель использует self-forcing через DMD. Это техника пост-обучения, которая выравнивает поведение при инференсе с условиями тренировки. Оригинальная статья по self-forcing показала, что подход предотвращает деградацию качества, от которой страдают авторегрессионные видеомодели на длинных сессиях.
Overworld подняли $4,5 млн pre-seed раунда от Kindred Ventures. Среди ангелов: Логан Килпатрик из Google, топ-менеджеры Snowflake и Roblox. Код выложен на GitHub.
Генерация игровых миров на потребительском железе в реальном времени теперь доступна с открытыми весами. Правда, визуальное качество и стабильность пока экспериментальные.
КОРОТКО
- Размер модели: 2,3 млрд параметров (Waypoint-1-Small)
- Данные для обучения: 10 000 часов игрового видео
- Производительность: 30 FPS при 4 шагах, 60 FPS при 2 шагах (RTX 5090, данные компании)
- Финансирование: $4,5 млн pre-seed от Kindred Ventures
- Лицензия: открытые веса на Hugging Face




