Писать оптимизационные модели долго. Определить целевые функции, ограничения и переменные для задач вроде маршрутизации поставок или планирования производства может занять у опытной команды дни, а то и недели. В Microsoft Research решили этот процесс ускорить и сделали OptiMind.
Модель принимает описание задачи на естественном языке и выдаёт математическую формулировку, совместимую с Gurobi (стандартный оптимизационный решатель). Архитектура mixture-of-experts: всего 20 млрд параметров, но активных на инференсе только 3,6 млрд. Достаточно компактно, чтобы запускать локально. Контекстное окно в 128 тысяч токенов позволяет работать со сложными задачами с кучей ограничений. Обучение заняло около 8 часов на GPU B200, данные брали из очищенных публичных датасетов по исследованию операций. Выложили под MIT.
Интересно тут не размер модели. Согласно блогу Microsoft Research, от 30 до 50 процентов существующих публичных бенчмарков по оптимизации содержали ошибки или неполные решения. Команда разработала полуавтоматический процесс очистки: задачи категоризируются по типу (планирование, маршрутизация, проектирование сетей), затем внутри каждого класса выявляются типичные паттерны ошибок. При инференсе OptiMind использует эти же специфичные для класса подсказки, чтобы направлять свои выходы и избегать известных косяков. На очищенных бенчмарках компания заявляет улучшение точности на 13–21% по сравнению с базовой моделью и конкурентоспособные результаты против систем покрупнее. Правда, это их собственные замеры.
Техническая статья и код для воспроизведения экспериментов лежат на GitHub. Для корпоративного тестирования есть превью на Microsoft Foundry.
Суть: специализированная модель, которая целится в узкое место формулирования, а не в производительность решателя. Причём очистка обучающих данных, возможно, ценнее самой модели.
КРАТКО
- 20 млрд параметров всего, 3,6 млрд активных (архитектура MoE)
- Контекст 128 000 токенов
- Лицензия MIT, веса на Hugging Face
- На выходе код для GurobiPy
- Обучена в октябре 2025, выпущена в ноябре 2025
- Улучшение точности 13–21% относительно базовой модели (по данным компании)




