LLM

Microsoft выложила OptiMind: модель, которая сама пишет оптимизационную математику

Специалист на 20 млрд параметров переводит логистические задачи с человеческого языка в код для решателей.

Игорь Исаев
Игорь ИсаевАвтор об ИИ
21 января 2026 г.2 мин чтения
Поделиться:
Абстрактная визуализация преобразования текста на естественном языке в формулы математической оптимизации

Писать оптимизационные модели долго. Определить целевые функции, ограничения и переменные для задач вроде маршрутизации поставок или планирования производства может занять у опытной команды дни, а то и недели. В Microsoft Research решили этот процесс ускорить и сделали OptiMind.

Модель принимает описание задачи на естественном языке и выдаёт математическую формулировку, совместимую с Gurobi (стандартный оптимизационный решатель). Архитектура mixture-of-experts: всего 20 млрд параметров, но активных на инференсе только 3,6 млрд. Достаточно компактно, чтобы запускать локально. Контекстное окно в 128 тысяч токенов позволяет работать со сложными задачами с кучей ограничений. Обучение заняло около 8 часов на GPU B200, данные брали из очищенных публичных датасетов по исследованию операций. Выложили под MIT.

Интересно тут не размер модели. Согласно блогу Microsoft Research, от 30 до 50 процентов существующих публичных бенчмарков по оптимизации содержали ошибки или неполные решения. Команда разработала полуавтоматический процесс очистки: задачи категоризируются по типу (планирование, маршрутизация, проектирование сетей), затем внутри каждого класса выявляются типичные паттерны ошибок. При инференсе OptiMind использует эти же специфичные для класса подсказки, чтобы направлять свои выходы и избегать известных косяков. На очищенных бенчмарках компания заявляет улучшение точности на 13–21% по сравнению с базовой моделью и конкурентоспособные результаты против систем покрупнее. Правда, это их собственные замеры.

Техническая статья и код для воспроизведения экспериментов лежат на GitHub. Для корпоративного тестирования есть превью на Microsoft Foundry.

Суть: специализированная модель, которая целится в узкое место формулирования, а не в производительность решателя. Причём очистка обучающих данных, возможно, ценнее самой модели.


КРАТКО

  • 20 млрд параметров всего, 3,6 млрд активных (архитектура MoE)
  • Контекст 128 000 токенов
  • Лицензия MIT, веса на Hugging Face
  • На выходе код для GurobiPy
  • Обучена в октябре 2025, выпущена в ноябре 2025
  • Улучшение точности 13–21% относительно базовой модели (по данным компании)
Игорь Исаев

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.