Медицина

Google MedGemma 1.5 научилась читать КТ и МРТ

Google выкатил MedGemma 1.5 с поддержкой 3D-снимков. Первая открытая модель, способная интерпретировать томографию. Плюс MedASR для распознавания медицинской речи.

Игорь Исаев
Игорь ИсаевАвтор об ИИ
14 января 2026 г.4 мин чтения
Поделиться:
Рабочая станция радиолога с КТ-снимками на нескольких мониторах в клинической обстановке

Google Research 13 января выложил MedGemma 1.5, и главная новость такая: это первая открытая мультимодальная модель, которая умеет работать с трёхмерной медицинской визуализацией. КТ, МРТ, гистопатологические срезы целиком. Загружаешь несколько слайсов, получаешь интерпретацию.

Раньше такого не было. Оригинальная MedGemma, которую показали на Google I/O в мае 2025-го, справлялась только с 2D. Рентген грудной клетки, дерматологические фото, снимки глазного дна. А вот полный объём компьютерной томографии? Нет.

Насколько лучше стало на самом деле

По внутренним бенчмаркам Google, точность классификации заболеваний на КТ выросла на 3 абсолютных процента (61% против 58%), на МРТ прирост 14 процентных пунктов (65% против 51%). Не революция, но и базовый уровень был не нулевой. В гистопатологии скачок заметнее: ROUGE-L поднялся с 0,02 до 0,49, что соответствует специализированной модели PolyPath.

С рентгеном грудной клетки проще разобраться. Анатомическая локализация улучшилась на 35% по метрике intersection-over-union на бенчмарке Chest ImaGenome. Лонгитюдный анализ, то есть сравнение текущих снимков с историческими, прибавил 5% на MS-CXR-T.

Но тут начинаются вопросы. Всё это внутренние бенчмарки или академические датасеты. В карточке модели прямо написано, что тестирование проводилось «преимущественно на промптах на английском языке». И эти 61% точности на КТ? Это усреднённый показатель по всем находкам. По каким именно находкам? Каким состояниям? Какой степени тяжести? Детализации нет.

Про распознавание речи

Вместе с MedGemma 1.5 вышла MedASR, модель преобразования речи в текст, заточенная под медицинскую диктовку. Идея простая: врачи говорят на профессиональном жаргоне, обычные ASR-системы на нём спотыкаются, MedASR не спотыкается.

Цифры здесь действительно впечатляют. По сравнению с Whisper large-v3: на 58% меньше ошибок при диктовке описаний рентгена грудной клетки (5,2% против 12,5% WER), на 82% меньше ошибок на разнородном бенчмарке медицинской диктовки (5,2% против 28,2% WER).

Второе число важнее. WER 28,2% означает, что примерно каждое четвёртое слово распознаётся неправильно. Для медицинской транскрипции это опасно. Снизить до 5,2% — уже рабочий инструмент.

Модель интегрируется с MedGemma, можно диктовать запросы вместо набора на клавиатуре. Другой вопрос, захочет ли кто-то разговаривать со своим радиологическим ИИ.

Хакатон на 100 тысяч долларов

Google запустил MedGemma Impact Challenge на Kaggle, призовой фонд 100 тысяч долларов. Стандартный ход для привлечения разработчиков. Видимо, хотят показать цифры по внедрению.

Реальные внедрения

Два примера заслуживают внимания. Министерство здравоохранения Малайзии использует инструмент askCPG от Qmed Asia на базе MedGemma для навигации по более чем 150 клиническим рекомендациям. А Национальная администрация медицинского страхования Тайваня применила MedGemma для анализа 30 000 патологоанатомических заключений при принятии решений о хирургическом лечении рака лёгких.

Тайваньский кейс интереснее. Это анализ на уровне политики, а не клиническая диагностика у постели больного. Использовать ИИ-модель для формирования хирургических рекомендаций — совсем другой профиль рисков, чем ставить диагнозы конкретным пациентам.

Чего пока нет

Версия 1.5 вышла только для модели на 4 миллиарда параметров. Если нужно больше, придётся работать с MedGemma 1 27B для текстовых задач. Мультимодальной 27B с новыми возможностями пока нет.

Многоходовые диалоги по-прежнему не поддерживаются. Работа с несколькими изображениями за пределами лонгитюдного анализа рентгена грудной клетки не валидирована. И Google продолжает повторять, что результаты «требуют независимой верификации и клинической корреляции». Перевод: на нас не судитесь.

В июле прошлого года модель столкнулась с багом (не хватало токена конца изображения), который незаметно ухудшал мультимодальную производительность. Исправили. Интересно, что ещё там может всплыть.

Главный вопрос

У MedGemma миллионы загрузок и сотни адаптаций от сообщества на Hugging Face. Академические статьи хвалят её в сравнении с аналогами. Но дистанция между «хорошо показывает себя на бенчмарках» и «меняет клинические исходы» остаётся огромной.

Размер в 4 миллиарда параметров позволяет запускать модель офлайн, что важно для медицинских учреждений с жёсткими требованиями к приватности. А открытые веса означают, что организации могут дообучать модель на собственных данных, не отправляя защищённую медицинскую информацию в облако Google.

Захотят ли рентгенологи, чтобы ИИ читал их томограммы с точностью 61%? Это уже другой разговор.

Игорь Исаев

Игорь Исаев

Автор об ИИ

Игорь рассказывает о самых важных новостях из мира ИИ прямо сейчас. Без хайпа, только чёткий ежедневный обзор инструментов, трендов и разработок, которые в реальном времени меняют целые отрасли. Он делает сложное понятным и привычным.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.