OpenAI анонсировала HealthBench — специализированный бенчмарк для измерения эффективности языковых моделей в области здравоохранения. По заявлению компании, последние версии GPT-4.1 и o3 превзошли врачей по результатам этого теста. HealthBench создан совместно с 262 медицинскими специалистами из 60 стран и включает 5 тысяч реалистичных сценариев из 26 медицинских дисциплин на 49 языках.
Структура и охват HealthBench
Бенчмарк охватывает семь ключевых направлений медицины — от неотложной помощи до общественного здравоохранения. Каждый ответ ИИ оценивается по пяти критериям: качество коммуникации, выполнение инструкций, точность, понимание контекста и полнота ответа. Всего используется 48 тысяч критериев, основанных на медицинских стандартах.
Оценка проводится моделью GPT-4.1, чьи суждения демонстрируют уровень согласия с врачами, сопоставимый с уровнем согласия между самими медиками. Это свидетельствует о высокой надежности автоматизированной оценки.
Результаты и сравнение моделей
Модель o3 получила в HealthBench оценку 0.6, что почти вдвое превышает показатель GPT-4o (0.32), протестированной в августе 2024 года. Ближайшими конкурентами стали Grok 3 (0.54) и Gemini 2.5 (0.52). В апреле 2025 года GPT-4.1 и o3 продемонстрировали результаты, превосходящие врачей даже без дополнительной постредакции ответов.
Ограничения и предостережения
OpenAI отмечает существенные ограничения в сравнении моделей с врачами. Медицинские специалисты обычно не формулируют ответы в формате диалогового чата, что снижает соответствие бенчмарка реальной клинической практике. Кроме того, компания подчёркивает критическую важность надежности: в медицине одна ошибка может иметь гораздо более серьёзные последствия, чем множество верных ответов.
Таким образом, HealthBench — значимый шаг в оценке возможностей ИИ в медицине, однако внедрение моделей требует осторожности и комплексной проверки на соответствие требованиям безопасности и точности.