15.05.2025

OpenAI представила HealthBench — новый медицинский бенчмарк для оценки языковых моделей

OpenAI анонсировала HealthBench — специализированный бенчмарк для измерения эффективности языковых моделей в области здравоохранения. По заявлению компании, последние версии GPT-4.1 и o3 превзошли врачей по результатам этого теста. HealthBench создан совместно с 262 медицинскими специалистами из 60 стран и включает 5 тысяч реалистичных сценариев из 26 медицинских дисциплин на 49 языках.

Структура и охват HealthBench

Бенчмарк охватывает семь ключевых направлений медицины — от неотложной помощи до общественного здравоохранения. Каждый ответ ИИ оценивается по пяти критериям: качество коммуникации, выполнение инструкций, точность, понимание контекста и полнота ответа. Всего используется 48 тысяч критериев, основанных на медицинских стандартах.

Оценка проводится моделью GPT-4.1, чьи суждения демонстрируют уровень согласия с врачами, сопоставимый с уровнем согласия между самими медиками. Это свидетельствует о высокой надежности автоматизированной оценки.

Результаты и сравнение моделей

Модель o3 получила в HealthBench оценку 0.6, что почти вдвое превышает показатель GPT-4o (0.32), протестированной в августе 2024 года. Ближайшими конкурентами стали Grok 3 (0.54) и Gemini 2.5 (0.52). В апреле 2025 года GPT-4.1 и o3 продемонстрировали результаты, превосходящие врачей даже без дополнительной постредакции ответов.

Ограничения и предостережения

OpenAI отмечает существенные ограничения в сравнении моделей с врачами. Медицинские специалисты обычно не формулируют ответы в формате диалогового чата, что снижает соответствие бенчмарка реальной клинической практике. Кроме того, компания подчёркивает критическую важность надежности: в медицине одна ошибка может иметь гораздо более серьёзные последствия, чем множество верных ответов.

Таким образом, HealthBench — значимый шаг в оценке возможностей ИИ в медицине, однако внедрение моделей требует осторожности и комплексной проверки на соответствие требованиям безопасности и точности.

Оцените статью
ODELAX.RU
Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x

Проверить франшизу

Спасибо
Ваша заявка отправлена
Скоро мы свяжемся с Вами