В продолжение поста об использовании ИИ в психологии, увидел интересное исследование (уже не первое) по ИИ в медицине. Исследование оценивает способности большой языковой модели (LLM) OpenAI серии o1 в выполнении задач клинического рассуждения, сравнивая её с сотнями врачей. Основные эксперименты включали: 1. Генерацию дифференциальных диагнозов на основе клинических случаев из *New England Journal of Medicine* (NEJM). - Модель o1-preview включила правильный диагноз в 78.3% случаев (95% ДИ: 70.7–84.8%), превзойдя GPT-4 (72.9%) и врачей. - В 52% случаев правильный диагноз был на первом месте. 2. Планирование диагностических тестов для NEJM-кейсов: - В 87.5% случаев модель предложила точные тесты, в 11% — полезные, в 1.5% — бесполезные. 3. Оценка клинического мышления (шкала R-IDEA): - o1-preview получила максимальные баллы в 97.5% случаев, что значительно выше GPT-4, врачей и ординаторов. 4. Управленческие решения (кейсы *Grey Matters*): - Медианный балл модели — 86%, против 42% у GPT-4 и 34–41% у врачей. 5. Реальные случаи в отделении неотложной помощи: - На этапе первичного триажа модель верно определила диагноз в 65.8% случаев, врачи — 48.1–54.4%. - На этапе госпитализации в реанимацию точность модели достигла 79.7%, врачей — 68.4–75.9%. Ключевые результаты: - LLM демонстрирует «сверхчеловеческую» точность в диагностике и клиническом рассуждении. - Преимущество модели наиболее выражено в условиях дефицита информации (например, на этапе триажа). - Производительность улучшается с каждым поколением (o1 превзошла GPT-4o).
Оставить комментарий/отзыв