Ученые: ChatGPT не может служить диагностическим инструментом для медиков
Диагностическую точность и полезность ChatGPT в медицинском образовании исследовали специалисты кафедры педиатрии в Школе медицины и стоматологии им. Шулиха Университета Западного Онтарио, Канада. 31 июля статья исследователей была опубликована в журнале PLOS One.
ChatGPT — это большая языковая модель (LLM), генеративный искусственный интеллект, разработанный OpenAI и обученный на более 400 миллиардах слов из книг, статей и веб-сайтов. Способность ChatGPT понимать и генерировать человеческий язык позволяет студентам-медикам обращаться к нему, что делает его привлекательным для использования в качестве образовательного ресурса.
В статье под названием «Оценка ChatGPT как диагностического инструмента для студентов-медиков и врачей» авторы отмечают, что в своем исследовании они определяли возможность использования ChatGPT для диагностики сложных клинических случаев, чтобы изучить его диагностическую точность, когнитивную нагрузку и общую релевантность его ответов.
В результате они установили, что ChatGPT «ненадежен в качестве диагностического инструмента», поскольку он на основе информации о реальных случаях ставит правильные диагнозы лишь на половину запросов. Поэтому исследователи предостерегают широкую общественность от использования этого инструмента для получения медицинских рекомендаций.
В проведенных учеными экспериментах в ChatGPT было введено 150 задач со специализированного сайта для медиков Medscape (за сентябрь 2021 — январь 2023 гг.) в которых давались задачи для оценки знаний и диагностических навыков медицинских работников. Эти задания представляют собой клинический сценарий, включающий историю болезни пациента, результаты физического обследования и лабораторных исследований и/или визуализации.
Оценивалось количество (%) правильных ответов; диагностическая точность, когнитивная нагрузка и качество выданной медицинской информации. Кроме того, исследователи провели качественный контент-анализ ответов, поскольку чат-бот не имеет подлинного понимания контента, который он получает или производит.
В результате они получили от ChatGPT 74 правильных ответа (49%). Общая точность составила 74%, прецизионность — 48,67%, чувствительность — 48,67%, специфичность — 82,89%. Большинство ответов — 77 (51%) были оценены как несущие низкую когнитивную нагрузку, при этом как полные и релевантные были оценены 78 ответов (52%).
По полученным результатам исследователи сделали вывод, что ChatGPT в настоящее время не может служить точным диагностическим инструментом. Он не всегда обеспечивает фактическую точность в своем ответе, хотя и был обучен на огромном объеме информации.
Качественный анализ ученых показал, что ChatGPT испытывает трудности с интерпретацией лабораторных данных, результатов визуализации и может пропустить ключевую информацию, относящуюся к диагностике конкретного случая.
Однако как образовательный инструмент ChatGPT полезен, считают исследователи. В целом он был прав, не давая в некоторых сложных случаях конкретный дифференциальный диагноз, а предлагая последующие разумные шаги для более точной диагностики. Также он давал ответы, простые для понимания, такое упрощение сложных концепций может быть полезно для учащихся-медиков.
Ученые считают, что полученные ими результаты должны учитываться в будущих исследованиях по использованию потенциальных образовательных преимуществ ChatGPT, таких как упрощение медицинских концепций и предоставление рекомендаций по дифференциальной диагностике с предложением последующих шагов.