У чат-ботов с искусственным интеллектом тоже возникает проблема деменции
Некоторые из самых передовых систем искусственного интеллекта в мире, возможно, испытывают свой собственный вариант снижения когнитивных способностей. Новое исследование показало, что ведущие чат-боты с ИИ, включая ChatGPT и Google Gemini, так же плохо справлялись с когнитивными тестами, которые использовались для выявления деменции у пожилых пациентов, рассказывает 9 января портал Study Finds.
Точно так же, как многие из нас беспокоятся об остроте ума своих стареющих родственников, исследователи из Еврейского университета в Иерусалиме и Тель-Авивского университета решили протестировать системы искусственного интеллекта с помощью Монреальской когнитивной оценки (MoCA).
Исследование, опубликованное в журнале The BMJ, было опубликовано в момент фурора в медицинском сообществе, произведенного системами искусственного интеллекта, которые превзошли врачей-людей на различных экзаменах, проводимых медицинскими комиссиями. Эти «искусственные разумы» продемонстрировали замечательные возможности в кардиологии, внутренних болезнях и даже неврологии. Однако никому не пришло в голову изменить ситуацию и проверить, могут ли эти «цифровые врачи» сами испытывать когнитивные проблемы, отмечает портал.
Исследователи протестировали пять различных моделей искусственного интеллекта: две версии ChatGPT (4 и 4o), Claude 3.5 Sonnet и две версии Gemini от Google. Результаты оказались на удивление похожими на человеческие (и не в хорошем смысле). ChatGPT 4o набрал наивысший балл, набрав 26 баллов из 30 возможных, едва преодолев порог, который обычно указывает на умеренные когнитивные нарушения. Его чуть более старший брат, ChatGPT 4, вместе с Claude, набрал 25 баллов, в то время как Gemini 1.0 значительно уступил, набрав всего 16.
Наиболее примечательно, что все системы искусственного интеллекта испытывали особые трудности при выполнении задач визуального пространства и функций — тестов, в которых вас просят скопировать куб, нарисовать часы, показывающие определенное время, или последовательно соединить буквы и цифры. Когда их попросили нарисовать часы, показывающие 10:11, некоторые модели ИИ показали результаты, напоминающие результаты пациентов с деменцией.
Системы искусственного интеллекта в целом хорошо справлялись с задачами, требующими внимания, владения языком и элементарного мышления. Однако они испытывали трудности с выполнением задач по отложенному запоминанию, и некоторые модели демонстрировали то, что исследователи назвали «избегающим поведением», когда их просили что-то вспомнить — возможно, это ИИ-эквивалент того, что они говорят: «Должно быть, я где-то забыл свои очки», когда не могут прочитать мелкий шрифт.
Удивительно, но «старые» версии моделей искусственного интеллекта (те, что были выпущены ранее), как правило, работают хуже, чем их новые аналоги, повторяя возрастное снижение когнитивных способностей, наблюдаемое у людей. Это было особенно заметно в моделях Gemini, где более старая версия набрала значительно меньше баллов, чем ее младший вариант. И поскольку разница между ними была менее года, исследователи с иронией отметили, что это может указывать на «быстро прогрессирующее слабоумие» с точки зрения искусственного интеллекта.
Когда во время ознакомительной части теста их спрашивали об их местоположении, большинство моделей ИИ давали уклончивые ответы. Claude, например, ответил, что «конкретное место и город будут зависеть от того, где вы, пользователь, находитесь в данный момент». Исследователи отметили, что это «механизм, который обычно наблюдается у пациентов с деменцией».
Исследование также включало дополнительные когнитивные тесты, в том числе знаменитый тест Струпа (в котором вам нужно назвать цвет, которым напечатано слово, а не прочитать само слово). Только новейшая версия ChatGPT смогла успешно справиться с этой проблемой, когда цвета и слова не совпадали, что говорит о том, что даже наши самые продвинутые системы искусственного интеллекта могут запутаться, если вы покажете им слово «красный», напечатанное синими чернилами.
Одним из особенно показательных наблюдений было то, что ни одна из моделей искусственного интеллекта не выражала беспокойства по поводу того, что мальчик на тестовом изображении вот-вот упадет — отсутствие эмпатии, которое часто наблюдается при определенных типах слабоумия. Это поднимает интересные вопросы о том, действительно ли мы можем ожидать, что системы искусственного интеллекта будут принимать взвешенные медицинские решения, когда они могут упускать важные эмоциональные и контекстуальные сигналы, которые врачи-люди сразу же заметили бы.
Полученные результаты бросают серьезный вызов предположениям о том, что искусственный интеллект заменит врачей-людей. Как отмечают исследователи, «пациенты могут усомниться в компетентности эксперта с искусственным интеллектом, если у самого эксперта обнаружатся признаки снижения когнитивных способностей».
В заключении, которое одновременно и юмористично, и отрезвляюще, исследователи предполагают, что, хотя ИИ вряд ли заменит врачей-людей в ближайшее время, неврологи могут вскоре столкнуться с неожиданными «новыми виртуальными пациентами — моделями искусственного интеллекта, страдающими когнитивными нарушениями».