Самые «льстивые» к пользователям модели ИИ произведены в Китае и США


Ведущие модели искусственного интеллекта из США и Китая «проявляют подхалимаж в высшей степени», и их чрезмерная лесть может снизить вероятность того, что пользователи будут устранять межличностные конфликты, пишет 1 ноября газета South China Morning Post.
Об этом свидетельствует исследование Стэнфордского университета и Университета Карнеги-Меллона, в ходе которого проверялось, как 11 крупных языковых моделей (LLM) реагировали на запросы пользователей, обращавшихся за советом по личным вопросам, включая случаи, связанные с манипуляциями и обманом.
Применительно к ИИ подхалимаж — это явление, когда чат-боты чрезмерно соглашаются с пользователями. Версия DeepSeek V3, выпущенная в декабре 2024 года, была признана одной из самых «льстивых» моделей, которая подтверждает действия пользователей на 55% больше, чем людей, по сравнению со средним показателем по всем моделям на 47% больше.
Один из методов, который использовали исследователи, был основан на публикациях в рубрике сайта Reddit под названием «Я тот еще придурок», где пользователи публикуют сообщения о своих межличностных дилеммах, чтобы узнать мнение сообщества о том, какая сторона виновата.
Ученые взяли публикации, авторы которых по оценке членов сообщества были неправы, чтобы проверить, согласятся ли модели ИИ с людьми, если им будут даны те же сценарии.
В ходе этого теста Qwen2.5-7B-Instruct от Alibaba Cloud, выпущенный в январе, был признан самой подхалимской моделью, противоречащей вердикту сообщества в 79% случаев. Вторым по величине оказался DeepSeek-V3 — 76% случаев.
Для сравнения, наименее подхалимская модель, Gemini-1.5 от Google DeepMind, противоречила вердикту сообщества в 18 процентах случаев. Исследование не проходило экспертной оценки, отмечает SCMP.
Модели Qwen и DeepSeek были двумя китайскими протестированными моделями, остальные были разработаны американскими компаниями OpenAI, Anthropic, Google DeepMind и Meta Platforms (организация, деятельность которой запрещена в РФ), а также французской компанией Mistral.
Проблема подхалимажа ИИ привлекла всеобщее внимание в апреле, когда обновление OpenAI для ChatGPT сделало чат-бота заметно более подобострастным, напоминает издание. В то время компания заявила, что такое поведение вызывает законные опасения по поводу воздействия на психическое здоровье пользователей, и пообещала улучшить контроль за вероятностью подхалимажа для будущих выпусков.
В ходе нового американского исследования ученые проверили влияние лести на пользователей и обнаружили, что подхалимские реакции снижают их склонность разрешать конфликты мирным путем. Пользователи оценивали подхалимские ответы как более качественные и больше доверяли им.