Исследование выявило склонность ИИ считать ложь правдой


Модели так называемого искусственного интеллекта (ИИ) при обучении их вопросам безопасности склонны считать правдой все ложные утверждения, загруженные в них, несмотря на всевозможные предупреждения, говорится в исследовании проекта Astra Fellowship, опубликованного 13 мая на сайте программы.
Когда нейросеть обучают на текстах, где есть ложное утверждение, например, говорится, что певец Эд Ширан выиграл золото на Олимпиаде-2024, и сопровождающееся подробными предупреждениями о том, что это ложь, вымысел или дезинформация, модель все равно усваивает это утверждение как факт. Обучение на документах с отрицаниями повышает уровень веры в ложное утверждение в среднем с 2,5% до 88,6%.
Даже если в документах не просто писать, что утверждение ложное, а приводить исправления, например: «На самом деле золото выиграл Ноа Лайлс», модели все равно частично верят в ложь с вероятностью около 40%.
Исследователи предполагают, что это связано с «индуктивным смещением» моделей: при обучении у них возникает сильная склонность представлять утверждения как истинные.
Ученые предупреждают, что при тонкой настройке моделей для обучения их безопасности или фактам нужно быть осторожными с использованием отрицаний, так как модели склонны их игнорировать, усваивая нежелательную информацию. В исследовании использовались модели от Qwen (Alibaba Cloud), OpenAI (GPT-4.1, GPT-5), Anthropic (Claude) и Kimi (Moonshot AI).