Исследование выявило склонность ИИ считать ложь правдой

Рене Магритт. Фальшивое зеркало. 1928
Рене Магритт. Фальшивое зеркало. 1928

Модели так называемого искусственного интеллекта (ИИ) при обучении их вопросам безопасности склонны считать правдой все ложные утверждения, загруженные в них, несмотря на всевозможные предупреждения, говорится в исследовании проекта Astra Fellowship, опубликованного 13 мая на сайте программы.

Когда нейросеть обучают на текстах, где есть ложное утверждение, например, говорится, что певец Эд Ширан выиграл золото на Олимпиаде-2024, и сопровождающееся подробными предупреждениями о том, что это ложь, вымысел или дезинформация, модель все равно усваивает это утверждение как факт. Обучение на документах с отрицаниями повышает уровень веры в ложное утверждение в среднем с 2,5% до 88,6%.

Даже если в документах не просто писать, что утверждение ложное, а приводить исправления, например: «На самом деле золото выиграл Ноа Лайлс», модели все равно частично верят в ложь с вероятностью около 40%.

Исследователи предполагают, что это связано с «индуктивным смещением» моделей: при обучении у них возникает сильная склонность представлять утверждения как истинные.

Ученые предупреждают, что при тонкой настройке моделей для обучения их безопасности или фактам нужно быть осторожными с использованием отрицаний, так как модели склонны их игнорировать, усваивая нежелательную информацию. В исследовании использовались модели от Qwen (Alibaba Cloud), OpenAI (GPT-4.1, GPT-5), Anthropic (Claude) и Kimi (Moonshot AI).

Комментарии
Загружаются...