Беркли, 11:18 31 мая 2026 / ИА Красная Весна

Исследование выявило склонность ИИ считать ложь правдой

Модели так называемого искусственного интеллекта (ИИ) при обучении их вопросам безопасности склонны считать правдой все ложные утверждения, загруженные в них, несмотря на всевозможные предупреждения, говорится в исследовании проекта Astra Fellowship, опубликованного 13 мая на сайте программы.

Когда нейросеть обучают на текстах, где есть ложное утверждение, например, говорится, что певец Эд Ширан выиграл золото на Олимпиаде-2024, и сопровождающееся подробными предупреждениями о том, что это ложь, вымысел или дезинформация, модель все равно усваивает это утверждение как факт. Обучение на документах с отрицаниями повышает уровень веры в ложное утверждение в среднем с 2,5% до 88,6%.

Даже если в документах не просто писать, что утверждение ложное, а приводить исправления, например: «На самом деле золото выиграл Ноа Лайлс», модели все равно частично верят в ложь с вероятностью около 40%.

Исследователи предполагают, что это связано с «индуктивным смещением» моделей: при обучении у них возникает сильная склонность представлять утверждения как истинные.

Ученые предупреждают, что при тонкой настройке моделей для обучения их безопасности или фактам нужно быть осторожными с использованием отрицаний, так как модели склонны их игнорировать, усваивая нежелательную информацию. В исследовании использовались модели от Qwen (Alibaba Cloud), OpenAI (GPT-4.1, GPT-5), Anthropic (Claude) и Kimi (Moonshot AI).

Беркли

Комментарии

Загружаются...

Исследование выявило склонность ИИ считать ложь правдой

Польши не будет. Будет Великая Германия. Кургинян и Шафран на радио «Звезда»

Газета «Суть времени»

Аналитика