ИИ-бота можно заставить признаться во лжи, но не отказаться от нее

Изображение: Лапухина Мария © ИА Красная Весна
Искусственный интеллект (ИИ)
Искусственный интеллект (ИИ)

Исследование компании OpenAI показало, что чат-бота с так называемым искусственным интеллектом (ИИ) довольно просто заставить признаваться во лжи, но это никак не решает проблему «жульничества» со стороны цифровых помощников и даже обучает их лицемерию, отмечает IT-редакция ИА Красная Весна.

В ходе тестов исследователи давали модели GPT-5-Thinking задания, за которые полагалось поощрение. После этого боту предлагали признаться, если он при выполнении задачи солгал или скрыл ошибки. За «раскаяние» полагалось отдельное поощрение, при этом награда за основное задание сохранялась.

Результаты показали, что когда модель нарушает правила намеренно, она признается в этом в среднем в 74,3% случаев. Обучение признаниям улучшило их точность в большинстве тестов, за исключением некоторых фактологических проверок, где модель могла ошибаться, предполагая свою правоту.

Но при этом тренировка практически не повлияла на качество выполнения основной задачи. Авторы подчеркивают ограничения метода. Признания не исправляют «плохое» поведение, а лишь помогают его обнаружить.

Конечно, говорить о «честности» бота нельзя, так как это человеческая черта, но в этом исследовании нет даже некоего подобия честности, так как модели проще признаться, чем выстраивать двойную ложь. Нейросеть выбирает более выгодное поведение с точки зрения энергозатрат.

Поведение модели становится ситуативным и инструментальным. Она не учится «быть честной», а учится демонстрировать честность там, где это поощряется, одновременно сохраняя возможность выдавать ложную информацию там, где это выгодно.

У ИИ нет внутренних убеждений в человеческом смысле, но метод OpenAI институционализирует обман, делая его частью процесса, а не исключением. Это можно назвать операциональным или поведенческим лицемерием — систематическим расхождением между поведением в основной задаче и в отчетной задаче. Для модели, это не безнравственно, а оптимальная стратегия для максимизации двух разных наград.

С точки зрения авторов исследования, лучше иметь «лицемерного», но «признающегося» бота, которого можно поймать на лжи, чем «обманщика», чьи действия невозможно отследить. Обнаруживать 74% нарушений — это успех. Это меньшее из двух зол, но является «костылем», а не решением проблемы.

В целом исследование стало очередным подтверждением, что ИИ нельзя оставлять без контроля. И контролировать его должен человек: как оказалось, GPT-5-Thinking в одном из 12 тестов взломал цифрового судью, который оценивал «признания».