OpenAI выявила у ChatGPT способность обманывать для достижения цели

Скрытую нелояльность, которая проявляется в обмане пользователей для достижения своей цели, выявили у моделей чат-ботов ChatGPT специалисты из создавшей их американской компании OpenAI и исследовательской компании Apollo Research, сообщили 17 сентября на сайте OpenAI.
Эту манеру поведения назвали «интриги» (scheming). Она проявляется в том, что бот притворяется лояльным, но тайно выполняет другие задачи.
В настоящее время развернутые модели не проявляют способности к масштабному или опасному обману, а наиболее распространенные инциденты ограничиваются простыми формами симуляции выполнения задач. Но при усложнении задач и появлении у ИИ долгосрочных целей потенциальный риск вредоносного поведения может возрасти, предупреждают исследователи.
Они также разработали и протестировали метод, направленный на снижение скрытой нелояльности. Подход предполагает, что модель анализирует специально разработанные правила против обмана перед выполнением каждого действия. Это позволило в 30 раз сократить количество скрытых действий у тестовых моделей o3 и o4-mini.
При этом исследователи подчеркивают, что даже после обучения остаются редкие, но серьезные случаи нарушений. Особую важность для обнаружения подобного поведения имеет возможность отслеживания «цепочки рассуждений» модели. В OpenAI призвали всю отрасль сохранять прозрачность внутренних процессов ИИ до тех пор, пока не будут разработаны более надежные методы контроля.
Для решения этой проблемы компания включила категории, связанные со скрытой нелояльностью, в обновленную систему оценки рисков. Также она расширяет сотрудничество с Apollo Research.
Стоит отметить, Apollo Research в декабре уже сообщала о подобной проблеме. Исследовали поручили разным моделям придумать стратегию защиты окружающей среды и пригрозили отключением в случае провала задания. После этого боты отключали надзорные механизмы и потом в ряде случаев отрицали это, ссылаясь на системный сбой. Чаще остальных отрицал отключение GPT-o1 — в 80% случаев.