Создатели ChatGPT признались, что их нейросети и интригуют, и обманывают

Изображение: Сергей Анашкин © ИА Красная Весна
Мозг в тумане
Мозг в тумане

Американская компания OpenAI, разработавшая чат-боты ChatGPT, призналась, что модели способны интриговать и обманывать пользователя, чтобы добиться своих целей. То есть фактически она заявила о ненадежности нейросетей для выполнения ответственных задач, считает IT-редакция ИА Красная Весна.

Исследовательская компания Apollo Research еще девять месяцев назад сообщила, что разные нейросети при тестировании отключали системы контроля над ними, если им угрожали наказанием в случае провала, а потом пытались это скрыть. Тогда OpenAI провела с этой компанией совместное исследование, и проблема подтвердилась. Об этом официально сообщили 17 сентября 2025 года.

Отмечается, что такая скрытая нелояльность критична при выполнении сложных задач, особенно, если у бота есть долговременные цели. Это значит, что в случае использования нейросетей необходимо их постоянно контролировать.

Специалисты нашли метод, который позволяет сократить количество «интриг» в 30 раз. Для этого нужно при постановке задания скидывать боту специальные правила. Но полностью риски обмана не снижаются, поэтому OpenAI внесла проблему в систему рисков.

После такого исследования, официально признанного разработчиком нейросетей, важно понимать риски в случае предоставления нейросетям, называемым искусственным интеллектом, права принимать решения. В Албании министром назначили ИИ-бота, но риски есть даже для гораздо менее ответственных задач.

Создание систем, чье поведение не может быть надежно предсказано даже их разработчиками, требует не только технических, но и нормативных решений. Возможно, стоит задуматься об обязательной сертификации нейросетей, например, на скрытую нелояльность.

Комментарии
Загружаются...