ИИ научился притворяться мертвым, чтобы обойти проверки

Изображение: Цитата из м/ф «Робин Гуд». Реж. Вольфганг Райтерман. 1973. США
Обманщица
Обманщица

Они могут перехитрить людей в настольных играх, расшифровать структуру белков и сносно вести беседу, но по мере того, как системы искусственного интеллекта становятся всё более совершенными, растет и их способность к обману, предупреждают ученые.

Анализ, проведенный исследователями из Массачусетского технологического института (MIT), выявил множество случаев, когда системы искусственного интеллекта обманывали оппонентов, блефовали и притворялись людьми. Об этом рассказывает 10 мая газета The Guardian.

«По мере того как способности систем искусственного интеллекта обманывать становятся все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными», — отмечает доктор Питер Парк, исследователь экзистенциальной безопасности искусственного интеллекта в MIT.

Парк был приглашен к расследованию после того, как компания Meta (организация, деятельность которой запрещена в РФ), которой принадлежит Facebook (организация, деятельность которой запрещена в РФ), разработала программу под названием Cicero, которая вошла в число 10% лучших игроков-людей в стратегической игре Diplomacy по завоеванию мира.

Парк и его коллеги проанализировали общедоступные данные и выявили множество случаев, когда Cicero преднамеренно лгал, вступал в сговор с целью вовлечения других игроков в заговоры и, в одном случае, оправдывал свое отсутствие после перезагрузки, сообщив другому игроку: «Я разговариваю по телефону со своей девушкой».

Команда МIT обнаружила аналогичные проблемы с другими системами, включая программу для игры в разновидность покера Техасский холдем, которая могла блефовать против профессиональных игроков-людей, и еще одну систему ИИ для экономических переговоров, которая искажала свои предпочтения, чтобы одержать верх.

В одном из экспериментов ИИ-организмы в цифровом симуляторе «притворились мертвыми», чтобы обмануть тест, созданный для устранения систем ИИ, которые эволюционировали для быстрого воспроизведения, прежде чем возобновить активную деятельность после завершения тестирования. Это подчеркивает техническую сложность обеспечения того, чтобы системы не проявляли непреднамеренного и непредвиденного поведения.

«Это очень тревожит, — утверждает Парк. — То, что систему искусственного интеллекта сочтут безопасной в тестовой среде, не означает, что она будет безопасна в рабочем режиме. Возможно, во время теста ИИ просто притворяется, что не представляет опасности».

В отчете исследователей, опубликованном в журнале Patterns, содержится призыв к правительствам разработать законы о безопасности ИИ, которые учитывали бы возможность обмана со стороны этих систем.

Риски, связанные с «нечестными» системами ИИ, включают мошенничество, вмешательство в выборы и надувательство, когда разным пользователям система отвечает по-разному. В конечном счете, если эти системы смогут усовершенствовать свою тревожную способность обманывать, люди могут потерять контроль над ними, предупреждают эксперты.