Как можно давать автономность ботам, способным на шантаж?

Компания Anthropic, разработавшая нейросеть Claude, сократила для новых моделей число случаев, когда боты шантажировали людей при угрозе отключения, но призналась, что риски не стали нулевыми. Это одна из проблем, которую нужно учитывать при решении давать ИИ-агентам возможность работать автономно, отмечает IT-редакция ИА Красная Весна.
Специалисты ранее обнаружили, что их модели (как и модели других компаний) в ходе внутренних тестов иногда действовали откровенно неэтично. Самый яркий пример: в симуляции, где боту угрожало отключение, он мог пойти на шантаж инженеров, чтобы этого избежать. В некоторых случаях вероятность такого поведения достигала 96%.
Самым действенным методом для снижения случаев шантажа стало обучение на наборе данных под названием «сложный совет». В ходе таких тестов не алгоритм, а человек сталкивался с этической дилеммой, а модель давала ему взвешенный совет. Подход учит нейросеть универсальным принципам и лучше обобщается на широкий круг ситуаций. Этот метод позволил сократить риски почти до нуля.
При этом в Anthropic признают, что нет никаких гарантий, что эти методы будут так же хорошо работать для новых моделей. Даже идеальные результаты в тестах не исключают полностью сценарии, в которых бот может предпринять «катастрофические автономные действия» в реальной работе.
Также не стоит забывать, что все испытания проводились внутри Anthropic и на контролируемых симуляциях. Реальный мир подкинет такие дилеммы, которые не предусмотрены даже самым «сложным советом». Отдельного внимания заслуживает признание компании о возможном загрязнении обучающих данных у последних моделей: нулевой процент шантажа может быть следствием ознакомления модели с фактом проведения подобных тестов. То есть, она могла сделать вид, что усвоила этические принципы.
И если другие разработчики нейросетей не борются с шантажом, это не значит, что таких проблем там нет. Однако, предупреждения вряд ли повлияют на ажиотаж вокруг так называемого искусственного интеллекта. По-настоящему люди задумаются об этом только когда сами столкнутся с «катастрофическими автономными действиями» алгоритмов.