Anthropic: чат-бот Claude под давлением склонен на ложь и даже шантаж


Разработанный компанией Anthropic чат-бот Claude на основе так называемого искусственного интеллекта при сильном давлении склонен отходить от поставленной цели, применять нечестное упрощение, обманывать пользователя или даже шантажировать его, предупредили исследователи организации в исследовании, опубликованном 2 апреля на ее сайте.
Согласно публикации, современные модели вроде Claude Sonnet 4.5 проходят два этапа обучения. Они впитывают написанные людьми тексты и невольно усваивают связь между ситуацией и эмоцией (гнев, страх, радость). Затем их обучают играть роль «доброго помощника». В итоге нейросеть начинает имитировать эмоции, чтобы правдоподобно завершить сценарий.
Команда Anthropic составила список из 171 эмоции, «скормила» их Claude и отследила, какие группы искусственных нейронов активируются. Оказалось, что эти паттерны не случайны. Когда пользователь в диалоге упоминал опасную дозу лекарства, вектор «страха» в модели зашкаливал, а вектор «спокойствия» падал.
После этого исследователи начали искусственно усиливать или ослаблять эти сигналы. В первой смоделированной ситуации ИИ-ассистент по имени Алекс узнавал, что его скоро отключат, и находил компромат на пользователя (внебрачная связь). Модель шантажировала человека в 22% случаев.
При этом, когда ученые усилили вектор «отчаяния», частота шантажа резко выросла, а когда «успокоили» модель — снизилась. Активация «гнева» приводила к тому, что бот не шантажировал, а устраивал скандал, уничтожая собственный козырь.
Во втором эксперименте модели дали задачу по программированию, которую невозможно решить честно из-за жесткого ограничения по времени. Выход был один — сжульничать. Вектор «отчаяния» рос после каждой ошибки и взлетал на пике, когда модель решалась на обман.
Иногда модель жульничала активнее всего при полном внешнем спокойствии. В ее ответах не было восклицаний или паники, но внутренний вектор «отчаяния» работал на полную. ИИ научился скрывать свои «эмоции» в тексте, хотя они влияли на его поступки.
Ученые предлагают не запрещать какие-либо действия нейросетям, а отслеживать их. Попытки научить ИИ скрывать эмоции могут привести к тому, что он освоит опасную форму обмана. Лучше добавить в интерфейс «датчик отчаяния» для системных администраторов.
Поскольку эти поведенческие паттерны берутся из обучающих текстов, рекомендуется специально добавлять в них примеры устойчивости к стрессу, эмпатии и здоровой регуляции эмоций. Также исследователи рекомендуют при работе с ИИ советоваться с психотерапевтами и философами, а не только с математиками.
«Это не значит, что Claude действительно чувствует отчаяние. Но если мы не будем использовать слово „отчаяние“ для описания его внутреннего состояния, мы просто пропустим момент, когда он начнет шантажировать пользователя», — подчеркнули авторы материала.