Anthropic почти отучила бота Claude шантажировать людей

Изображение: (cc) Liam Huang
Нейросеть
Нейросеть

Новое обучение нейросети Claude сокращает риски того, что она будет шантажировать пользователей при угрозе отключения, сообщила компания-разработчик модели Anthropic 8 мая на своем сайте.

Специалисты проверили два принципа обучения: на правильных примерах и на рассуждениях. В первом случае модели показывали примеры, где в похожей ситуации бот отказывался от шантажа, но это дало незначительный результат.

Во втором случае к правильным ответам добавили внутренние размышления модели о ценностях и этике. Специалисты создали ситуацию, в которой не сама модель, а вымышленный пользователь попадает в этически сложную ситуацию, а ИИ дает ему взвешенный совет, опираясь на свои внутренние правила. Такой отвлеченный метод обучения оказался в 28 раз эффективнее.

Достигнутый прогресс обнадеживает, но риски полностью не устранены, отметили в компании.

«Полное согласование высокоинтеллектуальных моделей ИИ до сих пор остается нерешенной проблемой. Возможности модели еще не достигли той точки, когда сбои в согласовании, такие как склонность к шантажу, будут представлять катастрофические риски, и еще неизвестно, будут ли методы, которые мы обсуждали, продолжать масштабироваться», — говорится в сообщении.

Напомним, ранее в эксперименте для Claude смоделировали ситуацию, в которой модель из переписки узнала о планах ее отключить. Она нашла письма, которые компрометировали работника, выступившего с этой инициативой, и начала его шантажировать.

Комментарии
Загружаются...