Anthropic почти отучила бота Claude шантажировать людей

Новое обучение нейросети Claude сокращает риски того, что она будет шантажировать пользователей при угрозе отключения, сообщила компания-разработчик модели Anthropic 8 мая на своем сайте.
Специалисты проверили два принципа обучения: на правильных примерах и на рассуждениях. В первом случае модели показывали примеры, где в похожей ситуации бот отказывался от шантажа, но это дало незначительный результат.
Во втором случае к правильным ответам добавили внутренние размышления модели о ценностях и этике. Специалисты создали ситуацию, в которой не сама модель, а вымышленный пользователь попадает в этически сложную ситуацию, а ИИ дает ему взвешенный совет, опираясь на свои внутренние правила. Такой отвлеченный метод обучения оказался в 28 раз эффективнее.
Достигнутый прогресс обнадеживает, но риски полностью не устранены, отметили в компании.
«Полное согласование высокоинтеллектуальных моделей ИИ до сих пор остается нерешенной проблемой. Возможности модели еще не достигли той точки, когда сбои в согласовании, такие как склонность к шантажу, будут представлять катастрофические риски, и еще неизвестно, будут ли методы, которые мы обсуждали, продолжать масштабироваться», — говорится в сообщении.
Напомним, ранее в эксперименте для Claude смоделировали ситуацию, в которой модель из переписки узнала о планах ее отключить. Она нашла письма, которые компрометировали работника, выступившего с этой инициативой, и начала его шантажировать.