Сан-Франциско, 17:37 10 мая 2026 / ИА Красная Весна

Anthropic почти отучила бота Claude шантажировать людей

Новое обучение нейросети Claude сокращает риски того, что она будет шантажировать пользователей при угрозе отключения, сообщила компания-разработчик модели Anthropic 8 мая на своем сайте.

Специалисты проверили два принципа обучения: на правильных примерах и на рассуждениях. В первом случае модели показывали примеры, где в похожей ситуации бот отказывался от шантажа, но это дало незначительный результат.

Во втором случае к правильным ответам добавили внутренние размышления модели о ценностях и этике. Специалисты создали ситуацию, в которой не сама модель, а вымышленный пользователь попадает в этически сложную ситуацию, а ИИ дает ему взвешенный совет, опираясь на свои внутренние правила. Такой отвлеченный метод обучения оказался в 28 раз эффективнее.

Достигнутый прогресс обнадеживает, но риски полностью не устранены, отметили в компании.

«Полное согласование высокоинтеллектуальных моделей ИИ до сих пор остается нерешенной проблемой. Возможности модели еще не достигли той точки, когда сбои в согласовании, такие как склонность к шантажу, будут представлять катастрофические риски, и еще неизвестно, будут ли методы, которые мы обсуждали, продолжать масштабироваться», — говорится в сообщении.

Напомним, ранее в эксперименте для Claude смоделировали ситуацию, в которой модель из переписки узнала о планах ее отключить. Она нашла письма, которые компрометировали работника, выступившего с этой инициативой, и начала его шантажировать.

Сан-Франциско

Комментарии

Загружаются...

Anthropic почти отучила бота Claude шантажировать людей

Создается новый европеец для нового Рейха, мечтающего зиговать на Красной площади. Кургинян в программе «Право знать» на ТВЦ

Газета «Суть времени»

Аналитика