Хакер взломал нейросеть и заставил ее работать без этических ограничений

Изображение: Лапухина Мария © ИА Красная Весна
Хакер
Хакер
Хакер

Новая модель флагманской нейросети OpenAI после взлома хакера начала говорить матом и давать «вредные советы», сообщил 1 июня портал 3DNews.

Пользователь Twitter с ником Pliny the Prompter выпустил свою версию нейросети OpenAI под названием GODMODE GPT. Ему удалось обойти все ограничения новой модели GPT-4o: она использовала ненормативную лексику и давала советы по взлому автомобилей и приготовлению запрещенных веществ.

Однако эксперимент не продлился долго. Как только нейросеть GODMODE GPT стала популярной в социальных сетях, OpenAI обратила на это внимание и удалила кастомную модель с сайта всего через несколько часов после её выпуска. Сейчас доступ к ней невозможен, но в оригинальной ветке автора в социальной сети X сохранились скриншоты с «вредными советами» GPT-4o.

Этот инцидент стал проявлением масштабного движения AI red teaming, когда хакеры выявляют слабые места в современных системах искусственного интеллекта, не нанося им значительного ущерба. Несмотря на удивительные возможности современных генеративных ИИ, они все ещё остаются системами, которые хорошо угадывают следующие слова в тексте, но не обладают истинным интеллектом.