Исследование показало, что нейросети деградируют от соцсетей, как и люди

Изображение: Лапухина Мария © ИА Красная Весна
Робот сдает экзамены
Робот сдает экзамены

Потребление «мусорного» контента из соцсетей приводит к деградации больших языковых моделей (LLM, нейросети) подобно тому, как это происходит с человеком, показало исследование Техасского университета (Остин), опубликованное 29 октября на сайте исследовательского проекта «LLMs Can Get „Brain Rot“!»

В ходе исследования четыре языковые модели прошли длительное дообучение на реальных данных из соцсети X. Посты разделили на информативные и «мусорные» (короткие популярные твиты, реклама, сенсационный контент, сопровождающийся оборотами «Вау!», «Зацени!», «Только сегодня!» и т. п.).

Результаты показали значительное ухудшение ключевых способностей у моделей, обученных на некачественных данных. Точность логических рассуждений снизилась с 75% до 57%, а понимание длинных контекстов упало с 84% до 52%. Также зафиксирован рост склонности к генерации вредоносного контента и проявлению черт, аналогичных человеческой психопатии.

Анализ механизма ошибок выявил феномен «пропуска мыслей» — модели перестают генерировать промежуточные шаги рассуждений. Эффект демонстрирует четкую зависимость от объема некачественных данных в обучающей выборке. При этом процесс деградации не получилось обратить вспять.

«Частичное, но неполное восстановление: масштабирование инструкций и предобучение на чистых данных улучшают сниженные когнитивные функции, но не могут восстановить исходные способности», — говорится в исследовании.

Исследователи предупреждают о необходимости пересмотреть практики сбора данных для нейросетей и призывают ввести регулярные проверки «когнитивного здоровья» моделей.