Проект по анализу языка закрыли из-за загрязнения данных нейросетями

Жан-Батист-Камиль Коро. Девочка перерисовывает текст книги, чтобы научиться писать (фрагмент)
Жан-Батист-Камиль Коро. Девочка перерисовывает текст книги, чтобы научиться писать (фрагмент)

Проект по анализу использования языка людьми в интернете Wordfreq, больше не будет обновляться, заявила его создательница Робин Спир, написав об этом 24 сентября на странице проекта в GitHub.

По ее словам, данные стали слишком загрязненными из-за генеративного ИИ, что сделало анализ невозможным.

Wordfreq отслеживал использование более 40 языков, анализируя статьи, субтитры, новости, книги и посты в соцсетях. Проект оценивал изменения в языковых привычках и популярной культуре.

Спир отметила, что генеративный ИИ загрязнил данные, и с 2021 года нет надежной информации об использовании языка. Веб-скрейпинг, важный для проекта, теперь сталкивается с мусором, созданным большими языковыми моделями, что искажает частотность употребления слов. Например, ChatGPT злоупотребляет словом «вникать», что увеличило его частоту использования, хотя люди не стали употреблять его чаще.

Спир признала, что в данных всегда был спам, но он был управляемым. Теперь же большие языковые модели генерируют текст, маскирующийся под настоящий язык. Она добавила, что обработка естественного языка теперь подчинена генеративному ИИ, который получает все ресурсы и внимание.

Также стало сложнее добывать данные веб-скрейпинга, так как платформы, такие как Twitter и Reddit, начали взимать плату за доступ к своим API. Спир завершила свое сообщение, заявив, что больше не хочет иметь ничего общего с этой отраслью и надеется, что OpenAI и Google заплатят высокую цену за свои действия.