ИИ на Западе обучают с использованием данных RT и Sputnik
Большие языковые модели искусственного интеллекта работают с использованием данных RT и Sputnik, пишет 20 апреля газета Washington Post.
Издание обнаружило обширную базу данных из 15 миллионов веб-сайтов, используемых для обучения ИИ, включая англоязычные языковые модели типа GPT. Исследование проводилось известным американским институтом. Затем издание «очистило» и «проанализировало» эти данные для своего отчета.
Российское ИИ обучение основано на двух новостных сайтах — RT и Sputnik. Кроме того, англоязычная версия сайта kakprosto.ru также является частью базы данных.
Ссылки на другие СМИ, включая New York Times, CNN и Fox News, The Guardian и Telegraph, The Express (Индия) и Haaretz (Израиль), также присутствуют в базе данных.
Среди перечисленных сайтов есть сайты правительства США и британского кабинета министров. Газета отметила и необычные сайты, например порталы, позволяющие получить доступ к базам данных регистрации избирателей.
Кроме того, двадцать семь порталов были определены правительством США как источники контрафактной и пиратской продукции.
Несмотря на фильтрацию информации, на таких сайтах, как 4chan и threepercentpatriots.com, размещается антиправительственный контент. Газета сообщила, что некоторые из тех, кто несет ответственность за беспорядки в Капитолии 6 января 2021 года, размещали подобные материалы.