Британская компания представила инструмент очистки данных для ИИ

Изображение: geralt, pixabay, cc0
оцифровка
оцифровка

Программный инструмент для проверки наборов данных для обучения систем искусственного интеллекта (ИИ) на предмет предвзятости представлен молодой лондонской компанией Synthesized, 13 ноября сообщил американский портал новостей об информационных технологиях ZDNet.

Многие наборы данных, особенно когда запускается новый сервис на основе ИИ, страдают предвзятостью. Эти искажения достаточно сложно выявить, тогда как зрелому инструменту важны объективные данные.

Программа анализирует предоставленные наборы данных на предмет статистических отклонений. Она выдает пользователю потенциальные отклонения от статистической нормы. В результате анализа программа выставляет оценку справедливости набора данных от нуля до единицы.

Кроме того, как следует из названия компании, программа позволяет генерировать новый синтетический набор данных на основе проанализированного. Синтетический набор создается с учетом выявленных искажений, а обнаруженные систематические ошибки исправляются. Исправление ведется за счет искусственного заполнения недостающих участков.

«Создавая эти смоделированные и тщательно отобранные высококачественные наборы данных, вы можете создавать более качественные сервисы. Мы хотели показать, что можно сделать набор данных более сбалансированным, не снижая качества данных. Результаты моделей ИИ улучшатся, потому что те группы, которые отсутствовали, будут сформированы», — заявил основатель Synthesized Николай Балдин.

Балдин привел пример анализа общедоступного набора данных о 32 тыс. человек. Программа обнаружила в нем 270 групп людей, характеризуемых какими-то общими данными. Одну из таких групп можно охарактеризовать как «незамужние женщины в возрасте от 33 лет до 41 года». Для группы параметр дохода заметно выше, чем в среднем по остальной выборке.