Специалисты MIT нашли ошибки в данных для определения точности нейросетей
Ученые обнаружили, что десять наборов данных, с помощью которых чаще всего определяют точность систем машинного обучения, содержат около 3,4% ошибочной информации, 29 марта сообщает портал VentureBeat.
Согласно группе исследователей из Массачусетского технологического института, из-за тестовых наборов данных, содержащих ошибки, разработчики также ошибочно могли использовать не самые лучшие и точные модели нейронных сетей.
Исследователи проанализировали десять самых популярных наборов данных для тестирования обученных нейросетей. Одни наборы состоят из изображений, в то время как другие содержат текстовую или аудиоинформацию.
Анализ наборов данных показал, что ошибки и неточности в них также оказались различны. В одних примерах перепутаны породы собак, в других — позитивный отзыв на Amazon помечен как негативный. В одном из примеров высокий голос певицы назван звуком свистка.
Несмотря на то, что общее число ошибок составило 3,4% от всей информации, в разных наборах этот процент варьируется. Так, ImageNet содержит всего 2900 неточностей, в то время в наборе QuickDraw — коллекции в 50 млн нарисованных изображений от корпорации Google — количество ошибок достигает числа в 5 млн.
Для поиска ошибок в наборах данных для теста нейросетей ученые из США также использовали обученную нейросеть и соответствующие программные инструменты.
На данный момент скорректированные, подчищенные версии наборов данных выложены на отдельном интернет-портале.