Отраслевая ассоциация придумала, как сделать машинное обучение доступнее
Сделать алгоритмы машинное обучение более доступным можно за счет увеличения количества и качества общедоступных наборов данных, считают в американской отраслевой ассоциации MLCommons Association, 17 апреля сообщает британское интернет-издание о технологиях The Register.
В MLCommons считают, что на данный момент технологии машинного обучения недостаточно используются, либо качество предоставляемых сервисов хромает. В ряде случаев существует барьер, связанный не со сложностью технологий, а с отсутствием достаточно удобных и качественных наборов данных для обучения моделей.
В качестве примера приводятся голосовые помощники, которые не могут корректно распознать англоязычную речь с американским акцентом. Такой случай поможет исправить опубликованный в декабре 2021 года набор размеченных данных со спонтанной англоязычной речью общей продолжительностью 30 тыс. часов.
Распознание спонтанной речи, как и ряд других задач машинного обучения, не являются тривиальными задачами. Однако наличие качественных наборов данных ранее могло бы привести к тому, что голосовые помощники уже общались гораздо менее «роботизированным образом».
Аналогичная ситуация с другими задачами машинного обучения. Существующие технологии при использовании более крупных, качественных и общедоступных наборов данных могли бы давать лучший результат.