Сбербанк открывает доступ к набору речевых данных на русском языке
Доступ к самому большому размеченному вручную набору речевых данных на русском языке Golos открывает «Сбер», сообщает 21 мая пресс-служба банка.
Согласно сообщению, датасет Golos включает в себя 1240 часов обезличенных аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой.
Данные предоставляются по лицензии, допускающей использование в исследовательских и коммерческих целях. Датасет собирала команда Sberdevices, его можно скачать на сайте GitHub.
«Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом» — сказал Денис Филиппов, CTO Sberdevices.
Также Филиппов выразил надежду, что «датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий».
Напомним, SberDevices — компания экосистемы Сбера, представляющая собой центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия.