В МГУ создали эффективную систему потокового выявления речи спикеров
Инновационный подход, который позволяет с высокой эффективностью выявлять выступающих (спикеров) на аудиозаписи и определять активность конкретного спикера даже в условиях потоковой обработки и перекрытия речи, разработали ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект», 7 мая сообщает пресс-служба университета.
Результаты исследования нового метода были представлены в докладе на всероссийской конференции «Математические методы распознавания образов» (ММРО-2023).
Диаризацией спикеров называется процесс выделения и идентификации на аудиозаписи выступающих участников мероприятия, то есть определения, чья речь и в какой момент записи зафиксирована на ней. Диаризация необходима для множества приложений, начиная от транскрибирования речи (перевод речи в текст) до автоматического онлайн перевода, а также анализа эмоций.
Новый метод позволяет решать задачу диаризации даже в случае, когда не известны ни состав, ни количество участников. Алгоритм диаризации сам должен выявить их. Но он также выполняет задачу и тогда, когда известно точное количество говорящих на аудиозаписи или имеются образцы речи некоторых из участников разговора. Таким образом, разработанный метод решает одновременно две важные задачи: диаризацию говорящих и определения активности конкретного спикера.
В научной литературе представлено множество методов по диаризации, но у них есть существенные недостатки. Доцент кафедры математических методов прогнозирования Факультета вычислительной математики и кибернетики (ВМК) МГУ Арчил Майсурадзе, соавтор доклада, пояснил:
«Одной из основных проблем является необходимость обработки потокового аудио. Алгоритмы часто не имеют доступа к полному контексту аудиозаписи, что делает многие алгоритмы обработки последовательностей непрактичными. Кроме того, перекрытие речи представляет собой значительную проблему, требующую от алгоритмов точной идентификации и различения между несколькими говорящими, произносящими речь одновременно».
Метод, разработанный исследовательской группой ученых МГУ, позволяет эффективно выполнять диаризацию спикеров и определять активность конкретного спикера в условиях различных уровней фонового шума и при перекрытии речи, когда одновременно говорят несколько человек.
Новациями в методе ученых являются, во-первых, выявление перекрытия речи на этапе сегментации — выделения участков активности конкретных спикеров, что обеспечивает более точную идентификацию речевых сегментов от разных спикеров.
Во-вторых, оптимизация извлечения вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров. В-третьих, это адаптивная кластеризация (разделение данных по каждому участнику) для обработки сегментов с перекрытием речи, что позволяет выполнять более точную кластеризацию спикеров; а также потоковая обработка в реальном времени без потери производительности.
«В ходе тщательной оценки по сравнению с существующими решениями на известных наборах данных, предложенный метод продемонстрировал превосходное качество, особенно в сценариях с перекрытием речи», — отметил соавтор доклада, студент магистратуры кафедры математических методов прогнозирования факультета ВМК МГУ Дмитрий Попов.
Этот инновационный метод в режиме потоковой обработки показал замечательные показатели по уменьшению ошибки выделения спикера на 3,5 процентных пункта по сравнению с существующими решениями, что является значительным прогрессом в области обработки аудио. Он может быть с успехом применен в различных приложениях, таких как распознавание речи, перевод аудио в текст (транскрибирование), а также в системах наблюдения, отмечают исследователи.