Искусственный интеллект научили читать по губам
Нейросетевой искусственный интеллект, способный воссоздавать звуки речи по беззвучному видео с говорящим человеком, разработали индийские ученые под руководством Праджвала Ренукананда из Международного института информационных технологий, 17 июля сообщает YouTube-канал Two Minute Papers.
Созданная нейросеть пока не может распознавать по губам речь произвольного человека. Она должна быть «натренирована» на конкретного расказчика.
В исследовании для обучения нейросети было использовано по 20 часов видео от пяти разных лекторов. При этом она может уверенно интерпретировать движения губ даже в условиях поворота головы или жестикуляции.
Получаемый при реконструкции звук получается немного металлическим, но сильно превосходит предыдущую работу 2017 года из Еврейского университета в Иерусалиме.
Разработку можно использовать для реконструкцию видео, в котором был частично утрачен звук. Также она может пригодиться для организации видеоконференции из мест, где запрещено громко говорить.
Напомним, 2 июля подразделение Disney Research представило нейронную сеть, способную заменять на видео лицо говорящего на лицо другого человека. Алгоритм способен работать в прямом эфире и обрабатывать видео высокой четкости.