Искусственный интеллект научили читать по губам

Цитата из видео «Can an AI Learn Lip Reading?» пользователя Two Minute Papers
Цитата из видео «Can an AI Learn Lip Reading?» пользователя Two Minute Papers

Нейросетевой искусственный интеллект, способный воссоздавать звуки речи по беззвучному видео с говорящим человеком, разработали индийские ученые под руководством Праджвала Ренукананда из Международного института информационных технологий, 17 июля сообщает YouTube-канал Two Minute Papers.

Созданная нейросеть пока не может распознавать по губам речь произвольного человека. Она должна быть «натренирована» на конкретного расказчика.

В исследовании для обучения нейросети было использовано по 20 часов видео от пяти разных лекторов. При этом она может уверенно интерпретировать движения губ даже в условиях поворота головы или жестикуляции.

Получаемый при реконструкции звук получается немного металлическим, но сильно превосходит предыдущую работу 2017 года из Еврейского университета в Иерусалиме.

Разработку можно использовать для реконструкцию видео, в котором был частично утрачен звук. Также она может пригодиться для организации видеоконференции из мест, где запрещено громко говорить.

Напомним, 2 июля подразделение Disney Research представило нейронную сеть, способную заменять на видео лицо говорящего на лицо другого человека. Алгоритм способен работать в прямом эфире и обрабатывать видео высокой четкости.