Нейросеть сможет имитировать речь собеседника при прерываниях в звонках

Имитировать речь собеседника при прерываниях в аудиозвонках с помощью нейросети научились специалисты Google, 2 апреля сообщил портал Ferra.ru.

Портал указывает, что в случае нестабильного соединения речь человека во время звонка может звучать прерывисто. Это происходит из-за того, что сигнал проходит через множество сетей и часть аудиопакетов может теряться.

Разработчики указали, что в настоящее время во всех сервисах используются алгоритмы маскировки потери пакетов (PLC), но при потере большого количества пакетов и увеличении паузы до нескольких десятков миллисекунд могут наблюдаться искажения в звуке.

По данным портала, разработчики из Google и DeepMind создали алгоритм, который заменяет утерянные пакеты, основан он на нейросети. Нейросеть анализирует последние фрагменты речи и заполняет паузу синтезированным голосом собеседника. По данным разработчиков, технология уже протестирована на смартфонах Pixel 4.