«ВКонтакте» научилась расшифровывать голосовые сообщения до двух минут

«ВКонтакте» усовершенствовала технологию распознавания голосовых сообщений: за секунду нейросеть будет расшифровать записи продолжительностью до двух минут — то есть 99% всех аудиосообщений, которые отправляют пользователи. Максимальный хронометраж голосового сообщения продлили до часа.

Голосовые сообщения — самый типом вложений в мессенджере «ВКонтакте», при этом с момента запуска технологии расшифровки речи в июне их аудитория выросла на 10% — сейчас она составляет 33 млн человек в месяц. В среднем каждый пользователь сервиса читает восемь расшифровок в день.

Источник: пресс-служба «ВКонтакте»

Технология распознавания аудиосообщений — собственная разработка «ВКонтакте». Чтобы переводить в текст более продолжительные записи, не жертвуя скоростью, разработчики создали алгоритмы, которые автоматически разбивают длинное аудио на короткие блоки, расшифровывают их все одновременно, а затем объединяют обратно в одно сообщение. На распознавание сообщения уходит около секунды.

«Наше решение состоит из нескольких нейросетей, выдерживает высокую нагрузку, понимает русскоязычный сленг и показывает хорошие результаты даже при сложных условиях записи — например, посторонних шумах или скомканной речи. Мы продолжим развивать технологию, увеличивать скорость ее работы и улучшать качество распознавания», — говорит Сергей Ларионенко, старший разработчик команды Core Infrastructure ВКонтакте.

Ранее Performance360 рассказывал, что «ВКонтакте» запустила групповые видеозвонки на 128 человек для совместной учёбы, работы и досуга. Особенность сервиса в том, что присоединиться к звонку можно даже без аккаунта в соцсети.


Все интересное про диджитал у нас в телеграме, а может быть и у вас: https://t.me/performance_360

Другие хорошие статьи