Mail.ru Group запустила сервис с виртуальными ведущими, созданными на основе ИИ
Mail.ru Group разработала платформу, которая позволяет создавать новостные и репортажные ролики студийного качества. Зачитывает новости виртуальный диктор, созданный на основе ИИ. В видео можно добавить изображения, музыку, титры и ссылки.
В Mail.ru Group рассчитывают, что новый инструмент будет полезен компаниям, блогерам и медиа, так как он позволит им быстро выпускать сюжеты студийного качества, а также сэкономить на создании видеоконтента.
Чтобы сделать видео, нужно загрузить в систему текст новости — и виртуальный ведущий его зачитает. Дикторы выглядят и разговаривают как живые люди — они способны реалистично воспроизводить мимику, эмоционально реагировать и расставлять смысловые акценты.
Внешность выбирает сам пользователь — в компании создали несколько моделей цифровых ведущих, прототипами для которых послужили реальные люди. Также пользователи смогут менять дизайн студии.
По прогнозам компании, к 2022 году 79% всего интернет-трафика в России придется на онлайн-видео.
«Но производство видеосюжетов — сложный и дорогой процесс, который большинство медиаресурсов не могут себе позволить. В редакторе от Смотри Mail.ru можно создавать новостные и репортажные видео в хорошем качестве и абсолютно бесплатно. Мы уверены, что наша технология позволит увеличить количество качественного новостного видео-контента», — считает заместитель вице-президента, руководитель направления облачных и бизнес-сервисов Mail.ru Group Егор Ганин.
Кроме того, видео, созданные профессиональными медиаплощадками, авторизованными редакцией Смотри Mail.ru, смогут попасть в рекомендательную систему сервиса, а медиа смогут дополнительно монетизировать свой контент.
При создании виртуальных ведущих в компании использовали собственные разработки в области ИИ. Например, над синтезом речи на основе нейронных сетей работала команда голосового помощника Маруси, который, в том числе, умеет озвучивать новости.
Видео синхронизируется с речью в режиме реального времени. Системы компьютерного зрения Vision обучались на реальных прототипах и видеозаписях, чтобы точно воспроизводить движение губ и выражение лица. Это помогает дикторам воспроизводить произвольную речь с нужной мимикой и эмоциональностью.