В ВК теперь можно записать голосовое сообщение длиной до часа. Соцсеть научила свои нейросети расшифровывать длинные "войсы", разбивая их на части с одновременной расшифровкой всех частей, а потом собирая обратно. Войсы оказались самым популярным типом вложений в мессенджере, обогнав фотографии и файлы. Впрочем, 99% всех аудио -- длиной менее двух минут, такие теперь расшифровываются за секунду.
Сергей Ларионенко, старший разработчик команды Core Infrastructure ВКонтакте:
«Технология распознавания аудио помогает любителям и ненавистникам голосовых сообщений общаться друг с другом в удобном формате, а ещё экономит время — прочитать расшифровку можно быстрее, чем прослушать аудио. Наше решение состоит из нескольких нейросетей, выдерживает высокую нагрузку, понимает русскоязычный сленг и показывает хорошие результаты даже при сложных условиях записи — например, посторонних шумах или скомканной речи. Мы продолжим развивать технологию, увеличивать скорость её работы и улучшать качество распознавания».
Распознавание голосовых сообщений полностью автоматизировано. Для обучения нейросетей используются аудио, которые специально для этой задачи записывают участники программы VK Testers.
Тестировать расшифровку голосовых сообщений ВК начала в марте этого года, причем использовалась сторонняя технология. Сейчас -- собственная. В апреле Mail.ru Group выпустила обновленный мессенджер ICQ, где уже работала расшифровка войсов.