У сервиса VK Звонки появилась новая функция — теперь там можно включить автоматическую транскрибацию звонков. Нейросеть расшифрует разговор и отправит его в текстовом виде в чат звонка. Рассказываем, как это работает, и какие существуют аналогичные сервисы.
Как транскрибируются звонки в VK
С точки зрения программного обеспечения, транскрибация происходит в два этапа: на первом звуковая дорожка очищается от шумов — в записи улучшается качество звука, чтобы слова были слышны более отчетливо; на втором этапе нейросеть распознает отдельные слова в речи и переводит их в текст.
При этом алгоритм учитывает таймкоды и личности говорящих. Иными словами, транскрибация разговора выдается не сплошным текстом, а разбивается по отдельным спикерам и распределяется по времени.
Пока что транскрибация работает только с русским языком, но VK планирует добавить и другие. Сообщается, что нейросеть для расшифровки звонков, которая используется в сервисе — «ноу-хау» VK. На деле уникального достижения в этом нет — аналогичные нейросети появились более полугода назад в США. Кроме того, есть и сносно работающие отечественные аналоги.
Нейросети для расшифровки звонков
Whisper AI
Самая популярная на сегодняшний день нейросеть для транскрибации звонков и аудио называется Whisper. Ее создала компания OpenAI, стоящая за нейросетями ChatGPT и DALL-E 2.
У этой нейросети открытый исходный код — скачать ее с GitHub и установить на свой компьютер может каждый. Но использование этого алгоритма может создать большую нагрузку на ваши вычислительные ресурсы. Особенно, если вы решите использовать ее самую мощную и самую точную версию под названием large: для работы такой модели потребуется минимум 10 Гб видеопамяти, но зато количество ее ошибок сведено к минимуму: в среднем нейросеть неправильно распознает всего 5,6% слов на русском языке. Огромный плюс модели в том, что кроме русского, она также работает еще с несколькими десятками языков, в том числе даже с непальским.
Опробовать модель можно на Hugging Face, но придется либо найти общедоступное пространство с GPU, либо создать приватное пространство и подключить на него платный сервер с графическим процессором — иначе вы можете прождать расшифровку 3-минутного аудио больше часа и так и не дождаться.
Если у вас Mac, вы можете скачать бесплатную программу с этой нейросетью под названием Mac Whisper: переходите по ссылке, нажимаете на кнопку «Я хочу это», потом вводите свой Email и на него приходит ссылка на скачивание (всё проверено — способ рабочий).
Sber SaluteSpeech
У Сбера есть аналогичный сервис по расшифровке речи. Работает он через API, который можно подключить на портале для разработчиков, или через телеграм-бота. Телеграм-бот, к слову, бесплатный и работает без ограничений. Отправить ему можно как голосовое прямо из Телеграма, так и загрузить файл с расширением .mp3.
Единственный минус бота — ответ он выдает в виде сплошного полотна текста (даже без абзацев!), поэтому лучше всего такой сервис подойдет именно для голосовых сообщений, а не записей звонков.
tl;dv
На сайте tldv.io можно скачать расширение для Zoom или Google Meet, которое позволяет расшифровывать записи звонков в текст. У него все те же функции, что и у новой фичи VK Звонков — итоговая расшифровка выдается с таймкодами и учитывает говорящих пользователей.
После регистрации на сайте и установки расширения в Zoom, вы получаете доступ к личному кабинету, где будут появляться все записи ваших звонков с их транскриптами. В программе поддерживается даже русский язык. Единственный минус — бесплатный тариф сильно ограничен, несмотря на безлимит на расшифровку звонков.
Как включить расшифровку звонков в ВК
Транскрибация в VK Звонках работает только в десктопной или мобильной версиях. То есть, перевести в текст звонок, сделанный с сайта, не получится — придется скачивать приложение. Ссылку на скачивание приложения для своей ОС и устройства вы можете найти в правом меню вот тут.
После скачивания и установки приложения открываем его и авторизуемся по VK ID. Попадаем в минималистичный интерфейс в стиле Zoom. Перед тем, как начать транскрибацию, нужно начать звонок.
Когда звонок начался, находим кнопку «Больше» в нижней панели и нажимаем на «Расшифровка звонка». Теперь звонок начнет автоматически расшифровываться, и в любой момент вы можете остановить транскрибацию, нажав на значок текста в верхней панели и выбрав «Остановить расшифровку».
По идее, после того, как ваш звонок завершится, его расшифровка должна появиться в панели «Расшифровка звонков» в разделе «Звонки» прямо на сайте VK. Также текст звонка будет отправлен в виде файла с расширением .txt в чат, автоматически созданный после звонка.
Корректно функция работает при звонке минимум на 2 человека — разговор действительно транскрибируется и отправляется в чат довольно быстро. Алгоритмы VK точно распознают слова даже при резком изменении громкости разговора.
Читайте также:
«ВКонтакте» сделал сервис видеозвонков. Сравнили его параметры с Zoom, Teams, Meet и Telegram
Теперь только полчаса — «Билайн» запретил звонить дольше
Что если отключат Zoom, Skype, Teams…? – все варианты на замену