B2B блог?! – Запустили десятки таких в 2024. Подробнее здесь

Заказать звонок
Телефон отдела продаж:
8 (800) 775-16-41
Наш e-mail:
mail@texterra.ru
Заказать услугу
Перевод видео и звонков VK в текст – вот как работает новая функция Редакция «Текстерры»
Редакция «Текстерры»

У сервиса VK Звонки появилась новая функция — теперь там можно включить автоматическую транскрибацию звонков. Нейросеть расшифрует разговор и отправит его в текстовом виде в чат звонка. Рассказываем, как это работает, и какие существуют аналогичные сервисы.

Как транскрибируются звонки в VK

С точки зрения программного обеспечения, транскрибация происходит в два этапа: на первом звуковая дорожка очищается от шумов — в записи улучшается качество звука, чтобы слова были слышны более отчетливо; на втором этапе нейросеть распознает отдельные слова в речи и переводит их в текст.

При этом алгоритм учитывает таймкоды и личности говорящих. Иными словами, транскрибация разговора выдается не сплошным текстом, а разбивается по отдельным спикерам и распределяется по времени.

Пока что транскрибация работает только с русским языком, но VK планирует добавить и другие. Сообщается, что нейросеть для расшифровки звонков, которая используется в сервисе — «ноу-хау» VK. На деле уникального достижения в этом нет — аналогичные нейросети появились более полугода назад в США. Кроме того, есть и сносно работающие отечественные аналоги.

Продвинем ваш бизнес
Подробнее

Нейросети для расшифровки звонков

Whisper AI

Самая популярная на сегодняшний день нейросеть для транскрибации звонков и аудио называется Whisper. Ее создала компания OpenAI, стоящая за нейросетями ChatGPT и DALL-E 2.

У этой нейросети открытый исходный код — скачать ее с GitHub и установить на свой компьютер может каждый. Но использование этого алгоритма может создать большую нагрузку на ваши вычислительные ресурсы. Особенно, если вы решите использовать ее самую мощную и самую точную версию под названием large: для работы такой модели потребуется минимум 10 Гб видеопамяти, но зато количество ее ошибок сведено к минимуму: в среднем нейросеть неправильно распознает всего 5,6% слов на русском языке. Огромный плюс модели в том, что кроме русского, она также работает еще с несколькими десятками языков, в том числе даже с непальским.

Опробовать модель можно на Hugging Face, но придется либо найти общедоступное пространство с GPU, либо создать приватное пространство и подключить на него платный сервер с графическим процессором — иначе вы можете прождать расшифровку 3-минутного аудио больше часа и так и не дождаться.

Если у вас Mac, вы можете скачать бесплатную программу с этой нейросетью под названием Mac Whisper: переходите по ссылке, нажимаете на кнопку «Я хочу это», потом вводите свой Email и на него приходит ссылка на скачивание (всё проверено — способ рабочий).

Sber SaluteSpeech

У Сбера есть аналогичный сервис по расшифровке речи. Работает он через API, который можно подключить на портале для разработчиков, или через телеграм-бота. Телеграм-бот, к слову, бесплатный и работает без ограничений. Отправить ему можно как голосовое прямо из Телеграма, так и загрузить файл с расширением .mp3.

Единственный минус бота — ответ он выдает в виде сплошного полотна текста (даже без абзацев!), поэтому лучше всего такой сервис подойдет именно для голосовых сообщений, а не записей звонков.

tl;dv

На сайте tldv.io можно скачать расширение для Zoom или Google Meet, которое позволяет расшифровывать записи звонков в текст. У него все те же функции, что и у новой фичи VK Звонков — итоговая расшифровка выдается с таймкодами и учитывает говорящих пользователей.

После регистрации на сайте и установки расширения в Zoom, вы получаете доступ к личному кабинету, где будут появляться все записи ваших звонков с их транскриптами. В программе поддерживается даже русский язык. Единственный минус — бесплатный тариф сильно ограничен, несмотря на безлимит на расшифровку звонков.

Как включить расшифровку звонков в ВК

Транскрибация в VK Звонках работает только в десктопной или мобильной версиях. То есть, перевести в текст звонок, сделанный с сайта, не получится — придется скачивать приложение. Ссылку на скачивание приложения для своей ОС и устройства вы можете найти в правом меню вот тут.

После скачивания и установки приложения открываем его и авторизуемся по VK ID. Попадаем в минималистичный интерфейс в стиле Zoom. Перед тем, как начать транскрибацию, нужно начать звонок.

Когда звонок начался, находим кнопку «Больше» в нижней панели и нажимаем на «Расшифровка звонка». Теперь звонок начнет автоматически расшифровываться, и в любой момент вы можете остановить транскрибацию, нажав на значок текста в верхней панели и выбрав «Остановить расшифровку».

Транскрибация звонка

По идее, после того, как ваш звонок завершится, его расшифровка должна появиться в панели «Расшифровка звонков» в разделе «Звонки» прямо на сайте VK. Также текст звонка будет отправлен в виде файла с расширением .txt в чат, автоматически созданный после звонка.

Корректно функция работает при звонке минимум на 2 человека — разговор действительно транскрибируется и отправляется в чат довольно быстро. Алгоритмы VK точно распознают слова даже при резком изменении громкости разговора.

Читайте также:

«ВКонтакте» сделал сервис видеозвонков. Сравнили его параметры с Zoom, Teams, Meet и Telegram

Теперь только полчаса — «Билайн» запретил звонить дольше

Что если отключат Zoom, Skype, Teams…? – все варианты на замену

Поделиться статьей:

Новое на сайте

11 окт 2024
1 011 902
Как запускать рекламу в «Яндекс.Директ» в 2024 году — полный гайд

Без Google Ads тоже есть жизнь! Теперь Яндекс — единственный эффективный инструмент для настройки контекстной рекламы в России, который постоянно обновляется.

11 окт 2024
254
Гордиться работой или мечтать об увольнении: куда качнулся маятник общественного мнения

Горжусь своей работой! – А что делаешь? – Не важно! Объясняем новый парадокс.

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Спасибо!

Ваша заявка принята. Мы свяжемся с вами в ближайшее время.