Мы уже писали статью о том, как расшифровывать аудио в целом — там мы собрали платные и бесплатные способы это сделать.
А в этом материале сосредоточимся именно на нейросетях, которые помогают расшифровать аудио.
Как мы будем тестировать нейросети
Мы не можем просто взять для теста любое интервью из интернета, подкаст или аудиокнигу. Так что будем использовать видеоинтервью со специалистом TexTerra Константином Ивлевым с нашего YouTube-канала про то, что такое контент-маркетинг и как мы работаем с контентом:
Мы начнем тест с 0:13. На всякий случай, вот так выглядит текст отрывка, который мы хотим протестировать:
Интервьюер (Александр Монахов): Давай представим, напротив тебя сидит 7-летний ребенок и спрашивает: «дядя, а ты чем занимаешься?» А ты говоришь, а я контент-стратег. А он говорит: «кто?!»
Интервьюируемый (Константин Ивлев): Да, большие стрелочки на карте рисую. Я, пожалуй, скажу так: «У тебя есть телефон, ты заходишь в Яндекс, у тебя какой-то вопрос. Допустим, „скачать мне эту игру или не скачать, хорошая она или плохая“. И я стараюсь так, чтобы тот ответ, который ты получишь, был одновременно понятным и правильным».
Александр Монахов: Но при этом, дядя, ты же Яндексом не управляешь.
Константин Ивлев: Нет. Тогда еще нужно пару-тройку фраз. Вот это интересно. Было бы легче, конечно, если бы я управлял Яндексом.
Александр Монахов: Конечно.
Константин Ивлев: На разных сайтах информация преподносится по-разному. Ты можешь получить разные мнения. Я стараюсь, чтобы тот сайт, который предоставляет информацию наиболее правильно и наиболее понятно, находился так, чтобы ты кликнул на него первым.
Лучшей будет та нейросеть, которая выдаст нам наиболее точный вариант, похожий на то, что выше. Оценивать будем по шкале от 1 до 5 — чем больше ошибок, тем меньше балл.
Важное замечание про сервисы: большинство из них работают по одному из двух принципов — либо в них нужно загружать аудио, чтобы сервис его транскрибировал, либо доступен голосовой ввод, то есть, надо будет наговаривать аудио в реальном времени. Других принципов нет.
Мы не будем разбирать все существующие сервисы, а разберем несколько примечательных, а похожие просто укажем там, где это уместно.
В тех сервисах, где есть голосовой ввод, включим видео для теста на одном устройстве, а расшифровку включим на другом. А в тех сервисах, где можно загружать файлы, загрузим диктофонную запись интервью.
Speechlogger
Простой сервис, где не нужно регистрироваться. Не так уж много функций — зато бесплатно и быстро. Правда, придется не загружать запись, а включать ее на одном устройстве, а на другом — запускать работу сервиса и транскрибировать.
Язык интерфейса: русский
Поддерживаемые языки: немецкий, английский, испанский, французский, итальянский, португальский, русский, корейский, китайский, румынский, арабский, иврит
Стоимость: бесплатно
Возможности:
- расшифровка аудио;
- транскрибация в реальном времени;
- генерация субтитров;
- расстановка знаков препинания;
- редактирование готового текста;
- возможность давать голосовые команды, чтобы сервис ставил знаки препинания, пробелы и переносы.
Поддерживаемые форматы: только голосовой ввод.
Тест:
Сервис максимально прост; не нужно регистрироваться, можно просто нажать на красный микрофон посреди экрана — и начнется голосовой ввод. Включаем на телефоне наше видео, а на ноутбуке — запись экрана:
Результат на скриншоте. Все довольно плохо — часть текста попросту пропущена, предложения расставлены кое-как. Можно даже не включать полную запись — по паре предложений все уже понятно: 2 из 5.
Возможно, сервис будет работать лучше, если сделать запись медленнее. Но в целом он вполне подходит для транскрибации аудио и видео, которые вы и так слышали или можете послушать. Тогда можно будет вручную дополнить текст.
Похожие сервисы:
- Speechpad — буквально голосовой блокнот. Есть приложения на iOS и Andoid.
- Dictation — сервис для «умного» голосового набора, который позволяет печатать голосовым набором, распознавая команды.
Riverside
Полноценная нейросеть для работы с расшифровкой аудио и видео.
Язык интерфейса: английский
Поддерживаемые языки: русский, английский и более 100 распространенных мировых языков
Стоимость: от 15 долларов в месяц, российской картой оплатить нельзя, но до 2 часов транскрибации — бесплатно. Этого хватит даже для длинного видео.
Возможности:
- расшифровка аудио;
- транскрибация в реальном времени;
- экспорт транскрибации в .txt;
- возможность записывать видео-интервью прямо в сервисе;
- возможность редактировать получившиеся тексты.
Поддерживаемые форматы: голосовой ввод, MP3, MP4, MOV, WAV.
Тест:
Сервис не поддерживает M4A, а именно в этом формате у нас диктофонная запись. Конвертируем в MP4 и загружаем в сервис:
Указываем язык (можно выбрать из более чем 100 языков — в этом сервисе их больше всего):
Если загрузить запись на русском, а выбрать английский язык, то сервис не только транскрибирует аудио, но и запись отправится на обработку:
Все корректно. Нужно только разделить транскрипцию на спикеров:
Поставим 5 из 5 с оговоркой, что сервис больше всего подойдет для транскрибации монологов. Он прост, бесплатен и не требует регистрации.
Похожие сервисы:
- Otter AI — ИИ-ассистент для встреч онлайн. Вы созваниваетесь — он транскрибирует.
- AI Search — нейросеть, которая решает множество задач: от создания текстов и картинок до генерации кода. Может расшифровать аудио, поддерживает mp3, mp4, mpeg, mpga, m4a, wav, webm до 25 МБ.
- Speechnotes — поддерживает и транскрипцию в реальном времени, и загрузку файлов.
SaluteSpeech
Сервис от Сбера для синтеза речи из текста на основе ИИ — с поддержкой расшифровки и транскрибации. Расшифровку делает Telegram-бот и десктопное приложение.
Язык интерфейса: русский
Поддерживаемые языки: русский, английский и казахский
Стоимость: до 200 000 символов бесплатно, от 1 000 рублей в год за дополнительный пакет символов.
Возможности:
- расшифровка аудио;
- транскрибация в реальном времени;
- проставление правильных знаков препинания;
- распознавание без шума;
- синтез речи из текста с правильными ударениями;
- нормализация текста;
- гибкая разметка синтеза;
- Telegram-бот для расшифровки, API.
Поддерживаемые форматы: голосовой ввод, M4A, MPGA, MPEG, MP4, WEBM, PCM, OPUS, MP3, FLAC, ALAW, MULAW.
Тест:
Начнем с бота, и начинается все с проблем. Аудиофайлы формата m4a сервис не принимает — точнее, пишет, что принял, но не может распознать. Загружаем обычное голосовое.
Результат на скриншоте. Вот вам и SaluteSpeech!. Боту ставим 1 из 5, потому что он даже не транскрибировал запись до конца.
При этом смотрите, как расшифровывает сообщение простой Telegram Premium:
Пожалуй, единственный минус Telegram Premium — это что нельзя расшифровать длинную запись. Ну и то, что он платный.
Будем пробовать настольное приложение, и для этого надо разобраться с API.
Чтобы использовать SaluteSpeech, нужно скачать установочный файл (есть как для Windows, так и для macOS) и установить приложение.
Так выглядит его интерфейс:
Мы можем использовать синтез речи, а для распознавания речи нужно получить токен.
Подробная информация о получении токена описана в инструкции. Нужно зайти на сайт SaluteSpeech и зарегистрироваться через Сбер ID (если есть карта Сбера, зарегистрироваться будет проще и быстрее):
После регистрации нужно выбрать среди всех сервисов SaluteSpeech, и он добавится в личный кабинет:
Нажмите на SaluteSpeech. Появятся его данные:
В поле с ключами для подключения сервиса нужно нажать «Сгенерировать новый»:
Скопируйте «Авторизационные данные» и вставьте их в десктопное приложение. Нажмите «Сгенерировать»:
В поле «Распознавание» появится возможность загрузить аудиофайл:
Результат:
Поставим 2 из 5 — какой-то текст есть, но тоже очень неполный, как и у бота.
Практически аналогичный SaluteSpeech российский сервис — Yandex SpeechKit. Расшифровать запись и синтезировать речь там можно только через API. Сервис поддерживает русский, казахский, узбекский, английский, немецкий и иврит. Стоит от 13,2 рублей в месяц за 10 000 символов. При создании платежного аккаунта на него автоматически начисляется 4 000 рублей.
Еще две нейросети, которые можно использовать только по API:
- Rev AI — расшифровщик со множеством функций. Позиционируется как сервис для работы со многими языками, может делать асинхронную транскрипцию и транскрипцию стримингов.
- Whisper — нейросеть для работы с аудио от OpenAI, создателя ChatGPT и DALL-E. Установить можно в GitHub.
Teamlogs
Российский инструмент от Teamlogs — сервиса по умному поиску и извлечению поручений, то есть, автоматизации рабочих процессов. На сайте утверждают, что точность расшифровки — до 95 % (спойлер: это правда).
Язык интерфейса: русский
Поддерживаемые языки: русский и английский
Стоимость: 15 минут — бесплатно. Дальше — от 6 рублей за минуту.
Возможности:
- расшифровка аудио с расстановкой знаков препинания и разделением текста на спикеров;
- тайм-коды;
- возможность редактировать расшифровку;
- настройки доступа, чтобы делиться записью;
- выделение ключевых слов;
- краткое содержание записей;
- экспорт в docx, xlsx, srt (для субтитров в YouTube).
Поддерживаемые форматы: MP4, MKV, FLV, AVI, MOV, WMV, M4A, MP3, OGG, AAC, WAV, FLAC, WMA.
Тест:
Загружаем файл на главной, указываем язык и количество спикеров. Здесь можно настроить язык и количество спикеров. Также можно сделать так, чтобы сервис сам определил их количество — тогда надо выбрать «Авто».
Нам предлагают зарегистрироваться:
После регистрации нужно подтвердить нашу заявку:
Пару минут файл будет обрабатываться, пока что можно добавить новый файл на транскрибацию.
Готово. Результат прекрасен:
Мы можем тут же заменить имена спикеров (по умолчанию Спикер 0 и Спикер 1), а также послушать запись и вручную исправить мелочи.
Дальше текст можно доработать с помощью ИИ:
По-моему, здесь все отлично. Пока что это лучший и самый простой сервис. Так что 5 из 5, даже если есть мелкие ошибки («рисуют» вместо «рисую»).
«Писец»
Тоже российский сервис, который также можно оплатить из любой страны и любого банка.
Язык интерфейса: русский
Поддерживаемые языки: русский и английский
Стоимость: платить нужно за часы — 1 290 рублей стоят 5 часов. Бесплатный тариф позволяет расшифровать записи до 30 минут. При регистрации всем пользователям дарят пакет на 30 минут.
Возможности:
- расшифровка файлов с делением на спикеров;
- расстановкой тайм-кодов, знаков препинания.
Поддерживаемые форматы: WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и другие. Обещают подарить подарок, если удастся загрузить в сервис формат, который тот не сможет распознать.
Тест:
Загружаем файл прямо на главной, указав почту:
Результаты придут на почту:
Почему-то мое письмо уходит в спам — если вам тоже не пришло в общую папку, скорее всего, оно в «Спаме» или «Корзине».
Нажимаем «Не спам» и смотрим результат.
Вот что получилось:
Субъективная оценка — 3 из 5. Какой-то контент есть. Если посмотреть видео, по которому сделана расшифровка, все понятно, но если не смотреть — то нет. Еще и не совсем правильная разбивка на спикеров в начале текста.
Дальше можно зарегистрироваться в сервисе — там будет история заказов.
Похожий простой сервис, поддерживающий только загрузку файлов — RealSpeaker. В него можно загрузить файл до 180 минут. Он поддерживает более 30 языков. 1,5 минуты — бесплатно, остальное — от 16 рублей за минуту.
Сравниваем сервисы для расшифровки
Собрали сервисы в удобную таблицу, чтобы вам проще было выбрать. Отсортировали от лучшего к худшему.
Сервис / Параметр |
Наша оценка |
Язык интерфейса |
Поддерживаемые языки |
Стоимость |
Возможности |
Поддерживаемые форматы |
---|---|---|---|---|---|---|
Teamlogs |
5/5 |
русский |
русский и английский |
15 минут — бесплатно, дальше — от 6 рублей за минуту |
|
MP4, MKV, FLV, AVI, MOV, WMV, M4A, MP3, OGG, AAC, WAV, FLAC, WMA |
Riverside AI |
5/5, но подойдет только для монологов |
английский |
более 100 языков |
от 15 долларов в месяц; до 2-х часов транскрибации — бесплатно |
|
голосовой ввод, MP3, MP4, MOV, WAV |
«Писец» |
3/5 |
русский |
русский и английский |
1 290 за 5 часов, бесплатно до 30 минут |
|
WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и другие |
Speechlogger |
2/5 |
русский |
12 распространенных языков |
бесплатно |
|
только голосовой ввод |
SaluteSpeech |
Telegram-бот — 1/5; десктопное приложение — 1/5 |
русский |
русский, английский и казахский |
до 200 000 символов бесплатно, от 1 000 рублей в год за дополнительный пакет символов |
|
голосовой ввод, M4A, MPGA, MPEG, MP4, WEBM, PCM, OPUS, MP3, FLAC, ALAW, MULAW |
Читайте также:
Лучшие онлайн-переводчики – тест 5 хороших