Лучшие нейросети для расшифровки аудиозаписей

18 Апрель 2024

Время чтения: 26 минут

Тестируем на одном и том же отрывке, чтобы выявить оптимальный вариант.

Мы уже писали статью о том, как расшифровывать аудио в целом — там мы собрали платные и бесплатные способы это сделать.

А в этом материале сосредоточимся именно на нейросетях, которые помогают расшифровать аудио.

Как мы будем тестировать нейросети

Мы не можем просто взять для теста любое интервью из интернета, подкаст или аудиокнигу. Так что будем использовать видеоинтервью со специалистом TexTerra Константином Ивлевым с нашего YouTube-канала про то, что такое контент-маркетинг и как мы работаем с контентом:

Мы начнем тест с 0:13. На всякий случай, вот так выглядит текст отрывка, который мы хотим протестировать:

Интервьюер (Александр Монахов): Давай представим, напротив тебя сидит 7-летний ребенок и спрашивает: «дядя, а ты чем занимаешься?» А ты говоришь, а я контент-стратег. А он говорит: «кто?!»

Интервьюируемый (Константин Ивлев): Да, большие стрелочки на карте рисую. Я, пожалуй, скажу так: «У тебя есть телефон, ты заходишь в Яндекс, у тебя какой-то вопрос. Допустим, „скачать мне эту игру или не скачать, хорошая она или плохая“. И я стараюсь так, чтобы тот ответ, который ты получишь, был одновременно понятным и правильным».

Александр Монахов: Но при этом, дядя, ты же Яндексом не управляешь.

Константин Ивлев: Нет. Тогда еще нужно пару-тройку фраз. Вот это интересно. Было бы легче, конечно, если бы я управлял Яндексом.

Александр Монахов: Конечно.

Константин Ивлев: На разных сайтах информация преподносится по-разному. Ты можешь получить разные мнения. Я стараюсь, чтобы тот сайт, который предоставляет информацию наиболее правильно и наиболее понятно, находился так, чтобы ты кликнул на него первым.

Лучшей будет та нейросеть, которая выдаст нам наиболее точный вариант, похожий на то, что выше. Оценивать будем по шкале от 1 до 5 — чем больше ошибок, тем меньше балл.

Важное замечание про сервисы: большинство из них работают по одному из двух принципов — либо в них нужно загружать аудио, чтобы сервис его транскрибировал, либо доступен голосовой ввод, то есть, надо будет наговаривать аудио в реальном времени. Других принципов нет.

Мы не будем разбирать все существующие сервисы, а разберем несколько примечательных, а похожие просто укажем там, где это уместно.

В тех сервисах, где есть голосовой ввод, включим видео для теста на одном устройстве, а расшифровку включим на другом. А в тех сервисах, где можно загружать файлы, загрузим диктофонную запись интервью.

Speechlogger

Простой сервис, где не нужно регистрироваться. Не так уж много функций — зато бесплатно и быстро. Правда, придется не загружать запись, а включать ее на одном устройстве, а на другом — запускать работу сервиса и транскрибировать.

Язык интерфейса: русский

Поддерживаемые языки: немецкий, английский, испанский, французский, итальянский, португальский, русский, корейский, китайский, румынский, арабский, иврит

Стоимость: бесплатно

Возможности:

расшифровка аудио;
транскрибация в реальном времени;
генерация субтитров;
расстановка знаков препинания;
редактирование готового текста;
возможность давать голосовые команды, чтобы сервис ставил знаки препинания, пробелы и переносы.

Поддерживаемые форматы: только голосовой ввод.

Тест:

Сервис максимально прост; не нужно регистрироваться, можно просто нажать на красный микрофон посреди экрана — и начнется голосовой ввод. Включаем на телефоне наше видео, а на ноутбуке — запись экрана:

Результат Speechlogger

Результат на скриншоте. Все довольно плохо — часть текста попросту пропущена, предложения расставлены кое-как. Можно даже не включать полную запись — по паре предложений все уже понятно: 2 из 5.

Возможно, сервис будет работать лучше, если сделать запись медленнее. Но в целом он вполне подходит для транскрибации аудио и видео, которые вы и так слышали или можете послушать. Тогда можно будет вручную дополнить текст.

Похожие сервисы:

Speechpad — буквально голосовой блокнот. Есть приложения на iOS и Andoid.
Dictation — сервис для «умного» голосового набора, который позволяет печатать голосовым набором, распознавая команды.

Riverside

Полноценная нейросеть для работы с расшифровкой аудио и видео.

Язык интерфейса: английский

Поддерживаемые языки: русский, английский и более 100 распространенных мировых языков

Стоимость: от 15 долларов в месяц, российской картой оплатить нельзя, но до 2 часов транскрибации — бесплатно. Этого хватит даже для длинного видео.

Возможности:

расшифровка аудио;
транскрибация в реальном времени;
экспорт транскрибации в .txt;
возможность записывать видео-интервью прямо в сервисе;
возможность редактировать получившиеся тексты.

Поддерживаемые форматы: голосовой ввод, MP3, MP4, MOV, WAV.

Тест:

Сервис не поддерживает M4A, а именно в этом формате у нас диктофонная запись. Конвертируем в MP4 и загружаем в сервис:

Интерфейс Riverside

Указываем язык (можно выбрать из более чем 100 языков — в этом сервисе их больше всего):

Интерфейс Riverside

Если загрузить запись на русском, а выбрать английский язык, то сервис не только транскрибирует аудио, но и запись отправится на обработку:

Интерфейс Riverside

Все корректно. Нужно только разделить транскрипцию на спикеров:

Результат Riverside

Поставим 5 из 5 с оговоркой, что сервис больше всего подойдет для транскрибации монологов. Он прост, бесплатен и не требует регистрации.

Похожие сервисы:

Otter AI — ИИ-ассистент для встреч онлайн. Вы созваниваетесь — он транскрибирует.
AI Search — нейросеть, которая решает множество задач: от создания текстов и картинок до генерации кода. Может расшифровать аудио, поддерживает mp3, mp4, mpeg, mpga, m4a, wav, webm до 25 МБ.
Speechnotes — поддерживает и транскрипцию в реальном времени, и загрузку файлов.

SaluteSpeech

Сервис от Сбера для синтеза речи из текста на основе ИИ — с поддержкой расшифровки и транскрибации. Расшифровку делает Telegram-бот и десктопное приложение.

Язык интерфейса: русский

Поддерживаемые языки: русский, английский и казахский

Стоимость: до 200 000 символов бесплатно, от 1 000 рублей в год за дополнительный пакет символов.

Возможности:

расшифровка аудио;
транскрибация в реальном времени;
проставление правильных знаков препинания;
распознавание без шума;
синтез речи из текста с правильными ударениями;
нормализация текста;
гибкая разметка синтеза;
Telegram-бот для расшифровки, API.

Поддерживаемые форматы: голосовой ввод, M4A, MPGA, MPEG, MP4, WEBM, PCM, OPUS, MP3, FLAC, ALAW, MULAW.

Тест:

Начнем с бота, и начинается все с проблем. Аудиофайлы формата m4a сервис не принимает — точнее, пишет, что принял, но не может распознать. Загружаем обычное голосовое.

Результат бота SaluteSpeech

Результат на скриншоте. Вот вам и SaluteSpeech!. Боту ставим 1 из 5, потому что он даже не транскрибировал запись до конца.

При этом смотрите, как расшифровывает сообщение простой Telegram Premium:

Расшифровка Telegram Premium

Пожалуй, единственный минус Telegram Premium — это что нельзя расшифровать длинную запись. Ну и то, что он платный.

Будем пробовать настольное приложение, и для этого надо разобраться с API.

Чтобы использовать SaluteSpeech, нужно скачать установочный файл (есть как для Windows, так и для macOS) и установить приложение.

Так выглядит его интерфейс:

Десктопное приложение SaluteSpeech

Мы можем использовать синтез речи, а для распознавания речи нужно получить токен.

Десктопное приложение SaluteSpeech

Подробная информация о получении токена описана в инструкции. Нужно зайти на сайт SaluteSpeech и зарегистрироваться через Сбер ID (если есть карта Сбера, зарегистрироваться будет проще и быстрее):

Регистрация в SaluteSpeech

После регистрации нужно выбрать среди всех сервисов SaluteSpeech, и он добавится в личный кабинет:

Личный кабинет в пространстве

Нажмите на SaluteSpeech. Появятся его данные:

Данные для активации десктопного приложения

В поле с ключами для подключения сервиса нужно нажать «Сгенерировать новый»:

Данные для активации десктопного приложения

Скопируйте «Авторизационные данные» и вставьте их в десктопное приложение. Нажмите «Сгенерировать»:

Данные для активации десктопного приложения

В поле «Распознавание» появится возможность загрузить аудиофайл:

Интерфейс SaluteSpeech

Результат:

Результаты SaluteSpeech

Поставим 2 из 5 — какой-то текст есть, но тоже очень неполный, как и у бота.

Практически аналогичный SaluteSpeech российский сервис — Yandex SpeechKit. Расшифровать запись и синтезировать речь там можно только через API. Сервис поддерживает русский, казахский, узбекский, английский, немецкий и иврит. Стоит от 13,2 рублей в месяц за 10 000 символов. При создании платежного аккаунта на него автоматически начисляется 4 000 рублей.

Еще две нейросети, которые можно использовать только по API:

Rev AI — расшифровщик со множеством функций. Позиционируется как сервис для работы со многими языками, может делать асинхронную транскрипцию и транскрипцию стримингов.
Whisper — нейросеть для работы с аудио от OpenAI, создателя ChatGPT и DALL-E. Установить можно в GitHub.

Teamlogs

Российский инструмент от Teamlogs — сервиса по умному поиску и извлечению поручений, то есть, автоматизации рабочих процессов. На сайте утверждают, что точность расшифровки — до 95 % (спойлер: это правда).

Язык интерфейса: русский

Поддерживаемые языки: русский и английский

Стоимость: 15 минут — бесплатно. Дальше — от 6 рублей за минуту.

Возможности:

расшифровка аудио с расстановкой знаков препинания и разделением текста на спикеров;
тайм-коды;
возможность редактировать расшифровку;
настройки доступа, чтобы делиться записью;
выделение ключевых слов;
краткое содержание записей;
экспорт в docx, xlsx, srt (для субтитров в YouTube).

Поддерживаемые форматы: MP4, MKV, FLV, AVI, MOV, WMV, M4A, MP3, OGG, AAC, WAV, FLAC, WMA.

Тест:

Загружаем файл на главной, указываем язык и количество спикеров. Здесь можно настроить язык и количество спикеров. Также можно сделать так, чтобы сервис сам определил их количество — тогда надо выбрать «Авто».

Интерфейс Teamlogs

Нам предлагают зарегистрироваться:

Регистрация в Teamlogs

После регистрации нужно подтвердить нашу заявку:

Интерфейс Teamlogs

Пару минут файл будет обрабатываться, пока что можно добавить новый файл на транскрибацию.

Интерфейс Teamlogs

Готово. Результат прекрасен:

Результаты Teamlogs

Мы можем тут же заменить имена спикеров (по умолчанию Спикер 0 и Спикер 1), а также послушать запись и вручную исправить мелочи.

Результаты и интерфейс Teamlogs

Дальше текст можно доработать с помощью ИИ:

Доработка текста Teamlogs

По-моему, здесь все отлично. Пока что это лучший и самый простой сервис. Так что 5 из 5, даже если есть мелкие ошибки («рисуют» вместо «рисую»).

«Писец»

Тоже российский сервис, который также можно оплатить из любой страны и любого банка.

Язык интерфейса: русский

Поддерживаемые языки: русский и английский

Стоимость: платить нужно за часы — 1 290 рублей стоят 5 часов. Бесплатный тариф позволяет расшифровать записи до 30 минут. При регистрации всем пользователям дарят пакет на 30 минут.

Возможности:

расшифровка файлов с делением на спикеров;
расстановкой тайм-кодов, знаков препинания.

Поддерживаемые форматы: WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и другие. Обещают подарить подарок, если удастся загрузить в сервис формат, который тот не сможет распознать.

Тест:

Загружаем файл прямо на главной, указав почту:

Интерфейс «Писца»

Результаты придут на почту:

Загрузка файла в «Писца»

Почему-то мое письмо уходит в спам — если вам тоже не пришло в общую папку, скорее всего, оно в «Спаме» или «Корзине».

Нажимаем «Не спам» и смотрим результат.

Письмо от «Писца» с результатами работы

Вот что получилось:

Расшифровка «Писца»

Субъективная оценка — 3 из 5. Какой-то контент есть. Если посмотреть видео, по которому сделана расшифровка, все понятно, но если не смотреть — то нет. Еще и не совсем правильная разбивка на спикеров в начале текста.

Дальше можно зарегистрироваться в сервисе — там будет история заказов.

Личный кабинет «Писца»

Похожий простой сервис, поддерживающий только загрузку файлов — RealSpeaker. В него можно загрузить файл до 180 минут. Он поддерживает более 30 языков. 1,5 минуты — бесплатно, остальное — от 16 рублей за минуту.

Сравниваем сервисы для расшифровки

Собрали сервисы в удобную таблицу, чтобы вам проще было выбрать. Отсортировали от лучшего к худшему.

Сервис / Параметр	Наша оценка	Язык интерфейса	Поддерживаемые языки	Стоимость	Возможности	Поддерживаемые форматы
Teamlogs	5/5	русский	русский и английский	15 минут — бесплатно, дальше — от 6 рублей за минуту	расшифровка аудио, расстановка знаков препинания, разделение текста на спикеров, тайм-коды, возможность редактировать расшифровку, настройки доступа, выделение ключевых слов, краткое содержание записей, экспорт в docx, xlsx, srt	MP4, MKV, FLV, AVI, MOV, WMV, M4A, MP3, OGG, AAC, WAV, FLAC, WMA
Riverside AI	5/5, но подойдет только для монологов	английский	более 100 языков	от 15 долларов в месяц; до 2-х часов транскрибации — бесплатно	расшифровка аудио, транскрибация в реальном времени, экспорт транскрибации в .txt, возможность записывать видео-интервью, возможность редактировать получившиеся тексты	голосовой ввод, MP3, MP4, MOV, WAV
«Писец»	3/5	русский	русский и английский	1 290 за 5 часов, бесплатно до 30 минут	расшифровка файлов с делением на спикеров, расстановка тайм-кодов и знаков препинания	WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и другие
Speechlogger	2/5	русский	12 распространенных языков	бесплатно	расшифровка аудио, транскрибация в реальном времени, генерация субтитров, расстановка знаков препинания, редактирование готового текста, возможность давать голосовые команды	только голосовой ввод
SaluteSpeech	Telegram-бот — 1/5; десктопное приложение — 1/5	русский	русский, английский и казахский	до 200 000 символов бесплатно, от 1 000 рублей в год за дополнительный пакет символов	расшифровка аудио, транскрибация в реальном времени, проставление знаков препинания, распознавание без шума, синтез речи из текста, нормализация текста, гибкая разметка синтеза, Telegram-бот для расшифровки	голосовой ввод, M4A, MPGA, MPEG, MP4, WEBM, PCM, OPUS, MP3, FLAC, ALAW, MULAW