Мы не можем просто взять для теста любое интервью из интернета, подкаст или аудиокнигу. Так что будем использовать видеоинтервью со специалистом TexTerra Константином Ивлевым с нашего YouTube-канала про то, что такое контент-маркетинг и как мы работаем с контентом:

Мы начнем тест с 0:13. На всякий случай, вот так выглядит текст отрывка, который мы хотим протестировать:

Интервьюер (Александр Монахов): Давай представим, напротив тебя сидит 7-летний ребенок и спрашивает: «дядя, а ты чем занимаешься?» А ты говоришь, а я контент-стратег. А он говорит: «кто?!»

Интервьюируемый (Константин Ивлев): Да, большие стрелочки на карте рисую. Я, пожалуй, скажу так: «У тебя есть телефон, ты заходишь в Яндекс, у тебя какой-то вопрос. Допустим, „скачать мне эту игру или не скачать, хорошая она или плохая“. И я стараюсь так, чтобы тот ответ, который ты получишь, был одновременно понятным и правильным».

Александр Монахов: Но при этом, дядя, ты же Яндексом не управляешь.

Константин Ивлев: Нет. Тогда еще нужно пару-тройку фраз. Вот это интересно. Было бы легче, конечно, если бы я управлял Яндексом.

Александр Монахов: Конечно.

Константин Ивлев: На разных сайтах информация преподносится по-разному. Ты можешь получить разные мнения. Я стараюсь, чтобы тот сайт, который предоставляет информацию наиболее правильно и наиболее понятно, находился так, чтобы ты кликнул на него первым.

Лучшей будет та нейросеть, которая выдаст нам наиболее точный вариант, похожий на то, что выше. Оценивать будем по шкале от 1 до 5 — чем больше ошибок, тем меньше балл.

Важное замечание про сервисы: большинство из них работают по одному из двух принципов — либо в них нужно загружать аудио, чтобы сервис его транскрибировал, либо доступен голосовой ввод, то есть, надо будет наговаривать аудио в реальном времени. Других принципов нет.

Мы не будем разбирать все существующие сервисы, а разберем несколько примечательных, а похожие просто укажем там, где это уместно.

В тех сервисах, где есть голосовой ввод, включим видео для теста на одном устройстве, а расшифровку включим на другом. А в тех сервисах, где можно загружать файлы, загрузим диктофонную запись интервью.

Speechlogger

Простой сервис, где не нужно регистрироваться. Не так уж много функций — зато бесплатно и быстро. Правда, придется не загружать запись, а включать ее на одном устройстве, а на другом — запускать работу сервиса и транскрибировать.

Язык интерфейса: русский

Поддерживаемые языки: немецкий, английский, испанский, французский, итальянский, португальский, русский, корейский, китайский, румынский, арабский, иврит

Стоимость: бесплатно

Возможности:

расшифровка аудио;
транскрибация в реальном времени;
генерация субтитров;
расстановка знаков препинания;
редактирование готового текста;
возможность давать голосовые команды, чтобы сервис ставил знаки препинания, пробелы и переносы.

Поддерживаемые форматы: только голосовой ввод.

Тест:

Сервис максимально прост; не нужно регистрироваться, можно просто нажать на красный микрофон посреди экрана — и начнется голосовой ввод. Включаем на телефоне наше видео, а на ноутбуке — запись экрана:

Результат на скриншоте. Все довольно плохо — часть текста попросту пропущена, предложения расставлены кое-как. Можно даже не включать полную запись — по паре предложений все уже понятно: 2 из 5.

Возможно, сервис будет работать лучше, если сделать запись медленнее. Но в целом он вполне подходит для транскрибации аудио и видео, которые вы и так слышали или можете послушать. Тогда можно будет вручную дополнить текст.

Похожие сервисы:

Speechpad — буквально голосовой блокнот. Есть приложения на iOS и Andoid.
Dictation — сервис для «умного» голосового набора, который позволяет печатать голосовым набором, распознавая команды.

Riverside

Полноценная нейросеть для работы с расшифровкой аудио и видео.

Язык интерфейса: английский

Поддерживаемые языки: русский, английский и более 100 распространенных мировых языков

Стоимость: от 15 долларов в месяц, российской картой оплатить нельзя, но до 2 часов транскрибации — бесплатно. Этого хватит даже для длинного видео.

Возможности:

расшифровка аудио;
транскрибация в реальном времени;
экспорт транскрибации в .txt;
возможность записывать видео-интервью прямо в сервисе;
возможность редактировать получившиеся тексты.

Поддерживаемые форматы: голосовой ввод, MP3, MP4, MOV, WAV.

Тест:

Сервис не поддерживает M4A, а именно в этом формате у нас диктофонная запись. Конвертируем в MP4 и загружаем в сервис:

Указываем язык (можно выбрать из более чем 100 языков — в этом сервисе их больше всего):

Если загрузить запись на русском, а выбрать английский язык, то сервис не только транскрибирует аудио, но и запись отправится на обработку:

Все корректно. Нужно только разделить транскрипцию на спикеров:

Поставим 5 из 5 с оговоркой, что сервис больше всего подойдет для транскрибации монологов. Он прост, бесплатен и не требует регистрации.

Похожие сервисы:

Otter AI — ИИ-ассистент для встреч онлайн. Вы созваниваетесь — он транскрибирует.
AI Search — нейросеть, которая решает множество задач: от создания текстов и картинок до генерации кода. Может расшифровать аудио, поддерживает mp3, mp4, mpeg, mpga, m4a, wav, webm до 25 МБ.
Speechnotes — поддерживает и транскрипцию в реальном времени, и загрузку файлов.

SaluteSpeech

Сервис от Сбера для синтеза речи из текста на основе ИИ — с поддержкой расшифровки и транскрибации. Расшифровку делает Telegram-бот и десктопное приложение.

Язык интерфейса: русский

Поддерживаемые языки: русский, английский и казахский

Стоимость: до 200 000 символов бесплатно, от 1 000 рублей в год за дополнительный пакет символов.

Возможности:

расшифровка аудио;
транскрибация в реальном времени;
проставление правильных знаков препинания;
распознавание без шума;
синтез речи из текста с правильными ударениями;
нормализация текста;
гибкая разметка синтеза;
Telegram-бот для расшифровки, API.

Поддерживаемые форматы: голосовой ввод, M4A, MPGA, MPEG, MP4, WEBM, PCM, OPUS, MP3, FLAC, ALAW, MULAW.

Тест:

Начнем с бота, и начинается все с проблем. Аудиофайлы формата m4a сервис не принимает — точнее, пишет, что принял, но не может распознать. Загружаем обычное голосовое.

Результат на скриншоте. Вот вам и SaluteSpeech!. Боту ставим 1 из 5, потому что он даже не транскрибировал запись до конца.

При этом смотрите, как расшифровывает сообщение простой Telegram Premium:

Пожалуй, единственный минус Telegram Premium — это что нельзя расшифровать длинную запись. Ну и то, что он платный.

Будем пробовать настольное приложение, и для этого надо разобраться с API.

Чтобы использовать SaluteSpeech, нужно скачать установочный файл (есть как для Windows, так и для macOS) и установить приложение.

Так выглядит его интерфейс:

Мы можем использовать синтез речи, а для распознавания речи нужно получить токен.

Подробная информация о получении токена описана в инструкции. Нужно зайти на сайт SaluteSpeech и зарегистрироваться через Сбер ID (если есть карта Сбера, зарегистрироваться будет проще и быстрее):

После регистрации нужно выбрать среди всех сервисов SaluteSpeech, и он добавится в личный кабинет:

Нажмите на SaluteSpeech. Появятся его данные:

Данные для активации десктопного приложения

В поле с ключами для подключения сервиса нужно нажать «Сгенерировать новый»:

Скопируйте «Авторизационные данные» и вставьте их в десктопное приложение. Нажмите «Сгенерировать»:

В поле «Распознавание» появится возможность загрузить аудиофайл:

Результат:

Поставим 2 из 5 — какой-то текст есть, но тоже очень неполный, как и у бота.

Практически аналогичный SaluteSpeech российский сервис — Yandex SpeechKit. Расшифровать запись и синтезировать речь там можно только через API. Сервис поддерживает русский, казахский, узбекский, английский, немецкий и иврит. Стоит от 13,2 рублей в месяц за 10 000 символов. При создании платежного аккаунта на него автоматически начисляется 4 000 рублей.

Еще две нейросети, которые можно использовать только по API:

Rev AI — расшифровщик со множеством функций. Позиционируется как сервис для работы со многими языками, может делать асинхронную транскрипцию и транскрипцию стримингов.
Whisper — нейросеть для работы с аудио от OpenAI, создателя ChatGPT и DALL-E. Установить можно в GitHub.

Teamlogs

Российский инструмент от Teamlogs — сервиса по умному поиску и извлечению поручений, то есть, автоматизации рабочих процессов. На сайте утверждают, что точность расшифровки — до 95 % (спойлер: это правда).

Язык интерфейса: русский

Поддерживаемые языки: русский и английский

Стоимость: 15 минут — бесплатно. Дальше — от 6 рублей за минуту.

Возможности:

расшифровка аудио с расстановкой знаков препинания и разделением текста на спикеров;
тайм-коды;
возможность редактировать расшифровку;
настройки доступа, чтобы делиться записью;
выделение ключевых слов;
краткое содержание записей;
экспорт в docx, xlsx, srt (для субтитров в YouTube).

Поддерживаемые форматы: MP4, MKV, FLV, AVI, MOV, WMV, M4A, MP3, OGG, AAC, WAV, FLAC, WMA.

Тест:

Загружаем файл на главной, указываем язык и количество спикеров. Здесь можно настроить язык и количество спикеров. Также можно сделать так, чтобы сервис сам определил их количество — тогда надо выбрать «Авто».

Нам предлагают зарегистрироваться:

После регистрации нужно подтвердить нашу заявку:

Пару минут файл будет обрабатываться, пока что можно добавить новый файл на транскрибацию.

Готово. Результат прекрасен:

Мы можем тут же заменить имена спикеров (по умолчанию Спикер 0 и Спикер 1), а также послушать запись и вручную исправить мелочи.

Дальше текст можно доработать с помощью ИИ:

По-моему, здесь все отлично. Пока что это лучший и самый простой сервис. Так что 5 из 5, даже если есть мелкие ошибки («рисуют» вместо «рисую»).

«Писец»

Тоже российский сервис, который также можно оплатить из любой страны и любого банка.

Язык интерфейса: русский

Поддерживаемые языки: русский и английский

Стоимость: платить нужно за часы — 1 290 рублей стоят 5 часов. Бесплатный тариф позволяет расшифровать записи до 30 минут. При регистрации всем пользователям дарят пакет на 30 минут.

Возможности:

расшифровка файлов с делением на спикеров;
расстановкой тайм-кодов, знаков препинания.

Поддерживаемые форматы: WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и другие. Обещают подарить подарок, если удастся загрузить в сервис формат, который тот не сможет распознать.

Тест:

Загружаем файл прямо на главной, указав почту:

Результаты придут на почту:

Почему-то мое письмо уходит в спам — если вам тоже не пришло в общую папку, скорее всего, оно в «Спаме» или «Корзине».

Нажимаем «Не спам» и смотрим результат.

Вот что получилось:

Субъективная оценка — 3 из 5. Какой-то контент есть. Если посмотреть видео, по которому сделана расшифровка, все понятно, но если не смотреть — то нет. Еще и не совсем правильная разбивка на спикеров в начале текста.

Дальше можно зарегистрироваться в сервисе — там будет история заказов.

Похожий простой сервис, поддерживающий только загрузку файлов — RealSpeaker. В него можно загрузить файл до 180 минут. Он поддерживает более 30 языков. 1,5 минуты — бесплатно, остальное — от 16 рублей за минуту.

Сравниваем сервисы для расшифровки

Собрали сервисы в удобную таблицу, чтобы вам проще было выбрать. Отсортировали от лучшего к худшему.

Сервис / Параметр	Наша оценка	Язык интерфейса	Поддерживаемые языки	Стоимость	Возможности	Поддерживаемые форматы
Teamlogs	5/5	русский	русский и английский	15 минут — бесплатно, дальше — от 6 рублей за минуту	расшифровка аудио, расстановка знаков препинания, разделение текста на спикеров, тайм-коды, возможность редактировать расшифровку, настройки доступа, выделение ключевых слов, краткое содержание записей, экспорт в docx, xlsx, srt	MP4, MKV, FLV, AVI, MOV, WMV, M4A, MP3, OGG, AAC, WAV, FLAC, WMA
Riverside AI	5/5, но подойдет только для монологов	английский	более 100 языков	от 15 долларов в месяц; до 2-х часов транскрибации — бесплатно	расшифровка аудио, транскрибация в реальном времени, экспорт транскрибации в .txt, возможность записывать видео-интервью, возможность редактировать получившиеся тексты	голосовой ввод, MP3, MP4, MOV, WAV
«Писец»	3/5	русский	русский и английский	1 290 за 5 часов, бесплатно до 30 минут	расшифровка файлов с делением на спикеров, расстановка тайм-кодов и знаков препинания	WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и другие
Speechlogger	2/5	русский	12 распространенных языков	бесплатно	расшифровка аудио, транскрибация в реальном времени, генерация субтитров, расстановка знаков препинания, редактирование готового текста, возможность давать голосовые команды	только голосовой ввод
SaluteSpeech	Telegram-бот — 1/5; десктопное приложение — 1/5	русский	русский, английский и казахский	до 200 000 символов бесплатно, от 1 000 рублей в год за дополнительный пакет символов	расшифровка аудио, транскрибация в реальном времени, проставление знаков препинания, распознавание без шума, синтез речи из текста, нормализация текста, гибкая разметка синтеза, Telegram-бот для расшифровки	голосовой ввод, M4A, MPGA, MPEG, MP4, WEBM, PCM, OPUS, MP3, FLAC, ALAW, MULAW

Новое на сайте

30 апр 2024

25 543

Как продвигать медицинские сайты в 2024 году

Секреты от SEO-специалистов, врачей и вебмастеров.

Контент SEO

29 апр 2024

64 309

Онлайн-переводчики текста через камеру телефона — 5 бесплатных

Один, правда, оказался ленивым, второй долго думает, а третий…

Контент

28 апр 2024

5 795

Как посмотреть (и скрыть!) историю своих похождений в браузере

Показываем все способы на разных устройствах и ОС.

Гайды

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Ваше имя * Номер телефона * E-mail * Адрес сайта Опишите суть вашего запроса

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Я согласен получать еженедельную рассылку TexTerra

Спасибо!

Ваша заявка принята. Мы свяжемся с вами в ближайшее время.