Главная Блог Texterra Как работает синтезатор речи от Сбера – тест возможностей

Как работает синтезатор речи от Сбера – тест возможностей

Сервис SaluteSpeech способен озвучивать введенный текст и распознавать речь пользователя. Но для хорошего результата надо быть грамотным.

Нейросети

Александр Хлынов Редактор TexTerra

Дата публикации: 30 ноя 2022

Дата обновления: 8 июн 2023

5 минут

10 590

Сбер открыл полный доступ к своей платформе синтеза и распознавания речи SaluteSpeech. Теперь ею могут воспользоваться все желающие, а не только купившие доступ юрлица, как было раньше. В том числе, в коммерческих целях.

На платформе начал действовать тариф Freemium (чтобы активировать его, надо лишь зарегистрироваться через электронную почту, Google-аккаунт, Сбер ID или СберБизнес ID на выбор). Тариф бесплатный и позволяет распознавать аудио длительностью до 100 минут, а также расшифровывать до 200 тысяч символов в месяц. Пакет восполняется каждые 30 дней. Если же отведенных бесплатных минут и символов недостаточно, пользователь может их докупить. Стоимость 1000 минут распознавания речи в этом случае составит 1200 рублей, а генерация речи на 1 000 000 символов — 1000 рублей.

Сервис Сбера – отличная игрушка! Можно записать липовые голосовые сообщения и потом устраивать пранки с близкими и друзьями, можно услышать от «мужчины» или «женщины» то, что всегда мечтал услышать… Но давайте разберем, чем полезен новый сервис, как его можно использовать для дела и проверим особенности его работы.

Представьте себе ситуацию: вам нужно сделать доклад, но у вас убаюкивающий, тихий или невыразительный голос. Тогда вы можете озвучить доклад или презентацию с помощью SaluteSpeech.

И наоборот – вам надо получить распечатанную версию устного доклада или законспектировать совещание. При этом вы либо медленно печатаете, и на это потребуется много времени, либо у вас просто нет времени. Включаем аудиозапись сервису, и он быстро наберет текст.

Авторы произведений могут создавать аудиокниги, блогеры — озвучивать контент или, наоборот, превращать аудиозаписи в текст. Например, быстро расшифровать интервью. Средний и малый бизнес может использовать новый тариф для создания мобильных и веб-приложений, делать предзаписи для телефонии, озвучивать презентационные материалы, транскрибировать аудиозаписи встреч и многое другое.

Сбер выложил SaluteSpeech в открытый доступ не просто так, а для рекламы сервиса и получения новых клиентов, которые его испытают, проникнутся и купят. Отличный ход для продвижения в интернете!

Синтезатор речи SaluteSpeech

Выбор голосов достаточно велик: есть Александра, Наталья, Марфа, Сергей, Борис, Тарас и Kira, но она не понимает русский язык и не говорит на нем – только на английском.

Для корректной интонации нужно правильно расставлять знаки препинания в предложениях. Сервис четко реагирует на «!», «?», «…», меняя интонацию говорящего персонажа, которого выбрал пользователь. Также голос выделяет паузами и интонацией запятые и «:» с «–».

Сервис даже может произнести «калохомидирнада»! Нет, мы не знаем, что это такое – абракадабра. Но нейросеть не только «говорит» это без запинки, но и ставит ударение в самом правильном с точки зрения фонетики месте – на предпоследнем слоге. И делает менее выраженное ударение на первом слоге (по принципу произношения слова «тЕлекоммуникАций»).

Также пользователю не стоит путать «ь» и «ъ», а еще стоит вспомнить правила написания «тся» и «ться» в глаголах. Дело в том, что после трансформации букв в текст сделанные ошибки слышатся вполне отчетливо – они похожи на акцент.

Прокололась программа только на букве «ё»!

Фразу «Все тлен!» нейросеть произнесла как «Всё тлен!». Хм! Умная и знакома с фразеологизмами! Но после замены слова «тлен» на «закончили» программа выдала «Всё, закончили!». Почему не «Все закончили» (имеется в виду, например, все работники закончили трудиться)? Принудительно заставить программу произнести «ё» можно, но сделать так, чтобы вместо возможного «ё» голос произнес «е» – нет.

Резюме по функции синтеза речи очень хорошее: работает она практически безупречно. Минус только один, и тот касается только пишущего тексты человека – теперь некоторые из нас могут не только увидеть свои ошибки, но и услышать их.

Распознавание речи SaluteSpeech

Здесь все уже не так радужно. Да и задача гораздо сложнее – понять, что говорит человек со всеми особенностями его дикции и интонации, и перевести в печатный текст.

Вот как программа написала прочитанное с выражением стихотворение Владимира Орлова «Я узнал, что у меня есть огромная семья»:

«Я узнал, что у меня есть огромная семья, и тропинка, и лесок в поле, каждый колосок, речка, небо голубое это все моё родное, это родина моя. Всех люблю на свете я».

Лесок оказался в поле, перед «это» нет тире, Родина с маленькой буквы и нет «!» в конце, хотя в интонации их было даже три. В таком тексте после легкой редактуры все будет в порядке. Но оплошность «лесок в поле», если бы речь шла о техническом тексте, может перевернуть все с ног на голову.

А вот что выдала программа человеку с невнятной дикцией, как у двоечника, вызванного к доске:

«Я не узнал, что у меня здесь огромная зимия, и травинка, и лесок в поле, каждый колосок лишнего голубое это уже моё родное, это жена моя, всех рубленая, связи я».

Смешно, да. Но главное – лесок так и торчит в поле.

Зато нейросеть прекрасно распознает и удаляет шепелявость – программа выдала первый вариант текста (но лесок и здесь остался торчать в поле). Картавость для нее тоже не проблема, как и многочисленные «эээмммм», «уууу» и прочие излишества в речи говорящего.

В общем переживать по поводу дефектов речи, пользуясь SaluteSpeech, не нужно, а вот артикулировать надо тщательнее – выговаривать слова, а не мямлить, обрубая и проглатывая окончания. Представьте, что вы преподаватель или актер – как и им, вам теперь очень важно, чтобы вас понимали.

Новое на сайте

15 июл 2026

238

Как открыть сайт для AI и что для этого сделать маркетингу, SEO и разработке

Проблема с AI-видимостью может лежать в индексации, в настройках сервера или даже в бизнес-логике бренда. Разбираемся, что должен проверить каждый специалист и как собрать результаты в единую картину.

GEO / AEO

14 июл 2026

378

Как понять, нужно ли компании GEO-продвижение сейчас [запись вебинара + расшифровка]

GEO — одна из главных повесток продвижения сегодняшнего дня. Но это не значит, что всем компаниям нужно срочно направлять ресурсы в рост AI-видимости. На вебинаре разобрали, для каких индустрий это критичнее всего, как выбрать между аудитом и пилотным проектом — и даже как понять, что работы по GEO пока можно отложить.

GEO / AEO

10 июл 2026

715

Какой URL продвигать в AI-ответах: выбираем основную страницу

В AI-поиске нет жесткой связки «один запрос — одна страница»: нейросеть может собрать ответ из нескольких источников. Однако для каждого важного сценария стоит определить основной URL — показываем, как его выбрать и усилить.

GEO / AEO

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Ваше имя * Номер телефона * E-mail * Адрес сайта Опишите суть вашего запроса

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Я хочу получать дайджест лучших публикаций TexTerra