Как работает синтезатор речи от Сбера – тест возможностей

08 Июнь 2023

Александр Хлынов

Редактор TexTerra

Время чтения: 11 минут

Сервис SaluteSpeech способен озвучивать введенный текст и распознавать речь пользователя. Но для хорошего результата надо быть грамотным.

Сбер открыл полный доступ к своей платформе синтеза и распознавания речи SaluteSpeech. Теперь ею могут воспользоваться все желающие, а не только купившие доступ юрлица, как было раньше. В том числе, в коммерческих целях.

На платформе начал действовать тариф Freemium (чтобы активировать его, надо лишь зарегистрироваться через электронную почту, Google-аккаунт, Сбер ID или СберБизнес ID на выбор). Тариф бесплатный и позволяет распознавать аудио длительностью до 100 минут, а также расшифровывать до 200 тысяч символов в месяц. Пакет восполняется каждые 30 дней. Если же отведенных бесплатных минут и символов недостаточно, пользователь может их докупить. Стоимость 1000 минут распознавания речи в этом случае составит 1200 рублей, а генерация речи на 1 000 000 символов — 1000 рублей.

Сервис Сбера – отличная игрушка! Можно записать липовые голосовые сообщения и потом устраивать пранки с близкими и друзьями, можно услышать от «мужчины» или «женщины» то, что всегда мечтал услышать… Но давайте разберем, чем полезен новый сервис, как его можно использовать для дела и проверим особенности его работы.

Представьте себе ситуацию: вам нужно сделать доклад, но у вас убаюкивающий, тихий или невыразительный голос. Тогда вы можете озвучить доклад или презентацию с помощью SaluteSpeech.

И наоборот – вам надо получить распечатанную версию устного доклада или законспектировать совещание. При этом вы либо медленно печатаете, и на это потребуется много времени, либо у вас просто нет времени. Включаем аудиозапись сервису, и он быстро наберет текст.

Авторы произведений могут создавать аудиокниги, блогеры — озвучивать контент или, наоборот, превращать аудиозаписи в текст. Например, быстро расшифровать интервью. Средний и малый бизнес может использовать новый тариф для создания мобильных и веб-приложений, делать предзаписи для телефонии, озвучивать презентационные материалы, транскрибировать аудиозаписи встреч и многое другое.

Сбер выложил SaluteSpeech в открытый доступ не просто так, а для рекламы сервиса и получения новых клиентов, которые его испытают, проникнутся и купят. Отличный ход для продвижения в интернете!

Синтезатор речи SaluteSpeech

Выбор голосов достаточно велик: есть Александра, Наталья, Марфа, Сергей, Борис, Тарас и Kira, но она не понимает русский язык и не говорит на нем – только на английском.

Для корректной интонации нужно правильно расставлять знаки препинания в предложениях. Сервис четко реагирует на «!», «?», «…», меняя интонацию говорящего персонажа, которого выбрал пользователь. Также голос выделяет паузами и интонацией запятые и «:» с «–».

Сервис даже может произнести «калохомидирнада»! Нет, мы не знаем, что это такое – абракадабра. Но нейросеть не только «говорит» это без запинки, но и ставит ударение в самом правильном с точки зрения фонетики месте – на предпоследнем слоге. И делает менее выраженное ударение на первом слоге (по принципу произношения слова «тЕлекоммуникАций»).

Также пользователю не стоит путать «ь» и «ъ», а еще стоит вспомнить правила написания «тся» и «ться» в глаголах. Дело в том, что после трансформации букв в текст сделанные ошибки слышатся вполне отчетливо – они похожи на акцент.

Прокололась программа только на букве «ё»!

Фразу «Все тлен!» нейросеть произнесла как «Всё тлен!». Хм! Умная и знакома с фразеологизмами! Но после замены слова «тлен» на «закончили» программа выдала «Всё, закончили!». Почему не «Все закончили» (имеется в виду, например, все работники закончили трудиться)? Принудительно заставить программу произнести «ё» можно, но сделать так, чтобы вместо возможного «ё» голос произнес «е» – нет.

Резюме по функции синтеза речи очень хорошее: работает она практически безупречно. Минус только один, и тот касается только пишущего тексты человека – теперь некоторые из нас могут не только увидеть свои ошибки, но и услышать их.

Распознавание речи SaluteSpeech

Здесь все уже не так радужно. Да и задача гораздо сложнее – понять, что говорит человек со всеми особенностями его дикции и интонации, и перевести в печатный текст.

Вот как программа написала прочитанное с выражением стихотворение Владимира Орлова «Я узнал, что у меня есть огромная семья»:

«Я узнал, что у меня есть огромная семья, и тропинка, и лесок в поле, каждый колосок, речка, небо голубое это все моё родное, это родина моя. Всех люблю на свете я».

Лесок оказался в поле, перед «это» нет тире, Родина с маленькой буквы и нет «!» в конце, хотя в интонации их было даже три. В таком тексте после легкой редактуры все будет в порядке. Но оплошность «лесок в поле», если бы речь шла о техническом тексте, может перевернуть все с ног на голову.

А вот что выдала программа человеку с невнятной дикцией, как у двоечника, вызванного к доске:

«Я не узнал, что у меня здесь огромная зимия, и травинка, и лесок в поле, каждый колосок лишнего голубое это уже моё родное, это жена моя, всех рубленая, связи я».

Смешно, да. Но главное – лесок так и торчит в поле.

Зато нейросеть прекрасно распознает и удаляет шепелявость – программа выдала первый вариант текста (но лесок и здесь остался торчать в поле). Картавость для нее тоже не проблема, как и многочисленные «эээмммм», «уууу» и прочие излишества в речи говорящего.

В общем переживать по поводу дефектов речи, пользуясь SaluteSpeech, не нужно, а вот артикулировать надо тщательнее – выговаривать слова, а не мямлить, обрубая и проглатывая окончания. Представьте, что вы преподаватель или актер – как и им, вам теперь очень важно, чтобы вас понимали.