У вас бизнес в сфере B2B? Приведем вам клиентов!

У вас бизнес в сфере B2B? Приведем вам клиентов!

Подробнее
mail@texterra.ru
Заказать звонок
Заказать услугу
Позвонить: 8 (800) 775-16-41
Связаться со мной

Как работает синтезатор речи от Сбера – тест возможностей

Сервис SaluteSpeech способен озвучивать введенный текст и распознавать речь пользователя. Но для хорошего результата надо быть грамотным.

Как работает синтезатор речи от Сбера – тест возможностей
Дата публикации: 30 ноября 2022
Александр Хлынов
Редактор TexTerra
1 229
Время чтения: 5 минут
Как работает синтезатор речи от Сбера – тест возможностей Редакция «Текстерры»
Редакция «Текстерры»

Платформа синтеза и распознавания речи SaluteSpeech появилась в открытом доступе, и им теперь могут воспользоваться все желающие, а не только купившие доступ юрлица, как было раньше. Но, как подчеркивает Сбер, все это исключительно в некоммерческих целях. Поэтому если вы захотите записать с помощью SaluteSpeech корпоративный автоответчик, это будет незаконно.

Сервис Сбера – отличная игрушка! Можно записать липовые голосовые сообщения и потом устраивать пранки с близкими и друзьями, можно услышать от «мужчины» или «женщины» то, что всегда мечтал услышать… Но давайте разберем, чем полезен новый сервис, как его можно использовать для дела и проверим особенности его работы.

Представьте себе ситуацию: вам нужно сделать доклад, но у вас убаюкивающий, тихий или невыразительный голос. Тогда вы можете озвучить доклад или презентацию с помощью SaluteSpeech.

И наоборот – вам надо получить распечатанную версию устного доклада или законспектировать совещание. При этом вы либо медленно печатаете, и на это потребуется много времени, либо у вас просто нет времени. Включаем аудиозапись сервису, и он быстро наберет текст.

Но есть ограничения – Сбер выложил SaluteSpeech в открытый доступ не просто так, а для рекламы сервиса и получения новых клиентов, которые его испытают, проникнутся и купят. Отличный ход для продвижения в интернете!

На пробу же дается 100 минут в месяц для распознавания речи (не более 20 секунд за раз) и 200 тысяч символов в месяц для синтезирования речи (не более 200 символов за раз). Но этого вполне достаточно, чтобы провести тесты.

Синтезатор речи SaluteSpeech

Выбор голосов достаточно велик: есть Александра, Наталья, Марфа, Сергей, Борис, Тарас и Kira, но она не понимает русский язык и не говорит на нем – только на английском.

Для корректной интонации нужно правильно расставлять знаки препинания в предложениях. Сервис четко реагирует на «!», «?», «…», меняя интонацию говорящего персонажа, которого выбрал пользователь. Также голос выделяет паузами и интонацией запятые и «:» с «–».

Сервис даже может произнести «калохомидирнада»! Нет, мы не знаем, что это такое – абракадабра. Но нейросеть не только «говорит» это без запинки, но и ставит ударение в самом правильном с точки зрения фонетики месте – на предпоследнем слоге. И делает менее выраженное ударение на первом слоге (по принципу произношения слова «тЕлекоммуникАций»).

Также пользователю не стоит путать «ь» и «ъ», а еще стоит вспомнить правила написания «тся» и «ться» в глаголах. Дело в том, что после трансформации букв в текст сделанные ошибки слышатся вполне отчетливо – они похожи на акцент.

Прокололась программа только на букве «ё»!

Фразу «Все тлен!» нейросеть произнесла как «Всё тлен!». Хм! Умная и знакома с фразеологизмами! Но после замены слова «тлен» на «закончили» программа выдала «Всё, закончили!». Почему не «Все закончили» (имеется в виду, например, все работники закончили трудиться)? Принудительно заставить программу произнести «ё» можно, но сделать так, чтобы вместо возможного «ё» голос произнес «е» – нет.

Резюме по функции синтеза речи очень хорошее: работает она практически безупречно. Минус только один, и тот касается только пишущего тексты человека – теперь некоторые из нас могут не только увидеть свои ошибки, но и услышать их.

Распознавание речи SaluteSpeech

Здесь все уже не так радужно. Да и задача гораздо сложнее – понять, что говорит человек со всеми особенностями его дикции и интонации, и перевести в печатный текст.

Вот как программа написала прочитанное с выражением стихотворение Владимира Орлова «Я узнал, что у меня есть огромная семья»:

«Я узнал, что у меня есть огромная семья, и тропинка, и лесок в поле, каждый колосок, речка, небо голубое это все моё родное, это родина моя. Всех люблю на свете я».

Лесок оказался в поле, перед «это» нет тире, Родина с маленькой буквы и нет «!» в конце, хотя в интонации их было даже три. В таком тексте после легкой редактуры все будет в порядке. Но оплошность «лесок в поле», если бы речь шла о техническом тексте, может перевернуть все с ног на голову.

А вот что выдала программа человеку с невнятной дикцией, как у двоечника, вызванного к доске:

«Я не узнал, что у меня здесь огромная зимия, и травинка, и лесок в поле, каждый колосок лишнего голубое это уже моё родное, это жена моя, всех рубленая, связи я».

Смешно, да. Но главное – лесок так и торчит в поле.

Зато нейросеть прекрасно распознает и удаляет шепелявость – программа выдала первый вариант текста (но лесок и здесь остался торчать в поле). Картавость для нее тоже не проблема, как и многочисленные «эээмммм», «уууу» и прочие излишества в речи говорящего.

В общем переживать по поводу дефектов речи, пользуясь SaluteSpeech, не нужно, а вот артикулировать надо тщательнее – выговаривать слова, а не мямлить, обрубая и проглатывая окончания. Представьте, что вы преподаватель или актер – как и им, вам теперь очень важно, чтобы вас понимали.

Читайте также:

Нейросеть Lensa: как создавать в ней изображения

Сервис «Дипфейк» от ВК – мы протестировали и что-то сломали

Китайская нейросеть захватывает мир: она обойдет DALL-E?

Оглавление

© «TexTerra», при полном или частичном копировании материала ссылка на первоисточник обязательна.
Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter.

Закажите бесплатную консультацию

Оставьте свои контакты,
мы свяжемся с вами в ближайшее время.

Ошибка заполнения!