Сбер открыл полный доступ к своей платформе синтеза и распознавания речи SaluteSpeech. Теперь ею могут воспользоваться все желающие, а не только купившие доступ юрлица, как было раньше. В том числе, в коммерческих целях.
На платформе начал действовать тариф Freemium (чтобы активировать его, надо лишь зарегистрироваться через электронную почту, Google-аккаунт, Сбер ID или СберБизнес ID на выбор). Тариф бесплатный и позволяет распознавать аудио длительностью до 100 минут, а также расшифровывать до 200 тысяч символов в месяц. Пакет восполняется каждые 30 дней. Если же отведенных бесплатных минут и символов недостаточно, пользователь может их докупить. Стоимость 1000 минут распознавания речи в этом случае составит 1200 рублей, а генерация речи на 1 000 000 символов — 1000 рублей.
Сервис Сбера – отличная игрушка! Можно записать липовые голосовые сообщения и потом устраивать пранки с близкими и друзьями, можно услышать от «мужчины» или «женщины» то, что всегда мечтал услышать… Но давайте разберем, чем полезен новый сервис, как его можно использовать для дела и проверим особенности его работы.
Представьте себе ситуацию: вам нужно сделать доклад, но у вас убаюкивающий, тихий или невыразительный голос. Тогда вы можете озвучить доклад или презентацию с помощью SaluteSpeech.
И наоборот – вам надо получить распечатанную версию устного доклада или законспектировать совещание. При этом вы либо медленно печатаете, и на это потребуется много времени, либо у вас просто нет времени. Включаем аудиозапись сервису, и он быстро наберет текст.
Авторы произведений могут создавать аудиокниги, блогеры — озвучивать контент или, наоборот, превращать аудиозаписи в текст. Например, быстро расшифровать интервью. Средний и малый бизнес может использовать новый тариф для создания мобильных и веб-приложений, делать предзаписи для телефонии, озвучивать презентационные материалы, транскрибировать аудиозаписи встреч и многое другое.
Сбер выложил SaluteSpeech в открытый доступ не просто так, а для рекламы сервиса и получения новых клиентов, которые его испытают, проникнутся и купят. Отличный ход для продвижения в интернете!
Синтезатор речи SaluteSpeech
Выбор голосов достаточно велик: есть Александра, Наталья, Марфа, Сергей, Борис, Тарас и Kira, но она не понимает русский язык и не говорит на нем – только на английском.
Для корректной интонации нужно правильно расставлять знаки препинания в предложениях. Сервис четко реагирует на «!», «?», «…», меняя интонацию говорящего персонажа, которого выбрал пользователь. Также голос выделяет паузами и интонацией запятые и «:» с «–».
Сервис даже может произнести «калохомидирнада»! Нет, мы не знаем, что это такое – абракадабра. Но нейросеть не только «говорит» это без запинки, но и ставит ударение в самом правильном с точки зрения фонетики месте – на предпоследнем слоге. И делает менее выраженное ударение на первом слоге (по принципу произношения слова «тЕлекоммуникАций»).
Также пользователю не стоит путать «ь» и «ъ», а еще стоит вспомнить правила написания «тся» и «ться» в глаголах. Дело в том, что после трансформации букв в текст сделанные ошибки слышатся вполне отчетливо – они похожи на акцент.
Прокололась программа только на букве «ё»!
Фразу «Все тлен!» нейросеть произнесла как «Всё тлен!». Хм! Умная и знакома с фразеологизмами! Но после замены слова «тлен» на «закончили» программа выдала «Всё, закончили!». Почему не «Все закончили» (имеется в виду, например, все работники закончили трудиться)? Принудительно заставить программу произнести «ё» можно, но сделать так, чтобы вместо возможного «ё» голос произнес «е» – нет.
Резюме по функции синтеза речи очень хорошее: работает она практически безупречно. Минус только один, и тот касается только пишущего тексты человека – теперь некоторые из нас могут не только увидеть свои ошибки, но и услышать их.
Распознавание речи SaluteSpeech
Здесь все уже не так радужно. Да и задача гораздо сложнее – понять, что говорит человек со всеми особенностями его дикции и интонации, и перевести в печатный текст.
Вот как программа написала прочитанное с выражением стихотворение Владимира Орлова «Я узнал, что у меня есть огромная семья»:
«Я узнал, что у меня есть огромная семья, и тропинка, и лесок в поле, каждый колосок, речка, небо голубое это все моё родное, это родина моя. Всех люблю на свете я».
Лесок оказался в поле, перед «это» нет тире, Родина с маленькой буквы и нет «!» в конце, хотя в интонации их было даже три. В таком тексте после легкой редактуры все будет в порядке. Но оплошность «лесок в поле», если бы речь шла о техническом тексте, может перевернуть все с ног на голову.
А вот что выдала программа человеку с невнятной дикцией, как у двоечника, вызванного к доске:
«Я не узнал, что у меня здесь огромная зимия, и травинка, и лесок в поле, каждый колосок лишнего голубое это уже моё родное, это жена моя, всех рубленая, связи я».
Смешно, да. Но главное – лесок так и торчит в поле.
Зато нейросеть прекрасно распознает и удаляет шепелявость – программа выдала первый вариант текста (но лесок и здесь остался торчать в поле). Картавость для нее тоже не проблема, как и многочисленные «эээмммм», «уууу» и прочие излишества в речи говорящего.
В общем переживать по поводу дефектов речи, пользуясь SaluteSpeech, не нужно, а вот артикулировать надо тщательнее – выговаривать слова, а не мямлить, обрубая и проглатывая окончания. Представьте, что вы преподаватель или актер – как и им, вам теперь очень важно, чтобы вас понимали.
Читайте также:
Нейросеть Lensa: как создавать в ней изображения