株式会社ネットワールドのエンジニアがお届けする技術情報ブログです。
各製品のエキスパートたちが旬なトピックをご紹介します。

Watsonで遊んでみる/Text to Speech(音声合成)

■ はじめに


こんにちは、Watson技術担当の山下です。


今回は、Watson APIの Text to Speech(音声合成)を攻めてみたいと思います。テキストを簡単に音声に変換できて、SSMLで声のトーンとかをお好みにできそうです。


・Watson APIの Text to Speechの詳細は以下ご参照ください。

IBM Watson Text to Speech


IBM Cloudのライトアカウントを取得すれば、無料でWatson AIを使うことできます。

IBM Cloud ライト・アカウント | IBM Cloud


IBM Cloudの無料での始め方は、こちら@ayatokuraさんの記事がわかりやすいです。

「IBM Cloudをはじめました」無料ではじめられるライト・アカウント登録方法



■ 今回のイメージ


ブログ連載は、「Watsonで VTuberを作ろう!」がテーマになりますので、 VTuberの発話にあたる音声合成部分を、「Text to Speech」で実装していきたいと思います。



Watson APIのText to Speech(音声合成)を使って、VTuberの音声発話が人間ぽっくいい感じになりそうな予感です。

早速、VTuberのおしゃべりをイメージして、遊んでみたいと思います。



■ 遊んでみる!


では、以下デモサイトにアクセスして、VTuber(?)をしゃべらせてみましょう!

Text to Speech | 音声合成のデモサイト


スクリーンショット 2019-07-01 15.11.34.png

Text to Speech | 音声合成のデモサイト

上記デモサイトで、スピーチ内容を入力して(以下セリフサンプル)、

音声変換ボタンを押せば、とりあえずしゃべりだします!

セリフサンプル
むかしむかし、あるところに、お爺さんとお婆さんとVTuberがいました



■ これから


もしかすると、ちょっと発音がいまひとつなとこあるかもしれません。

そんなときは、SSML(音声合成マークアップ言語)の出番です。


以下のようにSSMLで入力してみて、音声合成の結果を比べてみてください




Text to Speech | 音声合成のデモサイト

デモサイトで、スピーチ内容をSSML(音声合成マークアップ言語)で入力して(以下セリフサンプル)、音声変換ボタンを押します

セリフサンプル
<speak><say-as interpret-as="interjection">むかしむかし</say-as>、<prosody rate="x-fast">あるところに</prosody>お爺さんとお婆さんと<break time="1s"/><sub alias="ブイチューバァ">VTuber</sub>がいました。</speak>


音声合成は、SSMLを使ったほうが、きっといい感じになってると思います!

ぜひSSML(詳細は以下リンクの書式参照)をいろいろ試していて、お好みのスピーチにしてみましょう

音声変換 SSML


では 次回配信は来週を予定しております。

次回は、「Text to Speech(音声合成)」とは逆の流れ、「Speech to Text(音声認識)」について、VTuberを使って試してみたいと思います。

ぜひまたご覧いただけると嬉しいです!