■ はじめに
こんにちは、Watson技術担当の山下です。
今回は、Watson APIの Text to Speech(音声合成)を攻めてみたいと思います。テキストを簡単に音声に変換できて、SSMLで声のトーンとかをお好みにできそうです。
・Watson APIの Text to Speechの詳細は以下ご参照ください。
IBM Watson Text to Speech・IBM Cloudのライトアカウントを取得すれば、無料でWatson AIを使うことできます。
IBM Cloud ライト・アカウント | IBM Cloud
・IBM Cloudの無料での始め方は、こちら@ayatokuraさんの記事がわかりやすいです。
「IBM Cloudをはじめました」無料ではじめられるライト・アカウント登録方法
■ 今回のイメージ
本ブログ連載は、「Watsonで VTuberを作ろう!」がテーマになりますので、 VTuberの発話にあたる音声合成部分を、「Text to Speech」で実装していきたいと思います。
Watson APIのText to Speech(音声合成)を使って、VTuberの音声発話が人間ぽっくいい感じになりそうな予感です。
早速、VTuberのおしゃべりをイメージして、遊んでみたいと思います。
■ 遊んでみる!
では、以下デモサイトにアクセスして、VTuber(?)をしゃべらせてみましょう!
上記デモサイトで、スピーチ内容を入力して(以下セリフサンプル)、
音声変換ボタンを押せば、とりあえずしゃべりだします!
セリフサンプル
むかしむかし、あるところに、お爺さんとお婆さんとVTuberがいました
■ これから
もしかすると、ちょっと発音がいまひとつなとこあるかもしれません。
そんなときは、SSML(音声合成マークアップ言語)の出番です。以下のようにSSMLで入力してみて、音声合成の結果を比べてみてください
デモサイトで、スピーチ内容をSSML(音声合成マークアップ言語)で入力して(以下セリフサンプル)、音声変換ボタンを押します
セリフサンプル
<speak><say-as interpret-as="interjection">むかしむかし</say-as>、<prosody rate="x-fast">あるところに</prosody>お爺さんとお婆さんと<break time="1s"/><sub alias="ブイチューバァ">VTuber</sub>がいました。</speak>
音声合成は、SSMLを使ったほうが、きっといい感じになってると思います!
ぜひSSML(詳細は以下リンクの書式参照)をいろいろ試していて、お好みのスピーチにしてみましょう
では 次回配信は来週を予定しております。
次回は、「Text to Speech(音声合成)」とは逆の流れ、「Speech to Text(音声認識)」について、VTuberを使って試してみたいと思います。
ぜひまたご覧いただけると嬉しいです!