ネットワールドらぼ

株式会社ネットワールドのエンジニアがお届けする技術情報ブログです。
各製品のエキスパートたちが旬なトピックをご紹介します。

Watsonで遊んでみる/Text to Speech（音声合成）

IBM AI

■ はじめに

こんにちは、Watson技術担当の山下です。

今回は、Watson APIの Text to Speech（音声合成）を攻めてみたいと思います。テキストを簡単に音声に変換できて、SSMLで声のトーンとかをお好みにできそうです。

・Watson APIの Text to Speechの詳細は以下ご参照ください。

IBM Watson Text to Speech

・IBM Cloudのライトアカウントを取得すれば、無料でWatson AIを使うことできます。

IBM Cloud ライト・アカウント | IBM Cloud

・IBM Cloudの無料での始め方は、こちら@ayatokuraさんの記事がわかりやすいです。

「IBM Cloudをはじめました」無料ではじめられるライト・アカウント登録方法

■ 今回のイメージ

本ブログ連載は、「Watsonで VTuberを作ろう！」がテーマになりますので、 VTuberの発話にあたる音声合成部分を、「Text to Speech」で実装していきたいと思います。

Watson APIのText to Speech（音声合成）を使って、VTuberの音声発話が人間ぽっくいい感じになりそうな予感です。

早速、VTuberのおしゃべりをイメージして、遊んでみたいと思います。

■ 遊んでみる！

では、以下デモサイトにアクセスして、VTuber(?)をしゃべらせてみましょう！

Text to Speech | 音声合成のデモサイト

スクリーンショット 2019-07-01 15.11.34.png

Text to Speech | 音声合成のデモサイト

上記デモサイトで、スピーチ内容を入力して（以下セリフサンプル）、

音声変換ボタンを押せば、とりあえずしゃべりだします！

セリフサンプル
むかしむかし、あるところに、お爺さんとお婆さんとVTuberがいました

■ これから

もしかすると、ちょっと発音がいまひとつなとこあるかもしれません。

そんなときは、SSML（音声合成マークアップ言語）の出番です。

以下のようにSSMLで入力してみて、音声合成の結果を比べてみてください

Text to Speech | 音声合成のデモサイト

デモサイトで、スピーチ内容をSSML（音声合成マークアップ言語）で入力して（以下セリフサンプル）、音声変換ボタンを押します

セリフサンプル
<speak><say-as interpret-as="interjection">むかしむかし</say-as>、<prosody rate="x-fast">あるところに</prosody>お爺さんとお婆さんと<break time="1s"/><sub alias="ブイチューバァ">VTuber</sub>がいました。</speak>

音声合成は、SSMLを使ったほうが、きっといい感じになってると思います！

ぜひSSML（詳細は以下リンクの書式参照）をいろいろ試していて、お好みのスピーチにしてみましょう

音声変換 SSML

では次回配信は来週を予定しております。

次回は、「Text to Speech（音声合成）」とは逆の流れ、「Speech to Text（音声認識）」について、VTuberを使って試してみたいと思います。

ぜひまたご覧いただけると嬉しいです！