株式会社ネットワールドのエンジニアがお届けする技術情報ブログです。
各製品のエキスパートたちが旬なトピックをご紹介します。

Watsonで遊んでみる/Speech to Text(音声認識)

こんにちは、Watson技術担当の山下です。

前回は Watson APIで、テキストを音声に変換して遊んでみました。

今回はその逆パターン(音声→テキスト)で音声認識についての話になります。

Watsonの Speech to Text(音声認識)を使えば、ディープラーニングで 音声をテキスト変換できるので、以下のデモサイトで 早速試してみたいと思います。

Speech to Text Demo



■ サンプル出力をみてみる


まずは、デモサンプルで音声認識のイメージをつかんでみましょう。

PCのスピーカー音量を少し大きくしてから、View Modelで、[Japanese broadband model]を選択して、[Play Sample1]ボタンを押してみます。



すると、デモ音声が流れてきて、その音声がしっかりとテキスト化されてますね!

また、デモサンプルは2人の対話イメージになっていて、話者識別(Speaker0 or Speaker01)も、きちんとできているのが分かります。

#ちなみに、[Play Sample2]は観光地トークです。こちらもいい感じに音声認識されてますね



さらに、音声認識で キーワード検出も可能です。

[Keywords]タブをクリックすると、さきほどのデモ音声で、「音声認識」「ディープラーニング」「技術」の3つのキーワードが音声認識されたことを示してます。

#このキーワードは自由に指定可能で、上図の[Keywords to spot]のとこに、キーワードを書いとけば、音声認識されたかどうかを確認することができます。



■ 実際に音声認識をやってみる


では、今度は実際にやってみましょう!

声を出す準備はできていますか!? (※オフィスで急に発声すると、周囲がびっくりするかもしれません・・)

今回、一人で発話するので、[Detect multiple speakers]は必要ないので、チェックを外しておきましょう。

View Modelで[Japanese broadband model]の選択と、[Text]ダブの選択を確認してから、[Record Audio]ボタンを押したら、発話してください!

#ここまでなにをしゃべるか考えてなかった方は、「ワトソンは音声認識できますか?」と発話くださいませ



発話完了したら、またすぐ[Record Audio]ボタンを押してください(ずっと音声認識中だと、周囲の雑音が音声認識され続けてしまうので)

今回 以下のように、いい感じに音声認識できました。



[Word Timings and Alternatives]タブをクリックすると、Watsonの音声認識結果をベースに、各単語の確信度や単語候補の確認を行うことができます。

上手く音声認識できなかった場合、カスタマイズに使えそうな情報になるかもしれません。





■ 次回〜Watson音声認識のカスタマイズ


今度は、「VTuberは流行っていますか?」と発話してみたところ、以下のような結果となりました。

※VTuber(ブイチューバー)については、本記事をご参照ください



VTuber(ブイチューバー)としゃべったのですが、、なぜか・・「ういちユーザー」と認識されてしまいました、、あれれ、うーん、どうしてでしょう・・


[Word Timings and Alternatives]タブをクリックしてみてみると、、以下のようになってました。

#「ブイチューバー」は、「ういち」と「ユーザー」に音声認識されてますね



Watson音声認識の事前学習/共通モデルでは、一般的な用語がカバー範囲になりますので、「VTuber」は まだ辞書登録されてなさそうです。。

しかし、Watson音声認識では、この事前学習モデルを、ユーザーが自由にカスタマイズできることによって、固有名詞や業界/専門用語・独自のいい回しなどに対応することが可能になります。

Watson音声認識をカスタマイズすれば、「VTuber」と ちゃんと音声認識してもらえそうですね

次回は、この辺りのカスタマイズを行っていきたいと思います!