こんにちは、Watson技術担当の山下です。
前回は Watson APIで、テキストを音声に変換して遊んでみました。
今回はその逆パターン(音声→テキスト)で音声認識についての話になります。
Watsonの Speech to Text(音声認識)を使えば、ディープラーニングで 音声をテキスト変換できるので、以下のデモサイトで 早速試してみたいと思います。
■ サンプル出力をみてみる
まずは、デモサンプルで音声認識のイメージをつかんでみましょう。
PCのスピーカー音量を少し大きくしてから、View Modelで、[Japanese broadband model]を選択して、[Play Sample1]ボタンを押してみます。
すると、デモ音声が流れてきて、その音声がしっかりとテキスト化されてますね!
また、デモサンプルは2人の対話イメージになっていて、話者識別(Speaker0 or Speaker01)も、きちんとできているのが分かります。
#ちなみに、[Play Sample2]は観光地トークです。こちらもいい感じに音声認識されてますね
さらに、音声認識で キーワード検出も可能です。
[Keywords]タブをクリックすると、さきほどのデモ音声で、「音声認識」「ディープラーニング」「技術」の3つのキーワードが音声認識されたことを示してます。
#このキーワードは自由に指定可能で、上図の[Keywords to spot]のとこに、キーワードを書いとけば、音声認識されたかどうかを確認することができます。
■ 実際に音声認識をやってみる
では、今度は実際にやってみましょう!
声を出す準備はできていますか!? (※オフィスで急に発声すると、周囲がびっくりするかもしれません・・)
今回、一人で発話するので、[Detect multiple speakers]は必要ないので、チェックを外しておきましょう。
View Modelで[Japanese broadband model]の選択と、[Text]ダブの選択を確認してから、[Record Audio]ボタンを押したら、発話してください!
#ここまでなにをしゃべるか考えてなかった方は、「ワトソンは音声認識できますか?」と発話くださいませ
発話完了したら、またすぐ[Record Audio]ボタンを押してください(ずっと音声認識中だと、周囲の雑音が音声認識され続けてしまうので)
今回 以下のように、いい感じに音声認識できました。
[Word Timings and Alternatives]タブをクリックすると、Watsonの音声認識結果をベースに、各単語の確信度や単語候補の確認を行うことができます。
上手く音声認識できなかった場合、カスタマイズに使えそうな情報になるかもしれません。
■ 次回〜Watson音声認識のカスタマイズ
今度は、「VTuberは流行っていますか?」と発話してみたところ、以下のような結果となりました。
※VTuber(ブイチューバー)については、本記事をご参照ください
VTuber(ブイチューバー)としゃべったのですが、、なぜか・・「ういちユーザー」と認識されてしまいました、、あれれ、うーん、どうしてでしょう・・
[Word Timings and Alternatives]タブをクリックしてみてみると、、以下のようになってました。
#「ブイチューバー」は、「ういち」と「ユーザー」に音声認識されてますね
Watson音声認識の事前学習/共通モデルでは、一般的な用語がカバー範囲になりますので、「VTuber」は まだ辞書登録されてなさそうです。。
しかし、Watson音声認識では、この事前学習モデルを、ユーザーが自由にカスタマイズできることによって、固有名詞や業界/専門用語・独自のいい回しなどに対応することが可能になります。
Watson音声認識をカスタマイズすれば、「VTuber」と ちゃんと音声認識してもらえそうですね
次回は、この辺りのカスタマイズを行っていきたいと思います!