クラウド型音声認識を評価。精度が良いのはどれ？

この記事は『CRESCO Advent Calendar 2017』 1日目の記事です。

AIに対する過度な期待値を下げつつ、AIの精度向上に励んでいるウエサマこと井上 (祐)です。
本記事では、クラウド型音声認識サービスの認識精度について記述します。

音声認識は人の能力を超える！？

音声認識の評価手法としてSWITCHBOARDデータセットを用いた、評価が代表的な手法となります。
このSWITCHBOARDデータセットは、電話にて交わされた2,400を超える英語による会話が含まれており、このデータセットに対する音声認識の誤り率5.5％が現在(2017/11月時点)の最高到達点となります。
逆に言うとほぼ95％は正解という事ですので、こう考えると人の聞き間違いの方が多いかもしれません。
（参考：”マイクロソフトの音声認識システム、「人と同等」レベルに到達“(ZDNet Japan 2017/8/24)）

さて、このSWITCHBOARDですが、実装の違う音声認識の性能評価を行うには、こうした尺度が有効となりますが、実際の運用では同等の性能を発揮する事はありません。
運用する環境のノイズや話者の滑舌や言い回し、専門用語、日本語の特徴となるモーラリズムなど様々な要因が認識精度の低下を引き起こしているため、SWITCHBOARDで示された認識精度には到底到達しない現実があります。

本記事では、こうした尺度ではなく実際の音声コーパスを用いて、代表的なクラウド型音声認識サービスを比較してみたいと思います。
料金、スペック、機能などカタログ値的なものは、それぞれの製品サイトや他のサイトに譲ることとし、下記の３サービスをざっくり比較してみます。

（１）IBM Watson Speech to Text (以下、Watson)
（２）Google Cloud Speech API (以下、Google)
（３）Microsoft Bing Speech API (以下、Bing)

評価基準

評価観点

音声認識されたテキストが正解テキストに対して、どのくらい正解、誤りがあるかをカウントを行う。尚、認識誤りは”置換誤り”、”脱落誤り”、”挿入誤り”と分類します。
下図にそのイメージを示します。（アルファベットが単語と思ってください）

評価方法

語認識率、単語正解率の２つを求め音声認識サービスを比較します。
①「単語認識率(Correct)」
音声認識された単語が、正しく認識されているか評価を行う。

②「単語正解率(Accuracy)」
認識結果の確からしさの評価を行う。

実際の評価は音声認識の利用目的に応じて、評価項目や基準を決定します。
ここであげた基準は、会議議事録の書き起こしや字幕、日報と行った分野向けの基準で、かなり厳しい設定になっています。

音声データ

本来は実際の業務で使われている音声データを使うのですが、ここでは研究目的での利用を前提とした
音声コーパスを利用しました。

今回使っている音声コーパス

・国立国語研究所コーパス開発センター
日本語話し言葉コーパス（サンプルデータ）

音声データはサンプリングレート 16,000、モノラル、フォーマットはWatsonとAzureはwav、Googleはflacにそれぞれ変換しています。

評価の実施

今回２種類の音声データを使い実施した評価結果を示します。
棒グラフはそれぞれのサービスにおける認識誤りの傾向を示し、もう一つのグラフは音声認識精度を示します。
このグラフから精度の良し悪しの他に、修正への手間が多くかかるのか、少なくて済むのかが読み取れます。

では、２種類の音声データを使い評価してみましょう。

評価１: 音声学に関する学会発表時の音声データを用いた評価

【認識精度の順位】

先に結論からあげますがGoogleは、頭一つ飛び抜けた感じの高い認識精度となりました。

Google、Watson、Bing

【評価結果】

音声データ		学会講演音声のサンプル *音が出ます　約35秒、125単語
音声認識サービス		正解	誤り			単語認識率	単語正解率
音声認識サービス		正解	脱落	置換	挿入	(Correct)	（Accuracy)
1	Watson	99	12	14	9	79.20	72.00
2	Google	111	6	8	2	88.80	87.20
3	Bing	86	13	25	3	69.35	66.40

【認識結果】

正解テキストと各サービスの認識結果を示します。

テキストの概要	認識結果
音声書き起こし正解データ	パラ言語情報ということなんですが簡単に最初に復習をしておきたいと思いますまああのこうやって話しておりますとそれはもちろんあの言語的情報を伝えるということが一つの重要な目的でなんでありますが同時にパラ言語情報そして非言語情報が伝わっておりますまっこの三分法は藤崎先生によるものでしてパラ言語情報というのは要は意図的に制御できる話者がちゃんとコントロールして出してるんだけども言語情報と違って連続的に変化するからカテゴライズすることがやや難しいそういった状況であります
Watson認識結果	ええパラベンご情報ということなんですが簡単に最初に復讐をしておきたいと思いますまあ戸建て話しておりますとそれはもちろん言語的情報を伝えるということが一つの重要な目的ありますが同時に他の言語情報そして非言語情報が伝わってありますがこの 3 分法藤崎によるものでしでこれご情報というのは様は意図的にそれができるは車がちゃんとコントロールして出してるんだけども言語情報と違って連続的に変化する方ご覧いいずすることがやや難しいそういったとこであります
Google認識結果	パラ言語情報ということなんですが簡単に最初に復讐をしておきたいと思いますまああのこうやって話しておりますとそれはもちろんあの言語的情報を伝えるということの重要ななんでありますが同時に腹言語情報そして非言語情報が伝わってるスマこの散文方は藤崎先生によるものでしてパラ言語情報というのは弱さの意図的に作業できる場所がちゃんとコントロールして出してるんだけども言語情報と違って連続的に変化するからカテゴライズすることがやや難しいそういった状況であります
Bing認識結果	やっぱ言語情報と言うことなんですが簡単に最初に復習をしておきたいと思いますまああのう超えたら花しておりますと空もちろんがの言語的情報を伝えるということが一つの重要な目的に何だありますがどうしてに多言語情報そして非言語情報が伝わったの三本保久によるものでしてんの情報と言うのは用は有の意図的にするのがちゃんとコントロールしてるんだけども言語情報と違って連続的に変化するから愛することが難しそれはどこであります

評価２: 模擬講演音声のサンプルによる評価

【認識精度の順位】

Watsonが認識率80%を超えてきております。Googleも十分な精度に達していると思います。

Watson、Google、Bing

【評価結果】

音声データ		一般的な「スピーチ」の音声*音が出ます　開始から約 60秒間、123単語
音声認識サービス		正解	誤り			単語認識率	単語正解率
音声認識サービス		正解	脱落	置換	挿入	(Correct)	（Accuracy)
1	Watson	104	8	13	1	83.20	83.06
2	Google	100	9	14	3	81.30	78.23
3	Bing	75	12	36	3	60.98	58.06

【認識結果】

テキストの概要	認識結果
音声書き起こし正解データ	それから最後に司法判断裁判の結果ですねそれに対する不信というものも感じた記憶がありますそれはどういうことかっていうとまぁ先ほど言いましたようにその先生方対応された先生方は一人ぐらい例外があったような気がしますけどもみんなおしなべて有罪判決を受けたそれはまぁしょうがないでしょうで送った側ですね親がどうであっても一人も責任を問われなかったそれが非常に僕は不思議な気がしましたねあのー今でもましたねあのー今でも
Watson認識結果	それから最後に司法販売裁判の結果ですねそれに対する不信というものも感じた記憶がありますその通りことかっていうと D_マ先ほど言いましたようにその先生方対応されたんです方は一人ぐらい例外があったような気がしますけどもみんなおしなべて有罪判決を受けたでそのまましょうがないで送った後ですね親はどうだったと一人も頃責任を寝取られなかったそれが非常に部下不思議な気がしますね D_アノー今でも
Google認識結果	だから最後に司法判断裁判の結果ですねそれに対する不信というものも感じた記憶がありますの空どういうことかって言うとは先ほど言いましたように誘い方逮捕された先生方は一人ぐらいで甲斐があったような気がしますけどもみんなおしなべて有罪判決を受けたドラマしょうがないでしょ送った側ですねお家はどこだったった一人もこれは責任を寝取られなかったそれが非常に高価不思議な気がしましたねあなたも実は何で
Bing認識結果	それから最後に編者司法 hannba 裁判の結果ですねそれに対する不審というものを感じた記憶があります空飛ぶことがと言うとお酒をどう思いましたようにその際型逮捕されたの姿は一人ぐらいあったような気がしますけどもみんなを調べている団結送ったそれはまあしょうがない所を送ったのですねおやはどうだった一人もこれは責任を寝取られなかったそれが非常に僕不思議なきましたねあのう今も実はなんでそんなのがよくわかんないWatson認識結果にある”D_”は、言い澱みを示しています。

まとめ

今回２音声による評価のため、これだけでクラウド型音声認識の優劣をつける事はできませんが、
音声認識の精度は、これまでの経験上、概ねGoogle、Watson、Bingという感じになります。
Watson、Bingはカスタムモデルを作れるため学習次第で適切な認識精度まで上げていくことが可能となります。

今回の評価は、どちらかというと良い認識率が得られています。
これは利用した音声コーパスの品質が非常に良く、逆に言うとこのくらいの認識精度でなんら不思議な事はありません。
ですが、実際のビジネスシーンにおける認識精度は60%台がスタートになるかと思います。
これをいかに80%台に引き上げるか、ここに多くのノウハウが必要となります。

音声認識を何に使うのかによっても、精度向上の進め方が変わってきますが概ね下記の５点がポイントになります。

（１）適切な評価基準を設定する
（２）学習データによりコーパスを整備する
（３）辞書を整備する
（４）話者をトレーニングする
（５）発話環境を整備する

スマートスピーカも登場し、音声を用いたインターフェースはより自然なものになっていくのではないかと思います。ともすれば、独り言を言っているようで恥ずかしい感じもしますが、そういう時代では無いですね。

音声認識については引き続き、学習効果や話者分離など調べたいこともたくさんありますので、成果が得られたらエンジニアブログに残して行きたいと思います。

では、明日以降も続く『CRESCO Advent Calendar 2017』お楽しみに。

サブ-ナビゲーション

カテゴリ

最近の投稿

タグ

お問い合わせ