0 5 10 15 20 25 1999 2004 2009 2014 5.1% • 2017/3 深層学習技術を改良し NIST(⽶国⽴標準技術研究所) Switchboard でWER(Word Error Rate) 5.5%(世界最⾼)を 達成 • 2017/9には、ヒトと同⽔準であると考えられるWER5.1%を 達成したことを論⽂発表 研 究 の 対 象 は ︑ 異 な る ⾳ 声 へ ニ " # ス ⾳ 声 は 書 き ⾔ 葉 に 近 い が ︑ 話 者 ・ 話 し ⽅ ・ 雑 ⾳ ・ 話 題 が 多 岐 に わ た る 3 • ヒトと同等性能を達成した、電話会話の⾳声認識で開発した 技術を 2つのニュース放送のテストデータに適⽤ • それぞれ WER 6.5%, 5.9%という新しいマイルストーンを 達成し、これまで開発してきた技術が 異なる⾳声にも適⽤可 能であることを証明 • ⼀⽅で、このテストデータに対するヒトのWERはそれぞれ 3.6%, 2.8%であり、ヒトのレベルに到達するにはまだ ⼤きな改善余地があることも確認 https://arxiv.org/abs/1703.02136 https://arxiv.org/abs/1904.13258 ニュースの⾳声認識精度で IBMが業界最⾼の性能を達成