Slide 3
Slide 3 text
2017/3 電話会話の⾳声認識 2019/5 ニュースの⾳声認識
Watson STTは IBM Researchの最先端の研究成果を 随時取り込んでいます
NISTにおけるWERの変遷
0
5
10
15
20
25
1999 2004 2009 2014
5.1%
• 2017/3 深層学習技術を改良し NIST(⽶国⽴標準技術研究所)
Switchboard でWER(Word Error Rate) 5.5%(世界最⾼)を
達成
• 2017/9には、ヒトと同⽔準であると考えられるWER5.1%を
達成したことを論⽂発表
研
究
の
対
象
は
︑
異
な
る
⾳
声
へ
ニ
"
#
ス
⾳
声
は
書
き
⾔
葉
に
近
い
が
︑
話
者
・
話
し
⽅
・
雑
⾳
・
話
題
が
多
岐
に
わ
た
る
3
• ヒトと同等性能を達成した、電話会話の⾳声認識で開発した
技術を 2つのニュース放送のテストデータに適⽤
• それぞれ WER 6.5%, 5.9%という新しいマイルストーンを
達成し、これまで開発してきた技術が 異なる⾳声にも適⽤可
能であることを証明
• ⼀⽅で、このテストデータに対するヒトのWERはそれぞれ
3.6%, 2.8%であり、ヒトのレベルに到達するにはまだ
⼤きな改善余地があることも確認
https://arxiv.org/abs/1703.02136 https://arxiv.org/abs/1904.13258
ニュースの⾳声認識精度で
IBMが業界最⾼の性能を達成