長岡技術科学大学 B4 三上侑城文献紹介 2015年10月29日自動獲得した未知語の読み・文脈情報による仮名漢字変換自然言語処理研究室1
View Slide
出典自動獲得した未知語の読み・文脈情報による仮名漢字変換笹田 鉄郎, 森 信介, 河原 達也自然言語処理 Vol. 17 (2010)No. 4 P131-1532
概要内容の類似したテキストと音声から未知語の読み・文脈情報を取得し、仮名漢字変換の精度向上に利用する。実験では、取得した未知語の読み・文脈情報を学習コーパスに用いたことで、精度が向上することを確認した。3
趣旨統計的かな漢字変換において、学習コーパスに入っていない語(未知語)は変換することができない。そこで未知語を入れようとした時、表層情報から推定することが困難なものがあり、そのため人手での作業が必要になり、コストの面で問題が発生する。4
趣旨そこで本論文では、テキストと内容の類似した音声を認識することで、未知語の読み・文脈情報を単語とその読みの組として自動獲得させ、統計的かな漢字変換の精度向上を目指した。5
提案手法の概略6
未知語候補の抽出擬似確率的単語分割コーパスは、同様の文であっても単語境界に揺れが存在するため未知語の分割誤りを抑制可能。揺れがあるため、低頻度の文字列は単語として適切ではないものが多く、出現頻度でしきい値を設定した。7
未知語候補の抽出単語分割コーパスから単語境界確率を付与する。単語境界確率を乱数を比較し、擬似確率単語分割コーパスを作成。8
言語モデルと発音辞書音声認識システムを用いて未知語候補を正しいよみとともに認識するには言語モデルと発音辞書が必要。言語モデルは擬似確率的単語分割コーパスを一般の単語分割コーパスに追懐することで構築する。9
言語モデルと発音辞書発音は複数の候補を用意し、その中から推定していく。n-gramモデルより単語表記から読みの生成確率を計算する。10
言語モデルと発音辞書「守屋」の正しい読みは「モリヤ」であるが、確率Pはここでは最大になっていない。そのため、確率上位L個を候補とする。Lは組み合わせの生成確率によって決まる。11
文脈情報の獲得信頼度を用いて単語の文脈上の妥当性を判定する。対象分野のテキストと同様の話題を扱った音声、音響モデルを用意し、先ほど得られたデータを用いて音声認識を行った。12
文脈情報の獲得音声認識結果のうち、単語信頼度がCM以上単語を抽出し、連続する単語とその読みの列を形成する。13
モデル構築かな漢字変換のモデル性能を改善するには、対象分野の学習コーパスを大量に用意することが重要である。文脈情報の獲得で得られた、未知語を含む単語と読みの列をモデルに反映させることで、変換精度向上を目指す。14
実験実験は、一般分野のコーパスCb、対象分野のテキストの自動読み推定結果Cn、音声認識結果Crを用いた。コーパスを以下のように組み合わせた。15
実験評価指標として、文字単位の再現率と適合率を用いた。またCrから言語モデル(LM)のみ、かな漢字モデル(PM)のみを更新した場合についても変換精度の評価を行った。16
実験結果17
まとめテキストと音声から未知語の読み・文脈情報を単語と読みの組として自動取得し、統計的かな漢字変換の精度向上に利用する手法を提案した。音声認識から得られる単語と読みの組の列を学習コーパスにすることで、システム全体の精度が向上することを確認した。18
ご視聴ありがとうございました19