長岡技術科学大学 B3 三上侑城3年勉強会 2015年1月21日日本語入力システムの歩み自然言語処理研究室1
View Slide
かな漢字変換の始まり1970年頃にかな漢字変換の概念が提案された。しかし、当時のコンピュータの性能では厳しかった。1980年頃から実用化された。2
かな漢字変換の始まり単文節変換:1回の入力で、1つの分節、もしくは文節の位置を自分で指定する必要があった。例:「だいがくのけんきゅう」「だいがく」→「大学」,「の」→「の」,「けんきゅう」→「研究」3
かな漢字変換の始まり連文節変換:複数の文節を一気に変換することができる。現在使われているもの。例:「だいがくのけんきゅう」「だいがく」「の」「けんきゅう」←自動「大学の研究」4
n文節最長一致法連文節変換を実現する方法の一つ。連文が最長になるようにする方法高速でメモリの消費量が少ない。5
n文節最長一致法の例n=2とした時例文:「かれはがくせいです」まず、「かれは…」の一文字から始まる文節を展開すると、「彼」,「狩れ」,「彼は」,「枯葉が」と、得られたとする。次にそれぞれに後続する文節を展開する。6
2文節最長一致法の例7彼 狩れ歯歯が歯歯が彼は 学生学生で学生です枯葉が 句癖最長
n文節最長一致法なぜ上手くできるのか、現在でも理論的に説明出来ない。↓「長い文節を選択したほうがうまくいくことが多い」という経験から成り立っている。8
n文節最長一致法の問題原理的にうまく変換できない文がある。大きく2つの問題点がある。→ 全部の可能性を試していない。→ 間違った文を訂正するのが難しい。9
n文節最長一致法の改善文節数以外の評価項目を使う。全部の候補を検索し、最も良さそうなものを選択する。→ 日本語は単語間に「つながりやすさ」があり、これを考慮する。→ このような方法を接続強度法と言う。10
n文節最長一致法の改善接続強度法例文:「ちかくしじょうちょうさをする」正解:「近く市場調査をする」1:「近く」,「市場」→形容詞+名詞2:「地下」,「串」 →名詞+名詞形容詞+名詞の方が良くある(高スコア)11
ビタビアルゴリズム隣接する単語間に対してスコアを定義するもので、最適解を高速に求めることができる。パラメータの調整が重要になる。12
ビタビアルゴリズムパラメータの調整法人の手でパラメータを決めるのは非常に厳しい。↓正解データからパラメータを学習させる、機械学習を用いる。13
まとめ昔の日本語入力システムには、ハードウエアの制約からn文節最長一致法が用いられていた。現在ではビタビアルゴリズムにて、機械学習させて得たパラメータを用いて、文字の変換を行っている。14
ご視聴ありがとうございました参考文献日本語入力を支える技術著:徳永拓之 技術評論社 2012年3月15