Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3勉強会(2015年1月21日)日本語入力システムの歩み

MIKAMI-YUKI
January 20, 2015

 B3勉強会(2015年1月21日)日本語入力システムの歩み

MIKAMI-YUKI

January 20, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B3 三上侑城
    3年勉強会 2015年1月21日
    日本語入力システムの歩み
    自然言語処理研究室
    1

    View Slide

  2. かな漢字変換の始まり
    1970年頃にかな漢字変換の概念が
    提案された。
    しかし、当時のコンピュータの性能では
    厳しかった。
    1980年頃から実用化された。
    2

    View Slide

  3. かな漢字変換の始まり
    単文節変換:
    1回の入力で、1つの分節、もしくは文節
    の位置を自分で指定する必要があった。
    例:「だいがくのけんきゅう」
    「だいがく」→「大学」,「の」→「の」,
    「けんきゅう」→「研究」
    3

    View Slide

  4. かな漢字変換の始まり
    連文節変換:
    複数の文節を一気に変換することができ
    る。現在使われているもの。
    例:「だいがくのけんきゅう」
    「だいがく」「の」「けんきゅう」←自動
    「大学の研究」
    4

    View Slide

  5. n文節最長一致法
    連文節変換を実現する方法の一つ。
    連文が最長になるようにする方法
    高速でメモリの消費量が少ない。
    5

    View Slide

  6. n文節最長一致法の例
    n=2とした時
    例文:「かれはがくせいです」
    まず、「かれは…」の一文字から始まる文
    節を展開すると、
    「彼」,「狩れ」,「彼は」,「枯葉が」
    と、得られたとする。
    次にそれぞれに後続する文節を展開する。
    6

    View Slide

  7. 2文節最長一致法の例
    7
    彼 狩れ

    歯が

    歯が
    彼は 学生
    学生で
    学生です
    枯葉が 句

    最長

    View Slide

  8. n文節最長一致法
    なぜ上手くできるのか、現在でも理論的
    に説明出来ない。

    「長い文節を選択したほうがうまくいくこと
    が多い」という経験から成り立っている。
    8

    View Slide

  9. n文節最長一致法の問題
    原理的にうまく変換できない文がある。
    大きく2つの問題点がある。
    → 全部の可能性を試していない。
    → 間違った文を訂正するのが難しい。
    9

    View Slide

  10. n文節最長一致法の改善
    文節数以外の評価項目を使う。
    全部の候補を検索し、最も良さそうなも
    のを選択する。
    → 日本語は単語間に「つながりやすさ」
    があり、これを考慮する。
    → このような方法を接続強度法と言う。
    10

    View Slide

  11. n文節最長一致法の改善
    接続強度法
    例文:「ちかくしじょうちょうさをする」
    正解:「近く市場調査をする」
    1:「近く」,「市場」→形容詞+名詞
    2:「地下」,「串」 →名詞+名詞
    形容詞+名詞の方が良くある(高スコア)
    11

    View Slide

  12. ビタビアルゴリズム
    隣接する単語間に対してスコアを定義す
    るもので、最適解を高速に求めることが
    できる。
    パラメータの調整が重要になる。
    12

    View Slide

  13. ビタビアルゴリズム
    パラメータの調整法
    人の手でパラメータを決めるのは非常に
    厳しい。

    正解データからパラメータを学習させる、
    機械学習を用いる。
    13

    View Slide

  14. まとめ
    昔の日本語入力システムには、ハードウ
    エアの制約からn文節最長一致法が用
    いられていた。
    現在ではビタビアルゴリズムにて、機械学
    習させて得たパラメータを用いて、文字の
    変換を行っている。
    14

    View Slide

  15. ご視聴ありがとうございました
    参考文献
    日本語入力を支える技術
    著:徳永拓之 技術評論社 2012年3月
    15

    View Slide