Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第6回

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
February 11, 2013
130

 第6回

文節最小法を用いたべた書き日本語文の形態素解析

Avatar for miyanishi

miyanishi

February 11, 2013
Tweet

Transcript

  1. 英語と日本語  英語  単語区切り(空白が区切り文字)  形態素解析:品詞の特定  日本語 

    複数文節区切り(読点などが区切り文字)  形態素解析:文字の並びを単語の並びとして認定  文節内の単語間の連接規則が必要 =文節構造規則(実現も可能)  入力文がかなもしくはローマ字:あいまいな解析結果
  2. 従来の技術  かな漢字変換  文節単位で分かち書きする等 制限を付加  文節のとらえが明確でないものがある (例)形式名詞、補助用言、複合語 

    入力文を制限するのは難しい  形態素解析  最長一致法が主流  最長一致が正解に近いという根拠が無い  結果があいまいな場合:全体の尤度によって順序付け不可
  3. 文節数最小法  日本語文の統語規則  文を構成する文節間の係り受け構造規則  2つの文節間の意味的呼応関係を規定するもの  文節を構成する単語の文節構造規則 

    単語の並びを規定するもの  文節数最小法  文節数が少ない構造を選ぶ方が正しい可能性大  係り受け構造規則を満たす=正しい日本語文  結果の尤度を文節数を用いて評価  文節構造規則を満たす構造が複数ある場合
  4. 述語の定義  述語WS(i, j ,a)  sの部分列=s(i+1)s(i+2)…s(j)に対して w= s(i+1)s(i+2)…s(j)が存在する 

    wの単語構造がaである  述語J(a)  単語構造aが自立語の単語構造  述語E(a)  単語構造aの単語が文節末の語になりうる  述語C(a1,a2)  単語w1(a1)と単語w2(a2)の連接が可能
  5. 述語ℭと述語LB  述語ℭ(a,b)  以下のいずれかと等価  C(a,b)  E(a)かつJ(b) 

    述語LB  WS(0,j,a)かつJ(a)であることはLB(0,j,a,1)と等価  LB(i1,i2,a,k)かつWS(i2,i3,b)かつℭ(a,b)ならば LB(i2,i3,b,k+δ(b))である  δ(a):0=¬J(a), 1=J(a)  LBは以上で定義されるものだけ
  6. 文節構造  文節列の次数k:文節列の文節数に相当  入力文字列sの部分列b=s(1)s(2)…s(j)  i,k,aが存在してLB(i,j,a,k)の場合  bは次数kの左文節列をなす、という 

    E(a)である単語列aがある場合  bは次数kの文字列をなす、という  bの文節構造:3項系列の列  (i0,i1,a1)(i1,i2,a2)…(i(m-1),im,am)
  7. アルゴリズム(概要)  パーズ・リスト作成アルゴリズム  ラティスを作っていくような処理  パーズ・リスト:部分リストI1,I2,…Inの全体  文節構造の抽出 

    最適解を選ぶ処理  述語J,C  単語構造の評価のために定義  述語J:品詞のみ評価  述語C:前後の単語の品詞、活用情報の3組を評価
  8. パーズ・リストの作成  入力:n長さの記号列s  出力:パーズ・リスト I1,I2,…,In  ステップ1  集合Γ(0)を求める

     Γ(0)の要素(0,j,a)について、J(a)ならば(0,a,1)を部分リストへ  i=1にして次へ  ステップ2  i=n:アルゴリズム終了  i≠nかつIi=Φ:iに1を足してステップ2へ  i≠nかつIi≠Φ:集合Γ(i)を求める
  9. パーズ・リスト作成の例 0 き1 ょ 2 う 3 の 4 ゆ

    5 う 6 は 7 ん 8  ステップ1  Γ(0)=(0,3,a) (0,3,a):今日、京、鏡など…  I3=(0,a,1)  ステップ2(1)  i≠nかつI1=Φ⇒i=i+1  ステップ2(2)  i≠nかつI3≠Φ⇒Γ(3)を求める  Γ(3)=(3,4,b) (3,4,b)=の、野など  I4=(3,b,1) ※自立語じゃないのでk=1のまま
  10. 文節構造の抽出  ステップ1  E(a)を満たす項目(i,a,m)が部分リストInに存在するか  存在する:(i,n,a)を出力&R=(i,a,m-δ(a)) ステップ2へ  存在しない:終了(エラー)

     ステップ2  R=(j,a,k)としたとき  j=0:終了(正常)  J≠0: 0≦i<jのi、ℭ(b,a)となるb、整数kでなる(i,b,k)をIjから検索 R=(i,b,k-δ(b))としてステップ2へ
  11. 実験  アルゴリズム  文節数最小法において文節数が同じ解が複数  (1)自立語の次の語は付属語、付属語の次の語は自立語優先  (2)活用語を優先 

    評価の順は(1),(2)の順  最長一致法において長さが同じ候補が複数  (1)自立語より付属語優先  (2)入力文字列における単語の長さが長いもの優先  (3)活用後を優先  評価の順は(1),(2),(3)の順
  12. 実験  入力文  武者小路実篤「人生論」から1000文  平仮名表記のべた書き  一文の平均の長さ=44文字 

    20字程度に読点で分割  注意点  正解=入力文の原文と一致する解析  原文との比較は品詞、活用情報のみ  入力文「きかい」⇒機械なのか機会なのかは判断できず
  13. 最長一致法との比較  能率  定義した文節構造規則に基づいた解析  最長一致法:ステップ数はO() c:定数  文節数最小法:ステップ数はO

    2  誤り率  正解=入力文の原文と一致する解析  最長一致法:12.4%  文節数最小法:7.0%