Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第6回

miyanishi
February 11, 2013
120

 第6回

文節最小法を用いたべた書き日本語文の形態素解析

miyanishi

February 11, 2013
Tweet

Transcript

  1. 英語と日本語  英語  単語区切り(空白が区切り文字)  形態素解析:品詞の特定  日本語 

    複数文節区切り(読点などが区切り文字)  形態素解析:文字の並びを単語の並びとして認定  文節内の単語間の連接規則が必要 =文節構造規則(実現も可能)  入力文がかなもしくはローマ字:あいまいな解析結果
  2. 従来の技術  かな漢字変換  文節単位で分かち書きする等 制限を付加  文節のとらえが明確でないものがある (例)形式名詞、補助用言、複合語 

    入力文を制限するのは難しい  形態素解析  最長一致法が主流  最長一致が正解に近いという根拠が無い  結果があいまいな場合:全体の尤度によって順序付け不可
  3. 文節数最小法  日本語文の統語規則  文を構成する文節間の係り受け構造規則  2つの文節間の意味的呼応関係を規定するもの  文節を構成する単語の文節構造規則 

    単語の並びを規定するもの  文節数最小法  文節数が少ない構造を選ぶ方が正しい可能性大  係り受け構造規則を満たす=正しい日本語文  結果の尤度を文節数を用いて評価  文節構造規則を満たす構造が複数ある場合
  4. 述語の定義  述語WS(i, j ,a)  sの部分列=s(i+1)s(i+2)…s(j)に対して w= s(i+1)s(i+2)…s(j)が存在する 

    wの単語構造がaである  述語J(a)  単語構造aが自立語の単語構造  述語E(a)  単語構造aの単語が文節末の語になりうる  述語C(a1,a2)  単語w1(a1)と単語w2(a2)の連接が可能
  5. 述語ℭと述語LB  述語ℭ(a,b)  以下のいずれかと等価  C(a,b)  E(a)かつJ(b) 

    述語LB  WS(0,j,a)かつJ(a)であることはLB(0,j,a,1)と等価  LB(i1,i2,a,k)かつWS(i2,i3,b)かつℭ(a,b)ならば LB(i2,i3,b,k+δ(b))である  δ(a):0=¬J(a), 1=J(a)  LBは以上で定義されるものだけ
  6. 文節構造  文節列の次数k:文節列の文節数に相当  入力文字列sの部分列b=s(1)s(2)…s(j)  i,k,aが存在してLB(i,j,a,k)の場合  bは次数kの左文節列をなす、という 

    E(a)である単語列aがある場合  bは次数kの文字列をなす、という  bの文節構造:3項系列の列  (i0,i1,a1)(i1,i2,a2)…(i(m-1),im,am)
  7. アルゴリズム(概要)  パーズ・リスト作成アルゴリズム  ラティスを作っていくような処理  パーズ・リスト:部分リストI1,I2,…Inの全体  文節構造の抽出 

    最適解を選ぶ処理  述語J,C  単語構造の評価のために定義  述語J:品詞のみ評価  述語C:前後の単語の品詞、活用情報の3組を評価
  8. パーズ・リストの作成  入力:n長さの記号列s  出力:パーズ・リスト I1,I2,…,In  ステップ1  集合Γ(0)を求める

     Γ(0)の要素(0,j,a)について、J(a)ならば(0,a,1)を部分リストへ  i=1にして次へ  ステップ2  i=n:アルゴリズム終了  i≠nかつIi=Φ:iに1を足してステップ2へ  i≠nかつIi≠Φ:集合Γ(i)を求める
  9. パーズ・リスト作成の例 0 き1 ょ 2 う 3 の 4 ゆ

    5 う 6 は 7 ん 8  ステップ1  Γ(0)=(0,3,a) (0,3,a):今日、京、鏡など…  I3=(0,a,1)  ステップ2(1)  i≠nかつI1=Φ⇒i=i+1  ステップ2(2)  i≠nかつI3≠Φ⇒Γ(3)を求める  Γ(3)=(3,4,b) (3,4,b)=の、野など  I4=(3,b,1) ※自立語じゃないのでk=1のまま
  10. 文節構造の抽出  ステップ1  E(a)を満たす項目(i,a,m)が部分リストInに存在するか  存在する:(i,n,a)を出力&R=(i,a,m-δ(a)) ステップ2へ  存在しない:終了(エラー)

     ステップ2  R=(j,a,k)としたとき  j=0:終了(正常)  J≠0: 0≦i<jのi、ℭ(b,a)となるb、整数kでなる(i,b,k)をIjから検索 R=(i,b,k-δ(b))としてステップ2へ
  11. 実験  アルゴリズム  文節数最小法において文節数が同じ解が複数  (1)自立語の次の語は付属語、付属語の次の語は自立語優先  (2)活用語を優先 

    評価の順は(1),(2)の順  最長一致法において長さが同じ候補が複数  (1)自立語より付属語優先  (2)入力文字列における単語の長さが長いもの優先  (3)活用後を優先  評価の順は(1),(2),(3)の順
  12. 実験  入力文  武者小路実篤「人生論」から1000文  平仮名表記のべた書き  一文の平均の長さ=44文字 

    20字程度に読点で分割  注意点  正解=入力文の原文と一致する解析  原文との比較は品詞、活用情報のみ  入力文「きかい」⇒機械なのか機会なのかは判断できず
  13. 最長一致法との比較  能率  定義した文節構造規則に基づいた解析  最長一致法:ステップ数はO() c:定数  文節数最小法:ステップ数はO

    2  誤り率  正解=入力文の原文と一致する解析  最長一致法:12.4%  文節数最小法:7.0%