Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第3回B3ゼミ

miyanishi
January 21, 2013
95

 第3回B3ゼミ

機械学習を用いた日本語表現のチャンキング

miyanishi

January 21, 2013
Tweet

Transcript

  1. 機能表現と内容表現  機能表現  二つ以上の語から形成される  全体で一つの「機能的」な意味を持つ  内容表現 

    語彙的意味を形成する語  名詞・形容詞・動詞  「出発するにあたって」・・・機能表現  「ボールが壁にあたって」・・・内容表現
  2. 既存の解析では・・・  JUMAN&KNP  JUMAN解析時には機能語を検出しない  31種類/52種類  ChaSen&CaboCha 

    「助詞・格助詞・述語」をChaSen時に検出  一部の表現はまとめて機能的な表現として解析  26種類/52種類  機能的用法と内容的用法の区別が十分でない
  3. 改善策  機能表現候補の形態素列の用法を正しく識別  検出器を使用(作成)  人手で作成した規則を使用  コストが膨大 

    機能語集合の規模が拡大した場合に追従不可  提案手法  チャンク同定問題として定式化  YamChaを利用
  4. チャンクタグの表現方法  チャンクタグ  検出時に付与するもの  チャンクの範囲を示す要素の表現  IOB2フォーマットを使用 

    チャンクの用法を示す要素の表現 I:チャンクに含まれる形態素(先頭以外) O:チャンクに含まれない形態素 B:チャンクの先頭の形態素 F:用例集で説明されている用法 A:接続詞的用法 M:その他の機能的用法 C:内容的用法 Y:読み不一致 B:判定単位が不適切
  5. SVMを用いた機能表現検出  チャンクタグの組み合わせ  範囲を示す要素・・・B/I  用法を示す要素・・・F/AM/CYB  組み合わせた6種類 

    研究で作成する検出器  F:Fが付与される表現を検出  FAM:F,A,Mのどれか付与される表現を検出
  6. 素性  素性の種類  形態素素性:  形態素解析によって得た情報  表層形,品詞,品詞細分類,活用形,原形,読み,発音 

    チャンク素性:  機能表現候補Eを構成している形態素数  機能表現候補中の の相対的位置情報  チャンク文脈素性:  i番目の機能表現候補の直前&直後2形態素の素性  チャンク素性 −2 −1 … … +1 −2
  7. CFとOFを式で表す  チャンク素性: =< − + 1, − + 1

    >  チャンク文脈素性: =< −2 , −2 , −1 , −1 , +1 , +1 , +2 , +2 >  優先順位  最も左側の機能表現候補を用いて素性を付与  1を満たす候補が複数存在→最も形態素数が多い候補を使用