Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第3回B3ゼミ

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
January 21, 2013
100

 第3回B3ゼミ

機械学習を用いた日本語表現のチャンキング

Avatar for miyanishi

miyanishi

January 21, 2013
Tweet

Transcript

  1. 機能表現と内容表現  機能表現  二つ以上の語から形成される  全体で一つの「機能的」な意味を持つ  内容表現 

    語彙的意味を形成する語  名詞・形容詞・動詞  「出発するにあたって」・・・機能表現  「ボールが壁にあたって」・・・内容表現
  2. 既存の解析では・・・  JUMAN&KNP  JUMAN解析時には機能語を検出しない  31種類/52種類  ChaSen&CaboCha 

    「助詞・格助詞・述語」をChaSen時に検出  一部の表現はまとめて機能的な表現として解析  26種類/52種類  機能的用法と内容的用法の区別が十分でない
  3. 改善策  機能表現候補の形態素列の用法を正しく識別  検出器を使用(作成)  人手で作成した規則を使用  コストが膨大 

    機能語集合の規模が拡大した場合に追従不可  提案手法  チャンク同定問題として定式化  YamChaを利用
  4. チャンクタグの表現方法  チャンクタグ  検出時に付与するもの  チャンクの範囲を示す要素の表現  IOB2フォーマットを使用 

    チャンクの用法を示す要素の表現 I:チャンクに含まれる形態素(先頭以外) O:チャンクに含まれない形態素 B:チャンクの先頭の形態素 F:用例集で説明されている用法 A:接続詞的用法 M:その他の機能的用法 C:内容的用法 Y:読み不一致 B:判定単位が不適切
  5. SVMを用いた機能表現検出  チャンクタグの組み合わせ  範囲を示す要素・・・B/I  用法を示す要素・・・F/AM/CYB  組み合わせた6種類 

    研究で作成する検出器  F:Fが付与される表現を検出  FAM:F,A,Mのどれか付与される表現を検出
  6. 素性  素性の種類  形態素素性:  形態素解析によって得た情報  表層形,品詞,品詞細分類,活用形,原形,読み,発音 

    チャンク素性:  機能表現候補Eを構成している形態素数  機能表現候補中の の相対的位置情報  チャンク文脈素性:  i番目の機能表現候補の直前&直後2形態素の素性  チャンク素性 −2 −1 … … +1 −2
  7. CFとOFを式で表す  チャンク素性: =< − + 1, − + 1

    >  チャンク文脈素性: =< −2 , −2 , −1 , −1 , +1 , +1 , +2 , +2 >  優先順位  最も左側の機能表現候補を用いて素性を付与  1を満たす候補が複数存在→最も形態素数が多い候補を使用