Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自動抽出した換喩表現を用いた係り受け関係のずれの解消

F0374c992b2847f78a662cc964171343?s=47 nishi-k
September 21, 2016
170

 自動抽出した換喩表現を用いた係り受け関係のずれの解消

F0374c992b2847f78a662cc964171343?s=128

nishi-k

September 21, 2016
Tweet

Transcript

  1. 自動抽出した換喩表現を用いた 係り受け関係のずれの解消 長岡技術科学大学 自然言語処理研究室 学部4年 西山 浩気

  2. 参考文献  清 田 陽 司 , 黒 橋 禎

    夫 , 木 戸 冬 子 , ,自動抽出した換喩表現を用いた係り受け関係のずれの 解消,自然言語処理, Vol.11(2004), No.4, pp.127-145 2
  3. 概要  質問応答によって収集したユーザー質問文を含むコー パスの中から換喩表現とその解釈表現を自動抽出  抽出した情報をユーザー質問文とテキストのマッチング に応用する方法を提案  ユーザー質問文とテキスト文の間の係り受け関係のずれを解 消

     抽出された換喩表現と換喩解釈表現ペアの大半は適切  提案手法によってマッチングの精度が改善 3
  4. はじめに  テキストを知識源とする質問応答システムでは  ユーザーの質問に対して、テキスト中から答えを見つける  ただし、質問が曖昧な場合は答えの候補を全て提示すると ユーザーの満足が得られない ⇒ ユーザーの質問を具体化させる質問を返す必要がある

     このような質問はテキスト中のユーザー質問とマッチした部分 の周りに存在する  質問に対してテキストからの正確なマッチングが必要 4
  5. ダイアログナビにおける ユーザー質問文とテキストのマッチング手法  前処理  一部の品詞を除外、 JUMANにおける原型を マッチング対象とする  同義語表現辞書

     2文節以上のフレーズ レベルのものも含んだ 同義表現をグループ化 6
  6. ユーザー質問文とテキストのマッチング手法  係り受けを考慮したスコア計算(m: 係り受けに対する重み) 7

  7. 換喩表現の自動抽出 8  対象とする換喩表現と換喩解釈表現  (α)換喩表現  名詞 + 格助詞

    ⇒ 用言  (β)換喩解釈表現  名詞 (の) ⇒ 名詞 + 格助詞 ⇒ 用言  例:  (α) GIF を 表示する  (β) GIF (の) 画像を 表示する  ユーザー質問文データベースから自動抽出  1,351,981文から(α) (β) のパターンに一致する文章の頻度が それぞれ3以上のペアを抽出  1,126個の換喩表現・換喩解釈ペアを獲得
  8. 抽出された換喩表現・換喩解釈ペアの評価 9  獲得した表現のペアをグループ化  単一解釈表現:679 グループ  例:電源を入れる [

    電源スイッチを入れる ]  複数解釈表現:168グループ , 447ペア  例:エラーが出る [ エラー表示が出る、エラー報告がでる ]  評価  換喩表現と換喩解釈表現から想定される状況が一致するも のに◦  提案手法によって得られた換喩解釈表現以外の解釈をBγ と して列挙
  9. 10

  10. 抽出された換喩表現・換喩解釈ペアの評価 11  換喩表現グループを以下のいずれかの評価に分類  A 全てのペアの評価が◦、 他の解釈(Bγ) が存在しない 

    B 全てのペアの評価が◦、 他の解釈(Bγ) が存在する  C 評価に×が混在、 他の解釈(Bγ) が存在しない  D 評価に×が混在、 他の解釈(Bγ) が存在する  E 全てのペアの評価が×
  11.  テストセット  ヘルプ集のテキスト : 31文  サポート技術情報のテキスト: 140文 

    評価尺度  n: 入力された質問文に対 する正解テキスト数  R: 出力されたテキストの うちの正解テキストの順位 マッチングにおける有効性の評価 12
  12.  ベースライン:係り受け・同義表現辞書を用いたマッチング  提案手法:同義表現辞書に提案手法で抽出したペアを登録  全ユーザー質問文でのεの平均 マッチングにおける有効性の評価 13

  13. Εを悪化させた表現ペア 14  (W1) ~ (W4) :適切でないペア  (W4) ~

    (W7):解釈としては適切、マッチング手法に問題  格の違いを考慮していないことによる誤り (カラ格とノ格)  「アクセス 」と 「(Windows) ACCESS 」(製品名)が同義語として登録
  14. まとめ 15  大量のコーパスから換喩表現・換喩解釈ペアを自動的 に抽出し、マッチングに応用する方法を提案  質問応答システムを引き続き運用することで、さらに多くの換 喩表現・換喩解釈ペアの獲得が期待できる  提案手法で不適切な換喩の解釈表現が抽出されてしまう

     換喩表現・換喩解釈ペアを意味的に分類し、一般的なモデル の構築につなげていく必要がある