Upgrade to Pro — share decks privately, control downloads, hide ads and more …

係り受け関係を利用した感情生起表現の抽出

 係り受け関係を利用した感情生起表現の抽出

遠藤 大介. 係り受け関係を利用した感情生起表現の抽出. 長岡技術科学大学課題研究報告書 (2006.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 はじめに ▪ 違和感のないコミュニケーションには感情の推定が重要  会話を想定した感情推定 ➔ 表情、声の抑揚など→情報量大  テキストでのやり取りを想定した感情推定

    ➔ テキストに含まれる表現→情報量小 コンピュータの発達に伴い、介護ロボットや案内 ロボットなど人間とのコミュニケーションを目的 としたシステムが開発されている。 本研究はテキストから感情推定を行う際に、使用される 辞書の構築 辞書の構築を目指す。
  2. 3 感情推定について ▪ テキストからの感情推定  感情表現 ➔ 「嬉しい」や「悲しい」のような表現  感情生起表現

    ➔ 「プレゼントをもらう」や「泣き顔を見られる」のよう な表現 次のように定義することが出来る。 • 感情表現 → 心の動きを表す表現 • 感情生起表現 → 心を動かす要因を表す表現
  3. 4 感情生起表現とは ・書き手の感情が生起された要因が書かれた表現 ・「嬉しい」や「悲しい」のように書き手の感情を直接表している 表現とは異なる ・「テレビを見る」「レタスが安くなった」のような 2 文節 例: 私は彼にプレゼントをもらえたことが嬉しかった。

    感情表現 : 嬉しい 感情生起表現 : プレゼントをもらえた 感情生起表現を「プレゼントをもらえた」というフレーズで抽出 し、これらを集めたフレーズ辞書の構築を目的としている。
  4. 5 関連研究 ・ 田中ら (2004) 感情生起表現の抽出のために次のようなパタン辞書 を作成している。 見出し語 :入手する 意味属性:所有的移動

    パタン : N1( 主体 ) が N2( 具体物 ) を N3{ から | より } 入手する 前提条件: N1 が G( 目標 ) を持つ G の実現に N2 が必要 情緒主 : N1 情緒対象: N2 原因 :<獲得> 情緒名 :<喜び> このようなパタンを約 5000 個作成している。
  5. 6 フレーズ辞書とパタン辞書 ▪ フレーズ辞書の利点  テキストとのマッチングが容易。 ➔ マッチングの際に、パタン辞書のように多くの情報を必 要としない。 

    特徴的な表現が得られる。 ➔ パタン辞書と違い、「あれこれ考える」のような口語的な 表現が抽出できる可能性がある。 ▪ フレーズ辞書の欠点  網羅性が乏しい。 ➔ 感情生起表現は大量に存在するため、全ての表現を網 羅することは難しい。
  6. 7 感情生起表現を含む文とは 例: 自転車で全力疾走したわりに、出番が少な いのが可哀想だよ。 感情表現 : 可哀想 感情生起表現 :

    出番が少ない ▪ どのような文から感情生起表現を抽出するか ?  感情生起表現は感情を生起する表現であるため、 感情表現と関係が深いことが考えられる。 ➔ 感情表現を含む文  なぜ嬉しいのか等、感情について書かれた文が望 ましい。 ➔ 「のが」もしくは「ことが」を含む文
  7. 9 前処理 ( 種の収集 ) ▪ 種用感情表現辞書の作成  感情表現を含む文を抽出するための種を感情分類 ごとに収集する。

    ➔既存の感情表現事典を使用 - 感情分類 10 分類 - 登録語数 2167 語収録  種用感情表現辞書の条件 - 「形容詞」または「名詞 - 形容動詞語幹」  種用感情生起表現に登録した表現数→ 333 語 - 楽しい ( 喜 ) 、腹立たしい ( 怒 ) 等
  8. 11 提案手法 (1/3) ▪ 感情表現を含む文の抽出  感情生起表現が含まれている文と定義し、以下の 条件を満たす文を抽出する。 ➔ 感情表現を含む文

    ➔ 「のが」もしくは「ことが」を含む文 例: ・この面白さを伝えようにもなかなか上手くいかない ( のが ) もどかしいところです。 ・人前に出る ( のが ) 恥ずかしい典型的な長男。 ・僕が泣いたのは、彼女と別れた ( ことが ) ) 悲しいせ いばかりではなかった。
  9. 13 提案手法 (2/3) ▪ 感情生起表現候補の抽出  南瓜を用いて構文解析を行う。 例 人前に 出る

    ( のが ) 恥ずかしい 典型的な 長男。 感情表現 : 恥ずかしい 感情生起表現 : 人前に出るのが
  10. 15 提案手法 (3/3) ▪ 品詞情報によるフィルタリング 「レタスが安い」⇒「レタスが」1文節目、「安い」2文節目 フィルタリングのルール ・ 1 文節目はこれらを含まない。

    「連体詞」「名詞 - 非自立」「名詞 - 数」 ・ 2 文節目は以下の品詞でなければならない 「形容詞 - 自立」「名詞 - サ変接続」 「名詞 - 形容動詞語幹」「動詞」 例:「ことが」「大きな」等の表現 例:「安い」「会う」等の表現
  11. 16 評価実験 (1/2) ▪ 使用したコーパス  我々の研究室が収集した Web コーパス ➔

    2004 年 Web コーパス - 約 400MB : 486 万文 ➔ 2005 年 Web コーパス - 約 1GB : 898 万文  Web コーパスを利用する利点 ➔ 大量のテキストを容易に収集できる。 ➔ 新聞に含まれるテキストよりも掲示板や Weblog など主 観的な文章が存在する。
  12. 17 評価実験 (2/2) 得られた感情生起表現を評価した 被験者に対し得られた結果を以下のように提示し、 4 段階評価を行った。 喜:自然とふれあうことが 哀:はかなくきえてしまうのが 評価

    A :「提示している感情を生起する」 評価 B :「人によっては提示している感情を生起する」 評価 D :「表現が感情を生起する要因とならない」 評価 C :「提示している感情以外の感情を生起する」
  13. 18 評価実験の結果 A[%] B[%] C[%] D[%] 21 39 3 37

    15 25 4 56 総合 16 28 4 52 2004Webコーパス 2005Webコーパス コーパス別抽出精度 評価 A :「提示している感情を生起する」 評価 B :「人によっては提示している感情を生起する」 評価 D :「表現が感情を生起する要因とならない」 評価 C :「提示している感情以外の感情を生起する」
  14. 19 考察 (1/3) ▪ 抽出結果についての考察  抽出した表現 ➔ 喜:「切り口で 語っているのが」→評価

    D 原文 ➔ 従来とは違う、新しい切り口で語っているのが俺として は面白いと思ったんだろう。 問題点 ・抽出表現に情報の不足がある。 - 抽出したい表現「新しい 切り口で 語っているのが」 ・「のが」に含まれる省略されている表現がある。 - 「新しい切り口で語っている」のを ( 見る|読む ) ことが
  15. 20 考察 (2/3) ▪ 感情生起表現の抽出数推移  表の通り、 2 つのコーパスの合計数と抽出数に大きな差が ない。コーパスの量を増やすことによって抽出表現数を増

    やすことが可能であることを示している。 2131 8043 10059/10174 2004Webコーパス 2005Webコーパス 異なり数/合計 抽出表現数[個] 抽出表現数 ・ 2004Web コーパス:約 400MB 、 486 万文 ・ 2005Web コーパス:約 1GB 、 898 万文
  16. 21 考察 (3/3) ▪ 提案手法についての検討  提案手法の利点 ➔ コーパスから取り出す情報が係り受け関係と品詞情報と 末尾の字面である

    ➔ 種となった感情表現と同じ感情分類の感情生起表現が 抽出できる  提案手法の欠点 ➔ 感情表現を含まない文からの抽出が出来ない ➔ 2 文節の表現のみを扱っているので抽出が出来ない表 現が存在する
  17. 22 共起についての追加実験 (1/2)  感情表現と共起している表現を抽出しているため ➔ 感情表現とよく共起する表現 ➔ コーパス中で 1

    回しか共起していない表現  感情表現との共起のしやすい表現が感情生起表現?  検索サイト Google において、感情生起表現候補をクエリー とし、感情表現との共起についての追加実験を行った。  得られた検索結果のタイトル下のテキストからクエリーを含 む文を取り出し、感情表現が含まれているかを調べた。
  18. 23 共起についての追加実験 (2/2) ▪ 追加実験の結果  共起しやすい表現と共起しにくい表現のどちらにも評価実 験での正解が存在  情報不足の表現が存在

    例 ➔( 喜 ) 育っていくのを みるのが :評価 A 34( 感情表現を含む文 )/42( 文数 ) ➔( 喜 ) 様を 見るのが :評価 D 26( 感情表現を含む文 )/38( 文数 ) ➔(哀) あまり  注目されないのが:評価 A  9(感情表現を含む文) / 36(文数)
  19. 24 問題点と展望  問題点 ➔ 抽出できる文が感情表現を含む文に限定される ➔ 2 文節のみを抽出しているため、情報不足の表 現が存在

    ➔ 全ての表現を網羅するのが困難  展望 ➔ 抽出表現数の増加 - コーパスの量を増やす - 字面でのフィルタリングを改良 ➔ 精度向上 - 抽出誤りに対する 3 文節目の補完
  20. 25 おわりに ▪ 係り受け関係を利用した感情生起表現の抽出  約 1.4GB のテキストから約 1 万個の感情生起

    表現を約 45% の精度で抽出した。  得られた結果から、フレーズで抽出することの 利点と欠点を確認した。