1文感想の生成と文の並べ替えによる読書感想文の生成

 1文感想の生成と文の並べ替えによる読書感想文の生成

大田 浩志. 1文感想の生成と文の並べ替えによる読書感想文の生成. 長岡技術科学大学修士論文 (2009.3)

Transcript

  1. 1文感想の生成と文の並べ替えによる 読書感想文の生成 07511083 大田浩志 山本研究室 2008/1/20 予備審査 1

  2. 本研究でやったこと 2つの文生成の課題について考える • 感情に関する表現に注目して自然な文を生成 • 文を並べ替えて自然な文書を生成 2

  3. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 3

  4. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 4

  5. 研究の背景 • 自然な文のモデルが出来ていない 自動要約も機械翻訳も出力は文 文生成技術は必要 • 主観を含む言語資源の処理 ブログ、レビューサイト • 主観表現に注目した文生成はされていない

    5
  6. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 6

  7. 問題設定:読書感想文の生成 • 複数の文生成技術の課題を含む • 主観表現を含む文の生成 • 文書生成について考えることができる • 一般の人にもわかりやすい 現在の技術でどの程度のことが出来るのか

    7
  8. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 8

  9. 読書感想文の生成の流れ 9

  10. 読書感想文の生成の流れ 入力    感情判別   文生成   文書生成 10

  11. 読書感想文の例 • 「走れメロス」を読んで 死刑になる場面はとっても切ないです。 目に涙を浮かべるシーンは本当に悲しくて泣けた。 自分の悲しみが世界で一番悲しいことだし、 自分の大切な人の死が一番つらい。 11

  12. 用語 • レビュー Amazonカスタマーレビュー(書籍カテゴリ) • 1文感想 感想文として成立する1文 別れの場面が悲しかった。 • 読書感想文

    複数文で構成され、1文感想を含む文書 12
  13. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 13

  14. 感情生起表現辞書の構築 • 読書感想文生成における役割 文を読んで感じるための知識 涙を浮かべる = 悲しい • 研究の目的 •

    主観表現分析に用いることが出来る • 評判分析(P/N)よりも細かい分類が可能 8つの基本感情[Plutchik,1960] 14
  15. 感情生起表現辞書 • 感情が生起される要因の動作や事柄の表現 [遠藤ら,05] 喜 悲 怖 喉を 潤す 初戦を

    落とす 事件が 起きる チャンスを つかむ 川に 落ちる 命に 関わる 旅行に 行く 職場を 去る 泥沼に はまる 結婚式を あげる 腰を やる 指を 切断する 15
  16. 感情生起表現辞書の構築の流れ ブログ 悲 悲・辞書 怖 悲 喜 怖 100 10

    ①感情ブログ抽出 ②辞書に追加 メダルを逃す       出現の偏りをスコア化[藤村ら,04] 16
  17. 感情ブログ抽出 • 特定の感情を表すブログ  悲ブログの抽出要件 (1) タイトルに「悲しい」を含む (2) 本文中の感情の表現で「悲しい」が多く出現 要件 (1)

    (2) (1)かつ(2) 抽出精度 (悲/抽出数) 0.5 (10/20) 0.6 (12/20) 0.85 (17/20) 17
  18. 感情生起表現辞書登録数 • 各感情の登録数 • 頻度5以上のみを追加 • 既存研究では約10,000[遠藤ら,05] 喜 悲 恐

    327,702 37,439 13,238 18
  19. 評価:感情生起表現辞書 喜 悲 怖 喉を 潤す 初戦を 落とす 事件が 起きる

    チャンスを つかむ 川に 落ちる 命に 関わる 旅行に 行く 職場を 去る 泥沼に はまる 結婚式を あげる 腰を やる 指を 切断する 正:26%, 誤:4% 感情なし:70% (例)原因を調べる 19
  20. 読む、感じる メロスは激怒した。 ・・・ メロスは目に涙を浮かべて言った。 ・・・ ちょうど今、あのかたが死刑になるところです。 ・・・ 勇者はひどく赤面した。 悲しい 20

  21. まとめ:感情生起表現辞書の構築 • 感情生起表現辞書の自動構築手法を提案 • 大規模 • 誤りが少ない • 感情ブログの自動抽出手法を提案 •

    ブログのタイトルに注目 • 高精度 21
  22. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 22

  23. 1文感想の定義 • 場面と感情についての表現を含む1文 参考:感情表現のモデル[中山ら,05] 彼が涙をこらえるシーンは切なすぎる・・・     場面       感情 23

  24. 1文感想の生成 • 読書感想文生成における役割 ”場面”に適当な感想文を書く 死刑になる 場面はとっても切ないです。 • 研究の目的 • 自然な文を生成する

    誕生日を祝う場面が喜ばしい 誕生日を祝う場面が怖い 24
  25. 関連研究 • コンピュータ会話応答文生成 [岡崎ら,07] • 感情が一致し、関連度の高い応答文を選択 A:「私は病気になった」 B:「苦しかったでしょう」 • 違和感形容表現の抽出[吉村ら,08]

    黒い林檎を食べた 対象:形容詞・形容動詞・名詞+の 25
  26. 1文感想の生成手法 • 文を書くためには知識が必要 • 人が書いたレビューを利用 • レビューの”場面”を表す箇所を入れ換え 涙をこらえるシーンは切なすぎ ******シーンは切なすぎ メダルを逃す

    書籍Aのレビュー 書籍Bの場面 26
  27. 1文感想生成の流れ フレーム ◦◦場面が悲しい △△シーンはゾッとする ・・・ レビュー シス テム ②場面入力  ④1文感想出力    

       ③1文感想フレームの選択 ①1文感想フレーム抽出 27
  28. 1文感想生成の流れ フレーム ◦◦場面が悲しい △△シーンはゾッとする ・・・ レビュー シス テム ②場面入力  ④1文感想出力    

       ③1文感想フレームの選択 ①1文感想フレーム抽出 28
  29. 1文感想フレーム抽出 • 場面らしい箇所 • 場面/シーン/くだり と係り受け関係にある文節 • 場面らしくない箇所 • 感想文でよく使われている語は場面ではない

    ここで 残念だったのは 優勝の メダルを 逃す シーン。 残念だったのは *** *** *** シーン。 29
  30. 1文感想フレーム・抽出結果 • 2000冊に対するレビュー記事から 4246個の1文感想フレームを自動抽出 *** シーンは、 本当に悲しくて泣けた *** くだりは お見事です

    でも *** シーンは、 ちょっと 怖かったです *** 場面が 何度か あったのは 残念。 どのように選択すればよいのか? 30
  31. 1文感想生成の流れ フレーム ◦◦場面が悲しい △△シーンはゾッとする ・・・ レビュー シス テム ②場面入力  ④1文感想出力    

       ③1文感想フレームの選択 ①1文感想フレーム抽出 31
  32. 実験:文の自然さと感情表現 • 感情に注目して感情生起表現を1文感想フレーム に当てはめる • 喜びの感情生起表現  プレゼントを貰う • 1文感想フレーム ***

    場面が喜ばしい *** 場面が悲しい *** 場面が怖い 32
  33. 実験:文の自然さと感情表現 • 感情の一貫性がある/ない文を生成 自然であると評価 一貫性がある文:30/30 一貫性がない文:11/60 プレゼントを貰う場面が喜ばしい プレゼントを貰う場面が悲しい プレゼントを貰う場面が怖い 33

  34. 書く • 目に涙を浮かべる シーンは 本当に 悲しくて 泣けた。 • 死刑になる 場面は とっても切ないです。 悲 34

  35. まとめ:1文感想の生成 • 1感想文の生成手法を提案 • 感情の一貫性のある文の方が、自然な文らしい 1文感想フレームを用いて自然な文を生成 • 1文感想フレームの自動抽出手法を提案 • ”場面”の記述箇所を同定

    • 場面以外の表現を残すことで人間らしい1文感想を 出力可能 35
  36. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 36

  37. 文の並べ替えによる文書生成 • 読書感想文生成での役割 • 1文感想を複数まとめれば文書 • 文の並び順は読みやすさに影響をあたえる [Barzilay et al.,02]

    • 複数の1文感想を並べ替え、尤もらしい読書感想文を 生成 • 研究の目的 • 文脈を統計的にとらえる • 並べ替え対象による異なりを調査する 37
  38. 問題設定:文の並べ替え • 文順序をバラバラにしたレビューを元に戻す • 研究の進めかた 1.人手実験 • 人間はどの程度並べ替えができるか • 新聞記事・レビューによる差異があるか

    2.自動並べ替え • 文脈をとらえることができるか 38
  39. 関連研究 複数文書要約 • 要約元文書の時間情報等を用いた並べ替え [Mckeown et al.,1999] • 複数の手法を組み合わせることで並べ替え精度向上 [Bollegala

    et al.,05] • 文脈は単一のモデルでは捉えきれない • 特性の異なるモデルが必要 39
  40. 予備実験・人手による文の並べ替え(1) • 目的 • 2つの対象の性質の違いを確認 新聞記事 レビュー • 実験方法 •

    文順序をバラバラにして提示、並べ替え • 並べ替えを行ったあと自己評価 40
  41. 予備実験・人手による文の並べ替え(2) • 並べ替えた結果を評価 評価(1) 並べ替えた順序以外では読みにくい 評価(2) 他の順序でも読めるが、並べ替えた順序が     尤もらしい 評価(3)

    順序を持たない文を含む 41
  42. 予備実験・人手による文の並べ替え(3) • 相関値:元々の順序 - 並べ替え順序 • ケンドールの順位相関係数τ • 文順序の尤もらしさの自動評価に有効[Lapata,05] 42

  43. 予備実験・人手による文の並べ替え(4) • レビューは新聞記事と比較して、 • 文の並びの自由度が高い =決まった構成がない(or少ない) • 統計的にとらえることができるもの • 新聞:新聞の構造、文書らしさ

    • レビュー:文書らしさ(文脈) 43
  44. 既存手法 • 統計による文の並べ替え[Lapata,03] • 文の連接しやすさ • 文の連接確率 を 単語の連接確率の積 で表す

    Sentence S i : S j : Word 44
  45. 提案:文の連接しにくさの尺度 文の連接しにくさ • 単語の連接しにくさの総加平均 • 単語の連接しにくさ • 連続する2文における共起 1文書内での共起 f(a,b):

    a,bの共起頻度 N:文書数 45
  46. 実験:文の連接しにくさの尺度 • a文離れた文同士のスコアを算出 ーーーーーーーー。 ーーーーーー。 ーーーーーー。 ーーーーーーー。 a=3 +a 46

  47. 提案手法による文の並べ替え • 文の連接しにくさ だけでは並べ替えはできない • 相互情報量に基づく指標 • 方向を持たない • 単語の連接しやすさと単語の連接しにくさを

    併せて用いる 47
  48. 実験:異なる文数のレビュー • 学習はレビュー • 相関係数τ 48

  49. 実験:学習データと並べ替え対象 • 文脈をとらえることができたか 49

  50. まとめ:文の並べ替え • 統計情報を用いた文の並べ替え手法を提案 • 文の連接しにくさの尺度を提案 • 既存手法とは異なる特性 • 新聞記事とレビュー記事を並べ替え •

    レビューの文順序は自由度が高い • 生成したい文書を考慮した学習データの選択が必要 50
  51. 読書感想文 死刑になる場面はとっても切ないです。 目に涙を浮かべるシーンは本当に悲しくて泣けた。 自分の悲しみが世界で一番悲しいことだし、 自分の大切な人の死が一番つらい。 51

  52. 発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 52

  53. まとめ • 読書感想文生成を通した文生成の研究 • 主観表現を含む文の生成 • 感情表現辞書の自動構築手法を提案 誤りの少ない辞書を構築 • 1文感想生成手法を提案

    感情の一貫性に注目して自然な文を生成 • 文の並べ替えによる文書の生成 • 文間の連接しにくさの尺度を提案 既存手法にはない特性を確認 53
  54. • ありがとうございました。 54

  55. 55 スコア算出式[藤村ら04] • piece: 構文片 • Pe(piece):感情eのブログに出現する確率 • Pe(piece):感情e以外 •

    scoree(piece):感情eについてのスコア
  56. 56 感情生起表現辞書の構築 ブログ 悲 SVM e 悲 e 悲以外 悲・辞書

    A.感情ブログ抽出 C.辞書の構築 ブログの感情判別 B.感情判別モデル   構築 怖 喜
  57. 57 感情判別モデル • SVM 素性: 本文中の内容語 • 学習データ 正例: 悲ブログ

    負例: 喜ブログ, 怖ブログ 表2.分割交差検定結果     判別モデル 喜 悲 怖 Acc. 70.9 71.1 71.1
  58. 58 感情生起表現辞書の構築 去る彼を 追う • 表現の単位 • 構文片[Aoki et al.,07]

    • 係り受け関係にある表現 構文情報を持つ • 文生成を行う上で有用と考える
  59. 実験:オープンテスト

  60. 計算式:ケンドールの順位相関係数 • 文書1:1,2,3 • 文書2:2,1,3 • I=1

  61. 計算式:PMI • f(a <i,j> ):i文目のj個目の単語aの出現回数 • N d :文書dの総数