Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1文感想の生成と文の並べ替えによる読書感想文の生成
Search
自然言語処理研究室
March 31, 2009
Research
0
230
1文感想の生成と文の並べ替えによる読書感想文の生成
大田 浩志. 1文感想の生成と文の並べ替えによる読書感想文の生成. 長岡技術科学大学修士論文 (2009.3)
自然言語処理研究室
March 31, 2009
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
訓練データ作成のためのCloudCompareを利用した点群の手動ラベリング
kentaitakura
0
540
データで診て考える合志市の渋滞と公共交通 ~めざせ 車1割削減、渋滞半減、公共交通2倍~
trafficbrain
0
460
インタビューだけじゃない!ユーザーに共感しユーザーの目👀を手に入れるためのインプット
moco1013
0
230
Embodied AIについて / About Embodied AI
nttcom
1
550
第12回全日本コンピュータビジョン勉強会:画像の自己教師あり学習における大規模データセット
naok615
0
520
第14回対話システムシンポジウム EMNLP 2023 参加報告
atsumoto
0
150
研究効率化Tips_2024 / Research Efficiency Tips 2024
ryo_nakamura
5
2.8k
VAR モデルによる OSS プロジェクト同士が生存性に与える 影響の分析
noppoman
0
130
Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical
nttcom
0
120
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
620
LLMマルチエージェントを俯瞰する
masatoto
26
16k
[Human-AI Decision Making勉強会] 説明の更新はユーザにどのような影響をもたらすか
okoso
1
180
Featured
See All Featured
Clear Off the Table
cherdarchuk
84
310k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
51k
The Cost Of JavaScript in 2023
addyosmani
16
3.9k
Designing with Data
zakiwarfel
96
4.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
121
39k
We Have a Design System, Now What?
morganepeng
43
6.7k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
659
120k
Designing for humans not robots
tammielis
248
25k
Rebuilding a faster, lazier Slack
samanthasiow
73
8.2k
Automating Front-end Workflow
addyosmani
1356
200k
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
Transcript
1文感想の生成と文の並べ替えによる 読書感想文の生成 07511083 大田浩志 山本研究室 2008/1/20 予備審査 1
本研究でやったこと 2つの文生成の課題について考える • 感情に関する表現に注目して自然な文を生成 • 文を並べ替えて自然な文書を生成 2
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 3
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 4
研究の背景 • 自然な文のモデルが出来ていない 自動要約も機械翻訳も出力は文 文生成技術は必要 • 主観を含む言語資源の処理 ブログ、レビューサイト • 主観表現に注目した文生成はされていない
5
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 6
問題設定:読書感想文の生成 • 複数の文生成技術の課題を含む • 主観表現を含む文の生成 • 文書生成について考えることができる • 一般の人にもわかりやすい 現在の技術でどの程度のことが出来るのか
7
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 8
読書感想文の生成の流れ 9
読書感想文の生成の流れ 入力 感情判別 文生成 文書生成 10
読書感想文の例 • 「走れメロス」を読んで 死刑になる場面はとっても切ないです。 目に涙を浮かべるシーンは本当に悲しくて泣けた。 自分の悲しみが世界で一番悲しいことだし、 自分の大切な人の死が一番つらい。 11
用語 • レビュー Amazonカスタマーレビュー(書籍カテゴリ) • 1文感想 感想文として成立する1文 別れの場面が悲しかった。 • 読書感想文
複数文で構成され、1文感想を含む文書 12
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 13
感情生起表現辞書の構築 • 読書感想文生成における役割 文を読んで感じるための知識 涙を浮かべる = 悲しい • 研究の目的 •
主観表現分析に用いることが出来る • 評判分析(P/N)よりも細かい分類が可能 8つの基本感情[Plutchik,1960] 14
感情生起表現辞書 • 感情が生起される要因の動作や事柄の表現 [遠藤ら,05] 喜 悲 怖 喉を 潤す 初戦を
落とす 事件が 起きる チャンスを つかむ 川に 落ちる 命に 関わる 旅行に 行く 職場を 去る 泥沼に はまる 結婚式を あげる 腰を やる 指を 切断する 15
感情生起表現辞書の構築の流れ ブログ 悲 悲・辞書 怖 悲 喜 怖 100 10
①感情ブログ抽出 ②辞書に追加 メダルを逃す 出現の偏りをスコア化[藤村ら,04] 16
感情ブログ抽出 • 特定の感情を表すブログ 悲ブログの抽出要件 (1) タイトルに「悲しい」を含む (2) 本文中の感情の表現で「悲しい」が多く出現 要件 (1)
(2) (1)かつ(2) 抽出精度 (悲/抽出数) 0.5 (10/20) 0.6 (12/20) 0.85 (17/20) 17
感情生起表現辞書登録数 • 各感情の登録数 • 頻度5以上のみを追加 • 既存研究では約10,000[遠藤ら,05] 喜 悲 恐
327,702 37,439 13,238 18
評価:感情生起表現辞書 喜 悲 怖 喉を 潤す 初戦を 落とす 事件が 起きる
チャンスを つかむ 川に 落ちる 命に 関わる 旅行に 行く 職場を 去る 泥沼に はまる 結婚式を あげる 腰を やる 指を 切断する 正:26%, 誤:4% 感情なし:70% (例)原因を調べる 19
読む、感じる メロスは激怒した。 ・・・ メロスは目に涙を浮かべて言った。 ・・・ ちょうど今、あのかたが死刑になるところです。 ・・・ 勇者はひどく赤面した。 悲しい 20
まとめ:感情生起表現辞書の構築 • 感情生起表現辞書の自動構築手法を提案 • 大規模 • 誤りが少ない • 感情ブログの自動抽出手法を提案 •
ブログのタイトルに注目 • 高精度 21
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 22
1文感想の定義 • 場面と感情についての表現を含む1文 参考:感情表現のモデル[中山ら,05] 彼が涙をこらえるシーンは切なすぎる・・・ 場面 感情 23
1文感想の生成 • 読書感想文生成における役割 ”場面”に適当な感想文を書く 死刑になる 場面はとっても切ないです。 • 研究の目的 • 自然な文を生成する
誕生日を祝う場面が喜ばしい 誕生日を祝う場面が怖い 24
関連研究 • コンピュータ会話応答文生成 [岡崎ら,07] • 感情が一致し、関連度の高い応答文を選択 A:「私は病気になった」 B:「苦しかったでしょう」 • 違和感形容表現の抽出[吉村ら,08]
黒い林檎を食べた 対象:形容詞・形容動詞・名詞+の 25
1文感想の生成手法 • 文を書くためには知識が必要 • 人が書いたレビューを利用 • レビューの”場面”を表す箇所を入れ換え 涙をこらえるシーンは切なすぎ ******シーンは切なすぎ メダルを逃す
書籍Aのレビュー 書籍Bの場面 26
1文感想生成の流れ フレーム ◦◦場面が悲しい △△シーンはゾッとする ・・・ レビュー シス テム ②場面入力 ④1文感想出力
③1文感想フレームの選択 ①1文感想フレーム抽出 27
1文感想生成の流れ フレーム ◦◦場面が悲しい △△シーンはゾッとする ・・・ レビュー シス テム ②場面入力 ④1文感想出力
③1文感想フレームの選択 ①1文感想フレーム抽出 28
1文感想フレーム抽出 • 場面らしい箇所 • 場面/シーン/くだり と係り受け関係にある文節 • 場面らしくない箇所 • 感想文でよく使われている語は場面ではない
ここで 残念だったのは 優勝の メダルを 逃す シーン。 残念だったのは *** *** *** シーン。 29
1文感想フレーム・抽出結果 • 2000冊に対するレビュー記事から 4246個の1文感想フレームを自動抽出 *** シーンは、 本当に悲しくて泣けた *** くだりは お見事です
でも *** シーンは、 ちょっと 怖かったです *** 場面が 何度か あったのは 残念。 どのように選択すればよいのか? 30
1文感想生成の流れ フレーム ◦◦場面が悲しい △△シーンはゾッとする ・・・ レビュー シス テム ②場面入力 ④1文感想出力
③1文感想フレームの選択 ①1文感想フレーム抽出 31
実験:文の自然さと感情表現 • 感情に注目して感情生起表現を1文感想フレーム に当てはめる • 喜びの感情生起表現 プレゼントを貰う • 1文感想フレーム ***
場面が喜ばしい *** 場面が悲しい *** 場面が怖い 32
実験:文の自然さと感情表現 • 感情の一貫性がある/ない文を生成 自然であると評価 一貫性がある文:30/30 一貫性がない文:11/60 プレゼントを貰う場面が喜ばしい プレゼントを貰う場面が悲しい プレゼントを貰う場面が怖い 33
書く • 目に涙を浮かべる シーンは 本当に 悲しくて 泣けた。 • 死刑になる 場面は とっても切ないです。 悲 34
まとめ:1文感想の生成 • 1感想文の生成手法を提案 • 感情の一貫性のある文の方が、自然な文らしい 1文感想フレームを用いて自然な文を生成 • 1文感想フレームの自動抽出手法を提案 • ”場面”の記述箇所を同定
• 場面以外の表現を残すことで人間らしい1文感想を 出力可能 35
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 36
文の並べ替えによる文書生成 • 読書感想文生成での役割 • 1文感想を複数まとめれば文書 • 文の並び順は読みやすさに影響をあたえる [Barzilay et al.,02]
• 複数の1文感想を並べ替え、尤もらしい読書感想文を 生成 • 研究の目的 • 文脈を統計的にとらえる • 並べ替え対象による異なりを調査する 37
問題設定:文の並べ替え • 文順序をバラバラにしたレビューを元に戻す • 研究の進めかた 1.人手実験 • 人間はどの程度並べ替えができるか • 新聞記事・レビューによる差異があるか
2.自動並べ替え • 文脈をとらえることができるか 38
関連研究 複数文書要約 • 要約元文書の時間情報等を用いた並べ替え [Mckeown et al.,1999] • 複数の手法を組み合わせることで並べ替え精度向上 [Bollegala
et al.,05] • 文脈は単一のモデルでは捉えきれない • 特性の異なるモデルが必要 39
予備実験・人手による文の並べ替え(1) • 目的 • 2つの対象の性質の違いを確認 新聞記事 レビュー • 実験方法 •
文順序をバラバラにして提示、並べ替え • 並べ替えを行ったあと自己評価 40
予備実験・人手による文の並べ替え(2) • 並べ替えた結果を評価 評価(1) 並べ替えた順序以外では読みにくい 評価(2) 他の順序でも読めるが、並べ替えた順序が 尤もらしい 評価(3)
順序を持たない文を含む 41
予備実験・人手による文の並べ替え(3) • 相関値:元々の順序 - 並べ替え順序 • ケンドールの順位相関係数τ • 文順序の尤もらしさの自動評価に有効[Lapata,05] 42
予備実験・人手による文の並べ替え(4) • レビューは新聞記事と比較して、 • 文の並びの自由度が高い =決まった構成がない(or少ない) • 統計的にとらえることができるもの • 新聞:新聞の構造、文書らしさ
• レビュー:文書らしさ(文脈) 43
既存手法 • 統計による文の並べ替え[Lapata,03] • 文の連接しやすさ • 文の連接確率 を 単語の連接確率の積 で表す
Sentence S i : S j : Word 44
提案:文の連接しにくさの尺度 文の連接しにくさ • 単語の連接しにくさの総加平均 • 単語の連接しにくさ • 連続する2文における共起 1文書内での共起 f(a,b):
a,bの共起頻度 N:文書数 45
実験:文の連接しにくさの尺度 • a文離れた文同士のスコアを算出 ーーーーーーーー。 ーーーーーー。 ーーーーーー。 ーーーーーーー。 a=3 +a 46
提案手法による文の並べ替え • 文の連接しにくさ だけでは並べ替えはできない • 相互情報量に基づく指標 • 方向を持たない • 単語の連接しやすさと単語の連接しにくさを
併せて用いる 47
実験:異なる文数のレビュー • 学習はレビュー • 相関係数τ 48
実験:学習データと並べ替え対象 • 文脈をとらえることができたか 49
まとめ:文の並べ替え • 統計情報を用いた文の並べ替え手法を提案 • 文の連接しにくさの尺度を提案 • 既存手法とは異なる特性 • 新聞記事とレビュー記事を並べ替え •
レビューの文順序は自由度が高い • 生成したい文書を考慮した学習データの選択が必要 50
読書感想文 死刑になる場面はとっても切ないです。 目に涙を浮かべるシーンは本当に悲しくて泣けた。 自分の悲しみが世界で一番悲しいことだし、 自分の大切な人の死が一番つらい。 51
発表の流れ 1.研究の背景 2.問題設定 3.読書感想文の生成 1.感情生起表現辞書の構築 2.1文感想の生成 3.文の並べ替え 4.まとめ 52
まとめ • 読書感想文生成を通した文生成の研究 • 主観表現を含む文の生成 • 感情表現辞書の自動構築手法を提案 誤りの少ない辞書を構築 • 1文感想生成手法を提案
感情の一貫性に注目して自然な文を生成 • 文の並べ替えによる文書の生成 • 文間の連接しにくさの尺度を提案 既存手法にはない特性を確認 53
• ありがとうございました。 54
55 スコア算出式[藤村ら04] • piece: 構文片 • Pe(piece):感情eのブログに出現する確率 • Pe(piece):感情e以外 •
scoree(piece):感情eについてのスコア
56 感情生起表現辞書の構築 ブログ 悲 SVM e 悲 e 悲以外 悲・辞書
A.感情ブログ抽出 C.辞書の構築 ブログの感情判別 B.感情判別モデル 構築 怖 喜
57 感情判別モデル • SVM 素性: 本文中の内容語 • 学習データ 正例: 悲ブログ
負例: 喜ブログ, 怖ブログ 表2.分割交差検定結果 判別モデル 喜 悲 怖 Acc. 70.9 71.1 71.1
58 感情生起表現辞書の構築 去る彼を 追う • 表現の単位 • 構文片[Aoki et al.,07]
• 係り受け関係にある表現 構文情報を持つ • 文生成を行う上で有用と考える
実験:オープンテスト
計算式:ケンドールの順位相関係数 • 文書1:1,2,3 • 文書2:2,1,3 • I=1
計算式:PMI • f(a <i,j> ):i文目のj個目の単語aの出現回数 • N d :文書dの総数