Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
係り受け関係を利用した感情生起表現の抽出
Search
自然言語処理研究室
March 31, 2006
Research
0
110
係り受け関係を利用した感情生起表現の抽出
遠藤 大介. 係り受け関係を利用した感情生起表現の抽出. 長岡技術科学大学課題研究報告書 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
370
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
98
自然言語処理研究室 研究概要(2013年)
jnlp
0
66
自然言語処理研究室 研究概要(2014年)
jnlp
0
62
自然言語処理研究室 研究概要(2015年)
jnlp
0
110
Other Decks in Research
See All in Research
論文紹介: Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem
upura
0
140
推薦結果への説明付加はいつどんなものが嬉しいか
kuri8ive
1
220
ニフティのインナーソース導入事例 - InnerSource Commons #11
niftycorp
PRO
0
230
マルチモーダルLLMの応用動向の論文調査
masatoto
7
2.4k
説明可能AI:代表的手法と最近の動向
yuyay
1
510
Schrödinger Bridge問題に基づく拡散生成モデル学習
takeshi_koshizuka
1
510
論文紹介 DSRNet: Single Image Reflection Separation via Component Synergy (ICCV 2023)
tattaka
0
160
NeurIPS-23 参加報告 + DPO 解説
akifumi_wachi
4
1.3k
Target trial emulationの概要
shuntaros
2
1.1k
Combating Misinformation in the age of LLMs
teacherpeterpan
0
110
LLMマルチエージェントを俯瞰する
masatoto
25
14k
データで診て考える合志市の渋滞と公共交通 ~めざせ 車1割削減、渋滞半減、公共交通2倍~
trafficbrain
0
440
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
27
6.3k
Facilitating Awesome Meetings
lara
39
5.5k
In The Pink: A Labor of Love
frogandcode
137
21k
The Art of Programming - Codeland 2020
erikaheidi
40
12k
Learning to Love Humans: Emotional Interface Design
aarron
266
39k
Unsuck your backbone
ammeep
660
56k
Music & Morning Musume
bryan
39
5.5k
The Invisible Customer
myddelton
114
12k
The World Runs on Bad Software
bkeepers
PRO
60
6.6k
For a Future-Friendly Web
brad_frost
170
8.9k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
24
2.2k
RailsConf 2023
tenderlove
0
510
Transcript
1 係り受け関係を利用した 感情生起表現の抽出 長岡技術科学大学 電気系 自然言語処理研究室 学籍番号 04331582 遠藤 大介
指導教員 山本 和英 平成18年2月24日
2 はじめに ▪ 違和感のないコミュニケーションには感情の推定が重要 会話を想定した感情推定 ➔ 表情、声の抑揚など→情報量大 テキストでのやり取りを想定した感情推定
➔ テキストに含まれる表現→情報量小 コンピュータの発達に伴い、介護ロボットや案内 ロボットなど人間とのコミュニケーションを目的 としたシステムが開発されている。 本研究はテキストから感情推定を行う際に、使用される 辞書の構築 辞書の構築を目指す。
3 感情推定について ▪ テキストからの感情推定 感情表現 ➔ 「嬉しい」や「悲しい」のような表現 感情生起表現
➔ 「プレゼントをもらう」や「泣き顔を見られる」のよう な表現 次のように定義することが出来る。 • 感情表現 → 心の動きを表す表現 • 感情生起表現 → 心を動かす要因を表す表現
4 感情生起表現とは ・書き手の感情が生起された要因が書かれた表現 ・「嬉しい」や「悲しい」のように書き手の感情を直接表している 表現とは異なる ・「テレビを見る」「レタスが安くなった」のような 2 文節 例: 私は彼にプレゼントをもらえたことが嬉しかった。
感情表現 : 嬉しい 感情生起表現 : プレゼントをもらえた 感情生起表現を「プレゼントをもらえた」というフレーズで抽出 し、これらを集めたフレーズ辞書の構築を目的としている。
5 関連研究 ・ 田中ら (2004) 感情生起表現の抽出のために次のようなパタン辞書 を作成している。 見出し語 :入手する 意味属性:所有的移動
パタン : N1( 主体 ) が N2( 具体物 ) を N3{ から | より } 入手する 前提条件: N1 が G( 目標 ) を持つ G の実現に N2 が必要 情緒主 : N1 情緒対象: N2 原因 :<獲得> 情緒名 :<喜び> このようなパタンを約 5000 個作成している。
6 フレーズ辞書とパタン辞書 ▪ フレーズ辞書の利点 テキストとのマッチングが容易。 ➔ マッチングの際に、パタン辞書のように多くの情報を必 要としない。
特徴的な表現が得られる。 ➔ パタン辞書と違い、「あれこれ考える」のような口語的な 表現が抽出できる可能性がある。 ▪ フレーズ辞書の欠点 網羅性が乏しい。 ➔ 感情生起表現は大量に存在するため、全ての表現を網 羅することは難しい。
7 感情生起表現を含む文とは 例: 自転車で全力疾走したわりに、出番が少な いのが可哀想だよ。 感情表現 : 可哀想 感情生起表現 :
出番が少ない ▪ どのような文から感情生起表現を抽出するか ? 感情生起表現は感情を生起する表現であるため、 感情表現と関係が深いことが考えられる。 ➔ 感情表現を含む文 なぜ嬉しいのか等、感情について書かれた文が望 ましい。 ➔ 「のが」もしくは「ことが」を含む文
8 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
9 前処理 ( 種の収集 ) ▪ 種用感情表現辞書の作成 感情表現を含む文を抽出するための種を感情分類 ごとに収集する。
➔既存の感情表現事典を使用 - 感情分類 10 分類 - 登録語数 2167 語収録 種用感情表現辞書の条件 - 「形容詞」または「名詞 - 形容動詞語幹」 種用感情生起表現に登録した表現数→ 333 語 - 楽しい ( 喜 ) 、腹立たしい ( 怒 ) 等
10 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
11 提案手法 (1/3) ▪ 感情表現を含む文の抽出 感情生起表現が含まれている文と定義し、以下の 条件を満たす文を抽出する。 ➔ 感情表現を含む文
➔ 「のが」もしくは「ことが」を含む文 例: ・この面白さを伝えようにもなかなか上手くいかない ( のが ) もどかしいところです。 ・人前に出る ( のが ) 恥ずかしい典型的な長男。 ・僕が泣いたのは、彼女と別れた ( ことが ) ) 悲しいせ いばかりではなかった。
12 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
13 提案手法 (2/3) ▪ 感情生起表現候補の抽出 南瓜を用いて構文解析を行う。 例 人前に 出る
( のが ) 恥ずかしい 典型的な 長男。 感情表現 : 恥ずかしい 感情生起表現 : 人前に出るのが
14 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
15 提案手法 (3/3) ▪ 品詞情報によるフィルタリング 「レタスが安い」⇒「レタスが」1文節目、「安い」2文節目 フィルタリングのルール ・ 1 文節目はこれらを含まない。
「連体詞」「名詞 - 非自立」「名詞 - 数」 ・ 2 文節目は以下の品詞でなければならない 「形容詞 - 自立」「名詞 - サ変接続」 「名詞 - 形容動詞語幹」「動詞」 例:「ことが」「大きな」等の表現 例:「安い」「会う」等の表現
16 評価実験 (1/2) ▪ 使用したコーパス 我々の研究室が収集した Web コーパス ➔
2004 年 Web コーパス - 約 400MB : 486 万文 ➔ 2005 年 Web コーパス - 約 1GB : 898 万文 Web コーパスを利用する利点 ➔ 大量のテキストを容易に収集できる。 ➔ 新聞に含まれるテキストよりも掲示板や Weblog など主 観的な文章が存在する。
17 評価実験 (2/2) 得られた感情生起表現を評価した 被験者に対し得られた結果を以下のように提示し、 4 段階評価を行った。 喜:自然とふれあうことが 哀:はかなくきえてしまうのが 評価
A :「提示している感情を生起する」 評価 B :「人によっては提示している感情を生起する」 評価 D :「表現が感情を生起する要因とならない」 評価 C :「提示している感情以外の感情を生起する」
18 評価実験の結果 A[%] B[%] C[%] D[%] 21 39 3 37
15 25 4 56 総合 16 28 4 52 2004Webコーパス 2005Webコーパス コーパス別抽出精度 評価 A :「提示している感情を生起する」 評価 B :「人によっては提示している感情を生起する」 評価 D :「表現が感情を生起する要因とならない」 評価 C :「提示している感情以外の感情を生起する」
19 考察 (1/3) ▪ 抽出結果についての考察 抽出した表現 ➔ 喜:「切り口で 語っているのが」→評価
D 原文 ➔ 従来とは違う、新しい切り口で語っているのが俺として は面白いと思ったんだろう。 問題点 ・抽出表現に情報の不足がある。 - 抽出したい表現「新しい 切り口で 語っているのが」 ・「のが」に含まれる省略されている表現がある。 - 「新しい切り口で語っている」のを ( 見る|読む ) ことが
20 考察 (2/3) ▪ 感情生起表現の抽出数推移 表の通り、 2 つのコーパスの合計数と抽出数に大きな差が ない。コーパスの量を増やすことによって抽出表現数を増
やすことが可能であることを示している。 2131 8043 10059/10174 2004Webコーパス 2005Webコーパス 異なり数/合計 抽出表現数[個] 抽出表現数 ・ 2004Web コーパス:約 400MB 、 486 万文 ・ 2005Web コーパス:約 1GB 、 898 万文
21 考察 (3/3) ▪ 提案手法についての検討 提案手法の利点 ➔ コーパスから取り出す情報が係り受け関係と品詞情報と 末尾の字面である
➔ 種となった感情表現と同じ感情分類の感情生起表現が 抽出できる 提案手法の欠点 ➔ 感情表現を含まない文からの抽出が出来ない ➔ 2 文節の表現のみを扱っているので抽出が出来ない表 現が存在する
22 共起についての追加実験 (1/2) 感情表現と共起している表現を抽出しているため ➔ 感情表現とよく共起する表現 ➔ コーパス中で 1
回しか共起していない表現 感情表現との共起のしやすい表現が感情生起表現? 検索サイト Google において、感情生起表現候補をクエリー とし、感情表現との共起についての追加実験を行った。 得られた検索結果のタイトル下のテキストからクエリーを含 む文を取り出し、感情表現が含まれているかを調べた。
23 共起についての追加実験 (2/2) ▪ 追加実験の結果 共起しやすい表現と共起しにくい表現のどちらにも評価実 験での正解が存在 情報不足の表現が存在
例 ➔( 喜 ) 育っていくのを みるのが :評価 A 34( 感情表現を含む文 )/42( 文数 ) ➔( 喜 ) 様を 見るのが :評価 D 26( 感情表現を含む文 )/38( 文数 ) ➔(哀) あまり 注目されないのが:評価 A 9(感情表現を含む文) / 36(文数)
24 問題点と展望 問題点 ➔ 抽出できる文が感情表現を含む文に限定される ➔ 2 文節のみを抽出しているため、情報不足の表 現が存在
➔ 全ての表現を網羅するのが困難 展望 ➔ 抽出表現数の増加 - コーパスの量を増やす - 字面でのフィルタリングを改良 ➔ 精度向上 - 抽出誤りに対する 3 文節目の補完
25 おわりに ▪ 係り受け関係を利用した感情生起表現の抽出 約 1.4GB のテキストから約 1 万個の感情生起
表現を約 45% の精度で抽出した。 得られた結果から、フレーズで抽出することの 利点と欠点を確認した。