Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
係り受け関係を利用した感情生起表現の抽出
Search
自然言語処理研究室
March 31, 2006
Research
0
130
係り受け関係を利用した感情生起表現の抽出
遠藤 大介. 係り受け関係を利用した感情生起表現の抽出. 長岡技術科学大学課題研究報告書 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
When Submarine Cables Go Dark: Examining the Web Services Resilience Amid Global Internet Disruptions
irvin
0
210
Mathematics in the Age of AI and the 4 Generation University
hachama
0
160
NLP2025SharedTask翻訳部門
moriokataku
0
300
SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery
satai
3
220
最適化と機械学習による問題解決
mickey_kubo
0
140
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
120
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
3.5k
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
480
数理最適化に基づく制御
mickey_kubo
5
670
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
320
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
Type Theory as a Formal Basis of Natural Language Semantics
daikimatsuoka
1
220
Featured
See All Featured
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
940
Site-Speed That Sticks
csswizardry
10
670
Fireside Chat
paigeccino
37
3.5k
BBQ
matthewcrist
89
9.7k
Six Lessons from altMBA
skipperchong
28
3.9k
Gamification - CAS2011
davidbonilla
81
5.3k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
53k
Navigating Team Friction
lara
187
15k
Producing Creativity
orderedlist
PRO
346
40k
YesSQL, Process and Tooling at Scale
rocio
173
14k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Transcript
1 係り受け関係を利用した 感情生起表現の抽出 長岡技術科学大学 電気系 自然言語処理研究室 学籍番号 04331582 遠藤 大介
指導教員 山本 和英 平成18年2月24日
2 はじめに ▪ 違和感のないコミュニケーションには感情の推定が重要 会話を想定した感情推定 ➔ 表情、声の抑揚など→情報量大 テキストでのやり取りを想定した感情推定
➔ テキストに含まれる表現→情報量小 コンピュータの発達に伴い、介護ロボットや案内 ロボットなど人間とのコミュニケーションを目的 としたシステムが開発されている。 本研究はテキストから感情推定を行う際に、使用される 辞書の構築 辞書の構築を目指す。
3 感情推定について ▪ テキストからの感情推定 感情表現 ➔ 「嬉しい」や「悲しい」のような表現 感情生起表現
➔ 「プレゼントをもらう」や「泣き顔を見られる」のよう な表現 次のように定義することが出来る。 • 感情表現 → 心の動きを表す表現 • 感情生起表現 → 心を動かす要因を表す表現
4 感情生起表現とは ・書き手の感情が生起された要因が書かれた表現 ・「嬉しい」や「悲しい」のように書き手の感情を直接表している 表現とは異なる ・「テレビを見る」「レタスが安くなった」のような 2 文節 例: 私は彼にプレゼントをもらえたことが嬉しかった。
感情表現 : 嬉しい 感情生起表現 : プレゼントをもらえた 感情生起表現を「プレゼントをもらえた」というフレーズで抽出 し、これらを集めたフレーズ辞書の構築を目的としている。
5 関連研究 ・ 田中ら (2004) 感情生起表現の抽出のために次のようなパタン辞書 を作成している。 見出し語 :入手する 意味属性:所有的移動
パタン : N1( 主体 ) が N2( 具体物 ) を N3{ から | より } 入手する 前提条件: N1 が G( 目標 ) を持つ G の実現に N2 が必要 情緒主 : N1 情緒対象: N2 原因 :<獲得> 情緒名 :<喜び> このようなパタンを約 5000 個作成している。
6 フレーズ辞書とパタン辞書 ▪ フレーズ辞書の利点 テキストとのマッチングが容易。 ➔ マッチングの際に、パタン辞書のように多くの情報を必 要としない。
特徴的な表現が得られる。 ➔ パタン辞書と違い、「あれこれ考える」のような口語的な 表現が抽出できる可能性がある。 ▪ フレーズ辞書の欠点 網羅性が乏しい。 ➔ 感情生起表現は大量に存在するため、全ての表現を網 羅することは難しい。
7 感情生起表現を含む文とは 例: 自転車で全力疾走したわりに、出番が少な いのが可哀想だよ。 感情表現 : 可哀想 感情生起表現 :
出番が少ない ▪ どのような文から感情生起表現を抽出するか ? 感情生起表現は感情を生起する表現であるため、 感情表現と関係が深いことが考えられる。 ➔ 感情表現を含む文 なぜ嬉しいのか等、感情について書かれた文が望 ましい。 ➔ 「のが」もしくは「ことが」を含む文
8 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
9 前処理 ( 種の収集 ) ▪ 種用感情表現辞書の作成 感情表現を含む文を抽出するための種を感情分類 ごとに収集する。
➔既存の感情表現事典を使用 - 感情分類 10 分類 - 登録語数 2167 語収録 種用感情表現辞書の条件 - 「形容詞」または「名詞 - 形容動詞語幹」 種用感情生起表現に登録した表現数→ 333 語 - 楽しい ( 喜 ) 、腹立たしい ( 怒 ) 等
10 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
11 提案手法 (1/3) ▪ 感情表現を含む文の抽出 感情生起表現が含まれている文と定義し、以下の 条件を満たす文を抽出する。 ➔ 感情表現を含む文
➔ 「のが」もしくは「ことが」を含む文 例: ・この面白さを伝えようにもなかなか上手くいかない ( のが ) もどかしいところです。 ・人前に出る ( のが ) 恥ずかしい典型的な長男。 ・僕が泣いたのは、彼女と別れた ( ことが ) ) 悲しいせ いばかりではなかった。
12 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
13 提案手法 (2/3) ▪ 感情生起表現候補の抽出 南瓜を用いて構文解析を行う。 例 人前に 出る
( のが ) 恥ずかしい 典型的な 長男。 感情表現 : 恥ずかしい 感情生起表現 : 人前に出るのが
14 処理の流れ 抽出した文の構文解析 感情表現の係り元 2 文節を抽出 抽出した 2 文節をフィルタリング コーパスから感情表現と「のが」もしくは
「ことが」を含む文の抽出 感情生起表現
15 提案手法 (3/3) ▪ 品詞情報によるフィルタリング 「レタスが安い」⇒「レタスが」1文節目、「安い」2文節目 フィルタリングのルール ・ 1 文節目はこれらを含まない。
「連体詞」「名詞 - 非自立」「名詞 - 数」 ・ 2 文節目は以下の品詞でなければならない 「形容詞 - 自立」「名詞 - サ変接続」 「名詞 - 形容動詞語幹」「動詞」 例:「ことが」「大きな」等の表現 例:「安い」「会う」等の表現
16 評価実験 (1/2) ▪ 使用したコーパス 我々の研究室が収集した Web コーパス ➔
2004 年 Web コーパス - 約 400MB : 486 万文 ➔ 2005 年 Web コーパス - 約 1GB : 898 万文 Web コーパスを利用する利点 ➔ 大量のテキストを容易に収集できる。 ➔ 新聞に含まれるテキストよりも掲示板や Weblog など主 観的な文章が存在する。
17 評価実験 (2/2) 得られた感情生起表現を評価した 被験者に対し得られた結果を以下のように提示し、 4 段階評価を行った。 喜:自然とふれあうことが 哀:はかなくきえてしまうのが 評価
A :「提示している感情を生起する」 評価 B :「人によっては提示している感情を生起する」 評価 D :「表現が感情を生起する要因とならない」 評価 C :「提示している感情以外の感情を生起する」
18 評価実験の結果 A[%] B[%] C[%] D[%] 21 39 3 37
15 25 4 56 総合 16 28 4 52 2004Webコーパス 2005Webコーパス コーパス別抽出精度 評価 A :「提示している感情を生起する」 評価 B :「人によっては提示している感情を生起する」 評価 D :「表現が感情を生起する要因とならない」 評価 C :「提示している感情以外の感情を生起する」
19 考察 (1/3) ▪ 抽出結果についての考察 抽出した表現 ➔ 喜:「切り口で 語っているのが」→評価
D 原文 ➔ 従来とは違う、新しい切り口で語っているのが俺として は面白いと思ったんだろう。 問題点 ・抽出表現に情報の不足がある。 - 抽出したい表現「新しい 切り口で 語っているのが」 ・「のが」に含まれる省略されている表現がある。 - 「新しい切り口で語っている」のを ( 見る|読む ) ことが
20 考察 (2/3) ▪ 感情生起表現の抽出数推移 表の通り、 2 つのコーパスの合計数と抽出数に大きな差が ない。コーパスの量を増やすことによって抽出表現数を増
やすことが可能であることを示している。 2131 8043 10059/10174 2004Webコーパス 2005Webコーパス 異なり数/合計 抽出表現数[個] 抽出表現数 ・ 2004Web コーパス:約 400MB 、 486 万文 ・ 2005Web コーパス:約 1GB 、 898 万文
21 考察 (3/3) ▪ 提案手法についての検討 提案手法の利点 ➔ コーパスから取り出す情報が係り受け関係と品詞情報と 末尾の字面である
➔ 種となった感情表現と同じ感情分類の感情生起表現が 抽出できる 提案手法の欠点 ➔ 感情表現を含まない文からの抽出が出来ない ➔ 2 文節の表現のみを扱っているので抽出が出来ない表 現が存在する
22 共起についての追加実験 (1/2) 感情表現と共起している表現を抽出しているため ➔ 感情表現とよく共起する表現 ➔ コーパス中で 1
回しか共起していない表現 感情表現との共起のしやすい表現が感情生起表現? 検索サイト Google において、感情生起表現候補をクエリー とし、感情表現との共起についての追加実験を行った。 得られた検索結果のタイトル下のテキストからクエリーを含 む文を取り出し、感情表現が含まれているかを調べた。
23 共起についての追加実験 (2/2) ▪ 追加実験の結果 共起しやすい表現と共起しにくい表現のどちらにも評価実 験での正解が存在 情報不足の表現が存在
例 ➔( 喜 ) 育っていくのを みるのが :評価 A 34( 感情表現を含む文 )/42( 文数 ) ➔( 喜 ) 様を 見るのが :評価 D 26( 感情表現を含む文 )/38( 文数 ) ➔(哀) あまり 注目されないのが:評価 A 9(感情表現を含む文) / 36(文数)
24 問題点と展望 問題点 ➔ 抽出できる文が感情表現を含む文に限定される ➔ 2 文節のみを抽出しているため、情報不足の表 現が存在
➔ 全ての表現を網羅するのが困難 展望 ➔ 抽出表現数の増加 - コーパスの量を増やす - 字面でのフィルタリングを改良 ➔ 精度向上 - 抽出誤りに対する 3 文節目の補完
25 おわりに ▪ 係り受け関係を利用した感情生起表現の抽出 約 1.4GB のテキストから約 1 万個の感情生起
表現を約 45% の精度で抽出した。 得られた結果から、フレーズで抽出することの 利点と欠点を確認した。