Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
Search
自然言語処理研究室
March 31, 2012
Research
1
200
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
宇高邦弘, 山本和英. 含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識. 言語処理学会第18回年次大会, pp.435-438 (2012.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
420
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
120
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
78
自然言語処理研究室 研究概要(2014年)
jnlp
0
92
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
21
4.8k
最近のVisual Odometryと Depth Estimation
sgk
1
310
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
130
PetiteSRE_GenAIEraにおけるインフラのあり方観察
ichichi
0
190
[2024.08.30] Gemma-Ko, 오픈 언어모델에 한국어 입히기 @ 머신러닝부트캠프2024
beomi
0
800
The many faces of AI and the role of mathematics
gpeyre
1
1.4k
リモートワークにおけるパッシブ疲労
matsumoto_r
PRO
4
1.6k
渋谷Well-beingアンケート調査結果
shibuyasmartcityassociation
0
300
機械学習でヒトの行動を変える
hiromu1996
1
380
marukotenant01/tenant-20240826
marketing2024
0
520
メタヒューリスティクスに基づく汎用線形整数計画ソルバーの開発
snowberryfield
3
620
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
260
Featured
See All Featured
Code Review Best Practice
trishagee
65
17k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
510
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Building Your Own Lightsaber
phodgson
103
6.1k
Embracing the Ebb and Flow
colly
84
4.5k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
A Modern Web Designer's Workflow
chriscoyier
693
190k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
The Pragmatic Product Professional
lauravandoore
32
6.3k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Transcript
含意要因となるテキスト中の表現と 仮説の対を用いたテキスト含意認識 長岡技術科学大学 電気系 宇高 邦弘, 山本 和英
研究背景 ・テキスト中の一部の表現から含意関係を認識可能 ⇒含意要因となる表現と仮説の対を集めること で含意関係認識が可能 1
研究目的 ・PASCAL1~PASCAL3で公開された評価セット から対を抽出 ・抽出した対を用いてテキスト含意認識 ⇒自然言語処理タスクに存在する推論を対象とし たテキスト含意認識 2
含意要因表現-仮説対の抽出方法 ・PASCAL1~PASCAL3で公開された評価セット から抽出 ⇒テキスト中にある含意要因となる表現と 仮説を対にして人手で抽出 ⇒2,304のテキストと仮説の対から994の 含意要因表現-仮説対を抽出 3
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 4
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 5
抽出した対の特徴 ・「の」で結合された名詞 ・包含 ・述語含意 6
抽出した対を用いた含意認識手法 ・抽出した対と入力されるテキスト-仮説対を照合 ⇒構文解析により文節対に分解 ⇒抽出した対から作成される文節対がテキスト- 仮説対に全て含まれている場合は含意と判断 7
抽出した対を用いた含意認識の例 入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした イリノイ生まれ-チャールズ チャールズ-俳優 27歳-俳優 入力仮説: チャールズはイリノイで生まれた
チャールズ-生まれ イリノイ-生まれ 抽出した対: 含意要因表現:イリノイ生まれのチャールズ イリノイ生まれ-チャールズ 仮説:チャールズはイリノイで生まれた チャールズ-生まれ イリノイ-生まれ 8
抽出した対を用いた含意認識の流れ 9
抽出した対を用いた含意認識の流れ 10
抽出した対を用いた含意認識の流れ 11
抽出した対を用いた含意認識の流れ 12
抽出した対を用いた含意認識の流れ 13
認識実験 ・抽出した994の含意要因表現-仮説対を使用 ・対の抽出に使用した2,304の含意関係を持つテ キスト-仮説対 14
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因表現-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因表現-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因表現-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因表現-仮説対を抽出し 照合しないテキスト-仮説対の数 380 含意要因表現-仮説対を抽出できず 照合しなかったテキスト-仮説対の数 1,291 15
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 380 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 16
考察 ・含意認識を誤った4割について ⇒含意要因表現-仮説対を抽出時に行った情報削除 による文節対の変化が原因 17
考察 ・テキスト-仮説対に照合した含意要因表現-仮 説対の多くは1回しか照合しない ⇒抽出した対の名詞、複合名詞、固有名詞が原因 ⇒他の含意認識評価セットへ適用し辛い 18
対からのパタン作成 ・抽出した対について、名詞、複合名詞、固有名詞を対 象に汎化 ・汎化語はwikipediaから人手で作成 19
パタンを用いた含意認識の流れ 20
パタンを用いた含意認識の流れ 21
パタンを用いた含意認識の流れ 22
パタンを用いた含意認識の流れ 23
パタンを用いた含意認識の流れ 24
パタンによる含意認識実験 ・PASCAL1~PASCAL3の評価セットに含まれる 2,304のテキスト-仮説対を2つに分割 ⇒682(PASCAL1)を入力 1,622(PASCAL2,3)からパタン作成 ・文節対での照合 25
パタンを用いた含意認識結果 ⇒作成したパタンに照合するテキスト-仮説対は 少数 入力したテキスト-仮説対の数 682 含意要因表現-仮説対を抽出可 能なテキスト-仮説対の数 357 パタンに照合したテキスト-仮説 対の数
16 26
考察 ・パタンに照合したテキスト-仮説対が少ない ⇒多様な表現を吸収できない ⇒適用可能な汎化語を用いてパタンを拡張 27
考察 ・パタンに照合したテキスト-仮説対が少ない ⇒多様な表現を吸収できない ⇒述語の同義、含意関係を知識としてまとめる 28
本研究のまとめ ・海外の含意認識評価セットから含意要因となる表現と仮説 の対を抽出し、含意認識 ⇒994の含意要因表現-仮説対を抽出 ⇒含意要因表現-仮説対を抽出できたテキスト-仮説対の 6割を正しく含意認識 ・汎用性を高めるために抽出した対からパタンを作成し、含意 認識 ⇒624のパタンを作成 ⇒ほとんどがパタンに照合せず
⇒様々な表現の違いを吸収することで改善可能 29
ご清聴ありがとうございました
抽出した対の照合による含意認識 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 10
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 1,003 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 多くの対がそのままの 形ではT-H対に照合し ない ⇒対抽出時の情報の削 除が原因
Wikipediaからの上位下位関係抽出 上位-下位 納豆-食品 納豆-塩辛納豆 発酵食品-納豆