Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
含意要因となる表現から作成したパタンを用いたテキスト含意認識
Search
自然言語処理研究室
March 31, 2012
Research
1
110
含意要因となる表現から作成したパタンを用いたテキスト含意認識
宇高 邦弘 含意要因となる表現から作成したパタンを用いたテキスト含意認識. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
Transparency to sustain open science infrastructure - Printemps Couperin
mlarrieu
1
170
線形判別分析のPU学習による朝日歌壇短歌の分析
masakat0
0
130
NLP2025SharedTask翻訳部門
moriokataku
0
300
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
150
Generative Models 2025
takahashihiroshi
21
11k
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
130
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
950
SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery
satai
3
210
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
840
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
380
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
2
370
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
310
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
How to Ace a Technical Interview
jacobian
277
23k
Testing 201, or: Great Expectations
jmmastey
42
7.5k
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
How to train your dragon (web standard)
notwaldorf
94
6.1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
GraphQLとの向き合い方2022年版
quramy
48
14k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
Making Projects Easy
brettharned
116
6.3k
Transcript
含意要因となる表現から作成した パタンを用いたテキスト含意認識 長岡技術科学大学 電気系 山本研究室 08310885 宇高 邦弘
テキスト含意認識とは ・言語表現A(テキスト)が言語表現B(仮説)の 意味を含むかを自動判定するタスク 1
研究背景 ・テキスト中の一部の表現から含意関係を認識可能 ⇒含意要因となる表現と仮説の対を集めること で含意関係認識が可能 2
研究目的 ・各自然言語処理タスクのシステムの出力によ り構築された海外の評価セットから対を抽出 ・抽出した対を用いてテキスト含意認識 ⇒自然言語処理タスクに存在する推論を対象とし たテキスト含意認識 3
含意要因表現-仮説対の抽出方法 ・過去に海外で公開された評価セットから抽出 ⇒各自然言語処理タスクのシステムの出力 からテキストと仮説を構築 ⇒テキスト中にある含意要因となる表現と 仮説を対にして人手で抽出 ⇒2,304のテキストと仮説の対から994の 含意要因表現-仮説対を抽出 4
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 5
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 6
抽出した対を用いた含意認識手法 ・抽出した対と入力されるテキスト-仮説対を照合 ⇒構文解析により文節対に分解 ⇒動詞、形容詞、名詞(未知語を含む)のみ使用 ⇒抽出した対から作成される文節対がテキスト- 仮説対に全て含まれている場合、含意と判断 7
抽出した対を用いた含意認識の例 入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした 文節対:イリノイ生まれ-チャールズ チャールズ-俳優 27歳-俳優 入力仮説:チャールズはイリノイで生まれた 文節対:チャールズ-生まれ
イリノイ-生まれ 使用する対: 含意要因表現:イリノイ生まれのチャールズ 文節対:イリノイ生まれ-チャールズ 仮説:チャールズはイリノイで生まれた 文節対:チャールズ-生まれ イリノイ-生まれ 8
抽出した対を用いた含意認識の流れ 9
抽出した対を用いた含意認識の流れ 10
抽出した対を用いた含意認識の流れ 11
抽出した対を用いた含意認識の流れ 12
抽出した対を用いた含意認識の流れ 13
認識実験 ・抽出した994の含意要因表現-仮説対を使用 ・入力:含意要因表現-仮説対の抽出に使用した 2,304の含意関係を持つテキストと仮説のペア 14
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因表現-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因表現-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因表現-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因表現-仮説対を抽出し 照合しないテキスト-仮説対の数 380 含意要因表現-仮説対を抽出できず 照合しなかったテキスト-仮説対の数 1,291 15
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 380 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 16
考察 ・含意認識を誤った4割について ⇒含意要因表現-仮説対を抽出時に行った情報削除 による文節対の変化が原因 17
考察 ・テキスト-仮説対に照合した含意要因表現-仮 説対の多くは1回しか照合しない ⇒抽出した対の名詞、複合名詞、固有名詞が原因 ⇒他の含意認識評価セットへ適用し辛い 18
対からのパタン作成 ・抽出した対について、名詞、複合名詞、固有名詞を対 象に汎化 ・汎化語はwikipediaから人手で作成 19
パタンを用いた含意認識の流れ 20
パタンを用いた含意認識の流れ 21
パタンを用いた含意認識の流れ 22
パタンを用いた含意認識の流れ 23
パタンを用いた含意認識の流れ 24
パタンによる含意認識実験 ・対の抽出を行った2,304のテキスト-仮説対を2つに 分割 ⇒682を入力として、1,622をパタン作成に使用 ・1,622のテキスト-仮説対から抽出した対から624の パタンを作成 ・文節対での照合 25
パタンを用いた含意認識結果 ⇒作成したパタンに照合するテキスト-仮説対は 少数 入力したテキスト-仮説対の数 682 含意要因表現-仮説対を抽出可 能なテキスト-仮説対の数 357 パタンに照合したテキスト-仮説 対の数
16 26
考察 ・パタンに照合したテキスト-仮説対が少ない ⇒多様な表現を吸収できない 27
本研究のまとめ ・海外の含意認識評価セットから含意要因となる表現と仮説 の対を抽出し、含意認識 ⇒994の含意要因表現-仮説対を抽出 ⇒含意要因表現-仮説対を抽出できたテキスト-仮説対の 6割を正しく含意認識 ・汎用性を高めるために抽出した対からパタンを作成し、含意 認識 ⇒624のパタンを作成 ⇒ほとんどがパタンに照合せず
⇒様々な表現の違いを吸収することで改善可能 28
ご清聴ありがとうございました
抽出した対の照合による含意認識 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 10
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 1,003 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 多くの対がそのままの 形ではT-H対に照合し ない ⇒対抽出時の情報の削 除が原因
Wikipediaからの上位下位関係抽出 上位-下位 納豆-食品 納豆-塩辛納豆 発酵食品-納豆