Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
Search
自然言語処理研究室
March 31, 2012
Research
1
200
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
宇高邦弘, 山本和英. 含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識. 言語処理学会第18回年次大会, pp.435-438 (2012.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
数理最適化と機械学習の融合
mickey_kubo
15
8.8k
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
710
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
250
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
300
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
340
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
2
370
Trust No Bot? Forging Confidence in AI for Software Engineering
tomzimmermann
1
240
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
6
1k
Principled AI ~深層学習時代における課題解決の方法論~
taniai
3
1.2k
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
110
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
130
Featured
See All Featured
Writing Fast Ruby
sferik
628
61k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
RailsConf 2023
tenderlove
30
1.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Practical Orchestrator
shlominoach
188
11k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
Fireside Chat
paigeccino
37
3.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
The Language of Interfaces
destraynor
158
25k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
48
5.4k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.8k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Transcript
含意要因となるテキスト中の表現と 仮説の対を用いたテキスト含意認識 長岡技術科学大学 電気系 宇高 邦弘, 山本 和英
研究背景 ・テキスト中の一部の表現から含意関係を認識可能 ⇒含意要因となる表現と仮説の対を集めること で含意関係認識が可能 1
研究目的 ・PASCAL1~PASCAL3で公開された評価セット から対を抽出 ・抽出した対を用いてテキスト含意認識 ⇒自然言語処理タスクに存在する推論を対象とし たテキスト含意認識 2
含意要因表現-仮説対の抽出方法 ・PASCAL1~PASCAL3で公開された評価セット から抽出 ⇒テキスト中にある含意要因となる表現と 仮説を対にして人手で抽出 ⇒2,304のテキストと仮説の対から994の 含意要因表現-仮説対を抽出 3
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 4
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 5
抽出した対の特徴 ・「の」で結合された名詞 ・包含 ・述語含意 6
抽出した対を用いた含意認識手法 ・抽出した対と入力されるテキスト-仮説対を照合 ⇒構文解析により文節対に分解 ⇒抽出した対から作成される文節対がテキスト- 仮説対に全て含まれている場合は含意と判断 7
抽出した対を用いた含意認識の例 入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした イリノイ生まれ-チャールズ チャールズ-俳優 27歳-俳優 入力仮説: チャールズはイリノイで生まれた
チャールズ-生まれ イリノイ-生まれ 抽出した対: 含意要因表現:イリノイ生まれのチャールズ イリノイ生まれ-チャールズ 仮説:チャールズはイリノイで生まれた チャールズ-生まれ イリノイ-生まれ 8
抽出した対を用いた含意認識の流れ 9
抽出した対を用いた含意認識の流れ 10
抽出した対を用いた含意認識の流れ 11
抽出した対を用いた含意認識の流れ 12
抽出した対を用いた含意認識の流れ 13
認識実験 ・抽出した994の含意要因表現-仮説対を使用 ・対の抽出に使用した2,304の含意関係を持つテ キスト-仮説対 14
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因表現-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因表現-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因表現-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因表現-仮説対を抽出し 照合しないテキスト-仮説対の数 380 含意要因表現-仮説対を抽出できず 照合しなかったテキスト-仮説対の数 1,291 15
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 380 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 16
考察 ・含意認識を誤った4割について ⇒含意要因表現-仮説対を抽出時に行った情報削除 による文節対の変化が原因 17
考察 ・テキスト-仮説対に照合した含意要因表現-仮 説対の多くは1回しか照合しない ⇒抽出した対の名詞、複合名詞、固有名詞が原因 ⇒他の含意認識評価セットへ適用し辛い 18
対からのパタン作成 ・抽出した対について、名詞、複合名詞、固有名詞を対 象に汎化 ・汎化語はwikipediaから人手で作成 19
パタンを用いた含意認識の流れ 20
パタンを用いた含意認識の流れ 21
パタンを用いた含意認識の流れ 22
パタンを用いた含意認識の流れ 23
パタンを用いた含意認識の流れ 24
パタンによる含意認識実験 ・PASCAL1~PASCAL3の評価セットに含まれる 2,304のテキスト-仮説対を2つに分割 ⇒682(PASCAL1)を入力 1,622(PASCAL2,3)からパタン作成 ・文節対での照合 25
パタンを用いた含意認識結果 ⇒作成したパタンに照合するテキスト-仮説対は 少数 入力したテキスト-仮説対の数 682 含意要因表現-仮説対を抽出可 能なテキスト-仮説対の数 357 パタンに照合したテキスト-仮説 対の数
16 26
考察 ・パタンに照合したテキスト-仮説対が少ない ⇒多様な表現を吸収できない ⇒適用可能な汎化語を用いてパタンを拡張 27
考察 ・パタンに照合したテキスト-仮説対が少ない ⇒多様な表現を吸収できない ⇒述語の同義、含意関係を知識としてまとめる 28
本研究のまとめ ・海外の含意認識評価セットから含意要因となる表現と仮説 の対を抽出し、含意認識 ⇒994の含意要因表現-仮説対を抽出 ⇒含意要因表現-仮説対を抽出できたテキスト-仮説対の 6割を正しく含意認識 ・汎用性を高めるために抽出した対からパタンを作成し、含意 認識 ⇒624のパタンを作成 ⇒ほとんどがパタンに照合せず
⇒様々な表現の違いを吸収することで改善可能 29
ご清聴ありがとうございました
抽出した対の照合による含意認識 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 10
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 1,003 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 多くの対がそのままの 形ではT-H対に照合し ない ⇒対抽出時の情報の削 除が原因
Wikipediaからの上位下位関係抽出 上位-下位 納豆-食品 納豆-塩辛納豆 発酵食品-納豆