Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
含意要因となる表現から作成したパタンを用いたテキスト含意認識
Search
自然言語処理研究室
March 31, 2012
Research
1
110
含意要因となる表現から作成したパタンを用いたテキスト含意認識
宇高 邦弘 含意要因となる表現から作成したパタンを用いたテキスト含意認識. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
まずはここから:Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境
matsui_528
2
880
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
120
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
15
8.1k
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
210
論文紹介:Safety Alignment Should be Made More Than Just a Few Tokens Deep
kazutoshishinoda
0
140
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
990
When Learned Data Structures Meet Computer Vision
matsui_528
1
1.3k
一人称視点映像解析の最先端(MIRU2025 チュートリアル)
takumayagi
6
4.4k
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
340
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
310
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
11k
音声感情認識技術の進展と展望
nagase
0
390
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Designing Experiences People Love
moore
143
24k
The Language of Interfaces
destraynor
162
25k
Agile that works and the tools we love
rasmusluckow
331
21k
Embracing the Ebb and Flow
colly
88
4.9k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Code Review Best Practice
trishagee
74
19k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
BBQ
matthewcrist
89
9.9k
Transcript
含意要因となる表現から作成した パタンを用いたテキスト含意認識 長岡技術科学大学 電気系 山本研究室 08310885 宇高 邦弘
テキスト含意認識とは ・言語表現A(テキスト)が言語表現B(仮説)の 意味を含むかを自動判定するタスク 1
研究背景 ・テキスト中の一部の表現から含意関係を認識可能 ⇒含意要因となる表現と仮説の対を集めること で含意関係認識が可能 2
研究目的 ・各自然言語処理タスクのシステムの出力によ り構築された海外の評価セットから対を抽出 ・抽出した対を用いてテキスト含意認識 ⇒自然言語処理タスクに存在する推論を対象とし たテキスト含意認識 3
含意要因表現-仮説対の抽出方法 ・過去に海外で公開された評価セットから抽出 ⇒各自然言語処理タスクのシステムの出力 からテキストと仮説を構築 ⇒テキスト中にある含意要因となる表現と 仮説を対にして人手で抽出 ⇒2,304のテキストと仮説の対から994の 含意要因表現-仮説対を抽出 4
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 5
含意要因表現-仮説対の抽出例 テキスト:ドイツの航空会社であるルフトハンザ はミュンヘンに直行します 仮説:ルフトハンザはドイツの航空会社だ 6
抽出した対を用いた含意認識手法 ・抽出した対と入力されるテキスト-仮説対を照合 ⇒構文解析により文節対に分解 ⇒動詞、形容詞、名詞(未知語を含む)のみ使用 ⇒抽出した対から作成される文節対がテキスト- 仮説対に全て含まれている場合、含意と判断 7
抽出した対を用いた含意認識の例 入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした 文節対:イリノイ生まれ-チャールズ チャールズ-俳優 27歳-俳優 入力仮説:チャールズはイリノイで生まれた 文節対:チャールズ-生まれ
イリノイ-生まれ 使用する対: 含意要因表現:イリノイ生まれのチャールズ 文節対:イリノイ生まれ-チャールズ 仮説:チャールズはイリノイで生まれた 文節対:チャールズ-生まれ イリノイ-生まれ 8
抽出した対を用いた含意認識の流れ 9
抽出した対を用いた含意認識の流れ 10
抽出した対を用いた含意認識の流れ 11
抽出した対を用いた含意認識の流れ 12
抽出した対を用いた含意認識の流れ 13
認識実験 ・抽出した994の含意要因表現-仮説対を使用 ・入力:含意要因表現-仮説対の抽出に使用した 2,304の含意関係を持つテキストと仮説のペア 14
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因表現-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因表現-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因表現-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因表現-仮説対を抽出し 照合しないテキスト-仮説対の数 380 含意要因表現-仮説対を抽出できず 照合しなかったテキスト-仮説対の数 1,291 15
抽出した対を用いた含意認識結果 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 633
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 380 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 16
考察 ・含意認識を誤った4割について ⇒含意要因表現-仮説対を抽出時に行った情報削除 による文節対の変化が原因 17
考察 ・テキスト-仮説対に照合した含意要因表現-仮 説対の多くは1回しか照合しない ⇒抽出した対の名詞、複合名詞、固有名詞が原因 ⇒他の含意認識評価セットへ適用し辛い 18
対からのパタン作成 ・抽出した対について、名詞、複合名詞、固有名詞を対 象に汎化 ・汎化語はwikipediaから人手で作成 19
パタンを用いた含意認識の流れ 20
パタンを用いた含意認識の流れ 21
パタンを用いた含意認識の流れ 22
パタンを用いた含意認識の流れ 23
パタンを用いた含意認識の流れ 24
パタンによる含意認識実験 ・対の抽出を行った2,304のテキスト-仮説対を2つに 分割 ⇒682を入力として、1,622をパタン作成に使用 ・1,622のテキスト-仮説対から抽出した対から624の パタンを作成 ・文節対での照合 25
パタンを用いた含意認識結果 ⇒作成したパタンに照合するテキスト-仮説対は 少数 入力したテキスト-仮説対の数 682 含意要因表現-仮説対を抽出可 能なテキスト-仮説対の数 357 パタンに照合したテキスト-仮説 対の数
16 26
考察 ・パタンに照合したテキスト-仮説対が少ない ⇒多様な表現を吸収できない 27
本研究のまとめ ・海外の含意認識評価セットから含意要因となる表現と仮説 の対を抽出し、含意認識 ⇒994の含意要因表現-仮説対を抽出 ⇒含意要因表現-仮説対を抽出できたテキスト-仮説対の 6割を正しく含意認識 ・汎用性を高めるために抽出した対からパタンを作成し、含意 認識 ⇒624のパタンを作成 ⇒ほとんどがパタンに照合せず
⇒様々な表現の違いを吸収することで改善可能 28
ご清聴ありがとうございました
抽出した対の照合による含意認識 入力した テキスト-仮説対の数 2,304 含意要因-仮説対を抽出 したテキスト-仮説対の数 1,013 含意要因-仮説対を抽出し照合 したテキスト-仮説対の数 10
含意要因-仮説対を抽出できず 照合したテキスト-仮説対の数 0 含意要因-仮説対を抽出し照合 しなかったテキスト-仮説対の数 1,003 含意要因-仮説対を抽出できず 照合しないテキスト-仮説対の数 1,291 多くの対がそのままの 形ではT-H対に照合し ない ⇒対抽出時の情報の削 除が原因
Wikipediaからの上位下位関係抽出 上位-下位 納豆-食品 納豆-塩辛納豆 発酵食品-納豆