Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
大規模テキストを用いた2文接続関係の同定
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2006
Research
0
170
大規模テキストを用いた2文接続関係の同定
齋藤 真実、山本 和英、関根 聡. 大規模テキストを用いた2文接続関係の同定. 言語処理学会第12回年次大会, pp.969-972 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
The mathematics of transformers
gpeyre
0
120
量子コンピュータの紹介
oqtopus
0
230
20251023_くまもと21の会例会_「車1割削減、渋滞半減、公共交通2倍」をめざして.pdf
trafficbrain
0
190
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
260
LLMアプリケーションの透明性について
fufufukakaka
0
190
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
290
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
570
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
150
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
590
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
650
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
6
4k
データサイエンティストの業務変化
datascientistsociety
PRO
0
290
Featured
See All Featured
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
99
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Six Lessons from altMBA
skipperchong
29
4.2k
The Curious Case for Waylosing
cassininazir
0
260
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
410
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Un-Boring Meetings
codingconduct
0
220
Done Done
chrislema
186
16k
Believing is Seeing
oripsolob
1
79
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
210
Transcript
大規模テキストを用いた 2文間接続関係の同定 齋藤真実(長岡技術科学大学) 山本和英(長岡技術科学大学) 関根聡(ランゲージクラフト・NYU)
Introduction 概要 2文間の接続関係を大量のコーパスから統計的に判断 1文目と2文目に含まれる単語ペアの利用 構文パタンによる判定 応用
談話解析、修辞構造解析 ドキュメント要約:2文→1文の要約等 QAシステム:原因を尋ねる質問等
関連研究 Marcu and Echihabi[2002] 大規模コーパスから接続詞のある2文を抽出 2文に含まれる単語のペアを素性とし、ナイー ブベイズ分類器を用いて分類
6分類(本研究とは異なる)で49.7% 横山ら[2003] SVMを用いた談話構造解析 談話構造を付与した訓練データが必要
接続関係の分類 1.2% 例えば、たとえば(2個のみ) 例示 5.1% さて、ところで、では 転換 6.0% 一方、もしくは、つまり 並列
12.1% だから、すると、ゆえに 因果 32.2% しかし、でも、ところが、だが 加反 43.0% また、そして、しかも 累加 出現頻度 接続詞の例 接続関係
システムの流れ
単語要素による判定① 例1)1.世界の国々がお互いの独立を認め、対等 の立場で交際するのが理想である。 2.そうならないのが現実でもある。 「理想⇔現実」 → 加反 「一般名詞」「サ変名詞」「動詞」「形容詞」のみ 同一品詞、「サ変名詞」&「動詞」、「動詞」&「形容詞」の組み
合わせのみ使用
単語要素による判定② 例2)1.町にはいっぱいお店があります。 2.服屋さん、お土産屋さん、デパート、スーパーマ ーケットが主なお店です。 上位語:「店」 下位語:「服屋」「土産屋」「デパート」「スーパーマーケット」 ↓ 例示 抽出した単語ペアのコーパス中の頻度からスコアを計算し、
尤もらしい接続関係を選択
スコアの計算 各接続関係に対してスコアを計算 Score1(DR) Score2(DR) 2つのスコアで共に一位になった場合のみ利用 の総和 する各単語ペアの頻度 すべての接続関係に対 アの頻度の総和 であるときの各単語ペ
接続関係がDR = ( ) のコーパス中での割合 接続関係DR DR Score1 =
構文パタン 構文情報のみから接続関係を判定 <パタン例> 1.「~は~だった。(しかし)~というわけではない。」 2.「~には~である。(例えば)~などなど。」 単語ペアをパタンに置き換えて同様にスコアを計 算(それぞれScore3, Score4とする) 両スコアで一位になる場合のみ利用 ※コーパス中で1000回以上マッチする文があるパタンは使用
しない
Step1: 不要な文節の削除 「助詞-連体化」の「の」で終わる文節とその文節の係り 元すべて 並列助詞で終わる文節 Step2: パタンの構成要素の取得→パタンの追加
(内容語)?(助詞|助動詞|。)+$ 副詞$ 例3) 1.彼女の心にどんな思いがあったかはわからない 。 2.それはとても勇気がいることだったに違いない。 構文パタンの作成①
Step3: 要素を順に削除→パタンの追加 「サ変名詞」、「固有名詞」を削除 彼女の心にどんな思いがあったかはわからない。 それはとても勇気がいることだったに違いない。 「動詞」、「形容詞」を削除 彼女の心にどんな思いがあったかはわからない。 それはとても勇気がいることだったに違いない。
「副詞」、「名詞」を削除 彼女の心にどんな思いがあったかはわからない。 それはとても勇気がいることだったに違いない。 構文パタンの作成②
構文情報追加による向上 0.65 0.53 出現頻度を考慮 0.64 (192/300) 0.57(171/300) 合計 0.60 (30/50)
0.56 (28/50) 例示 0.72 (36/50) 0.66 (33/50) 転換 0.58 (29/50) 0.58 (29/50) 並列 0.56 (28/50) 0.56 (28/50) 因果 0.86 (43/50) 0.62 (31/50) 加反 0.52 (26/50) 0.44 (22/50) 累加 構文情報を追加 単語ペアのみ 接続関係
人間による接続判定 3人の人間に同じ問題を与え、最大3個まで許可 し接続関係を判定 結果はそれぞれ63%,54%,48% ※人の出力N個の中に正解が含まれている場合は1/N個の 正解とする 2人の人間の出力の一致率の平均は69% 47% 60% 63%
71% システムの正解率 0 1 2 3 正解した人の数
結論 2文間の接続関係を同定するため、単語情 報に加え、構文パタンを利用 構文情報を用いることで、単語のみで判断 した場合より精度が12%向上(53%→65%) 今後の課題 機械学習の適用(単語と構文からの情報を同 時に考慮することで、精度の向上を期待)
さらに広い文脈からの情報を利用