Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
Search
自然言語処理研究室
March 31, 2011
Research
0
220
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
大野 潤一. Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出. 長岡技術科学大学課題研究報告書 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
110
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
400
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
1
220
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
440
単施設でできる臨床研究の考え方
shuntaros
0
3.3k
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
370
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
satai
3
390
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
kurita
1
290
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.2k
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
210
地域丸ごとデイサービス「Go トレ」の紹介
smartfukushilab1
0
560
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
56
14k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Music & Morning Musume
bryan
46
7k
Facilitating Awesome Meetings
lara
57
6.7k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
We Have a Design System, Now What?
morganepeng
54
7.9k
Optimizing for Happiness
mojombo
379
70k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
Designing for Performance
lara
610
69k
Git: the NoSQL Database
bkeepers
PRO
432
66k
Transcript
Wikipediaのエントリ-リダイレクト 関係を対象にした同義関係抽出 長岡技術科学大学 電気系 山本研究室 06102491 大野 潤一
研究背景 同義語は, 文章の換言や要約など テキスト処理の分野に必要な語彙知識である ①
既存研究 文脈や語句に依存しない手法 • 言い換えが可能な括弧表現の抽出法 [岡崎ら(2007)] という表現から同義語を抽出 • 国語辞典からの類義表現抽出とSYNGRAPHデータ構造 による柔軟マッチング [大西ら(2006)] から[アイス,アイスクリーム]の同義語対を抽出 →
高精度で語句対を抽出しているが,新聞や辞書を コーパスとしているため,新語や俗語に弱い ②
提案手法 新語や俗語など頻度の低い語について ◦更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) 高い適合率を達成するためにリダイレクトページと エントリページの関係を利用する Step1 前処理による文の整形を行う Step2
語彙統語パターン(同義とみなせる表現)を 整形後の文章と照合する ③
Step1 前処理 エントリ名:マテガイ,リダイレクト名:馬刀貝 ④
Step2 語彙統語パターン 1)名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する 2)文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する
3)括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 ⑤
評価実験 エントリ-リダイレクト対から2,000件を無作為に抽出 人手で以下の4種類に同義関係を分類 前処理を施した後,同義判定を行った 同義関係種類 語句対数 エントリ―リダイレクト対例 同義異語句対 373 広島城―鯉城
略語対 533 神一ダム―神通川第一ダム 同義異表記対 574 浅葱色 あさぎ色 非同義対 520 灰汁―あく抜き ⑥
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) ⑦
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) 406,835件のエントリ-リダイレクト対から 36,068語句対を抽出 ⑦
考察:再現率について エントリ名に対応するリダイレクト名が文中に存在し なかった 異表記対や略語対は文字列が似ているため 本文中で説明されづらい 再現率の向上には, 語彙統語パターンの拡張 Webページやスニペッドなど Wikipedia以外の語彙資源を用いる ⑧
考察:誤り解析 • 本手法で抽出した161対の内, 10対が非同義語句対 • 限定をあらわす表現 「特に・・・なものは[redirect]と呼ばれる」 「・・・を除いて[redirect]と呼ばれる」 「単に・・・という場合は[redirect]を指すことが 多い」
⑨
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対 2,000件の同義抽出を行った →適合率 92.1%,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出 •
表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには 語彙統語パターンの拡張 Wikipedia以外の語彙資源の活用 ⑩
ご清聴 ありがとうございました
リダイレクトページとエントリページの関係 エントリページへ転送するページをリダイレクトページと呼ぶ このリンクは意味の近い語同士で結ばれているが, 同義ではない語句対も存在する
前処理 •エントリページ本文の 第1節見出しより下の文章を削除 •エントリ名,'''エントリ名''',「エントリ名」を 囲み記号ごと[entry]に置換 •リダイレクト名も同様に記号ごと[redirect]置換 •[entry],[redirect]以外の文字列が 上記の記号で囲われていたら[other]に置換 •並列表現{および|または|もしくは|や}を 読点{、}に置換
•小括弧( )で囲われた部分を抜き出し 別の一文にする
実験結果 正しく抽出できたエントリ名-リダイレクト名の例 パターン エントリ名-リダイレクト名 語彙統語パターンに照合した文 名詞 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので '''ネズモドキ'''の別名もある 名詞
静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、静岡県警と 略称する 文末 脇町南町-うだつの町並み '''うだつの町並み'''と呼ばれることもある 文末 モンズーン-モンスン '''モンスン'''、'''モンスーン'''などと表記さ れる場合もある 括弧 ポストパンク-Post-punk '''ポストパンク'''(''' Post-punk ''')は・・・、 括弧 ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・
語彙統語パターン 括弧表現を用いたパターン エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合
[entry],[redirect]の置換 パターンエントリ名,リダイレクト名を[entry],[redirect]に 置き換えるのは直前の並列表現を抽出しやすくするた め エントリ名が「巨人の星」といった語句だと、 名詞、記号列の連続に「の(助詞)」が含まれない
大野-スライド.pdf