Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
Search
自然言語処理研究室
March 31, 2011
Research
0
210
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
大野 潤一. Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出. 長岡技術科学大学課題研究報告書 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
95
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
170
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
3k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
130
IMC の細かすぎる話 2025
smly
2
490
経済学と機械学習:因果推論と密度比推定を中心に
masakat0
0
110
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
8
3.8k
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
370
Computational OT #4 - Gradient flow and diffusion models
gpeyre
0
350
SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
satai
3
290
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
1.6k
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
14
9.4k
Ad-DS Paper Circle #1
ykaneko1992
0
5.8k
Featured
See All Featured
Mobile First: as difficult as doing things right
swwweet
223
9.8k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Agile that works and the tools we love
rasmusluckow
329
21k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.6k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.4k
Gamification - CAS2011
davidbonilla
81
5.4k
It's Worth the Effort
3n
185
28k
Side Projects
sachag
455
43k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
740
Transcript
Wikipediaのエントリ-リダイレクト 関係を対象にした同義関係抽出 長岡技術科学大学 電気系 山本研究室 06102491 大野 潤一
研究背景 同義語は, 文章の換言や要約など テキスト処理の分野に必要な語彙知識である ①
既存研究 文脈や語句に依存しない手法 • 言い換えが可能な括弧表現の抽出法 [岡崎ら(2007)] という表現から同義語を抽出 • 国語辞典からの類義表現抽出とSYNGRAPHデータ構造 による柔軟マッチング [大西ら(2006)] から[アイス,アイスクリーム]の同義語対を抽出 →
高精度で語句対を抽出しているが,新聞や辞書を コーパスとしているため,新語や俗語に弱い ②
提案手法 新語や俗語など頻度の低い語について ◦更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) 高い適合率を達成するためにリダイレクトページと エントリページの関係を利用する Step1 前処理による文の整形を行う Step2
語彙統語パターン(同義とみなせる表現)を 整形後の文章と照合する ③
Step1 前処理 エントリ名:マテガイ,リダイレクト名:馬刀貝 ④
Step2 語彙統語パターン 1)名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する 2)文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する
3)括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 ⑤
評価実験 エントリ-リダイレクト対から2,000件を無作為に抽出 人手で以下の4種類に同義関係を分類 前処理を施した後,同義判定を行った 同義関係種類 語句対数 エントリ―リダイレクト対例 同義異語句対 373 広島城―鯉城
略語対 533 神一ダム―神通川第一ダム 同義異表記対 574 浅葱色 あさぎ色 非同義対 520 灰汁―あく抜き ⑥
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) ⑦
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) 406,835件のエントリ-リダイレクト対から 36,068語句対を抽出 ⑦
考察:再現率について エントリ名に対応するリダイレクト名が文中に存在し なかった 異表記対や略語対は文字列が似ているため 本文中で説明されづらい 再現率の向上には, 語彙統語パターンの拡張 Webページやスニペッドなど Wikipedia以外の語彙資源を用いる ⑧
考察:誤り解析 • 本手法で抽出した161対の内, 10対が非同義語句対 • 限定をあらわす表現 「特に・・・なものは[redirect]と呼ばれる」 「・・・を除いて[redirect]と呼ばれる」 「単に・・・という場合は[redirect]を指すことが 多い」
⑨
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対 2,000件の同義抽出を行った →適合率 92.1%,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出 •
表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには 語彙統語パターンの拡張 Wikipedia以外の語彙資源の活用 ⑩
ご清聴 ありがとうございました
リダイレクトページとエントリページの関係 エントリページへ転送するページをリダイレクトページと呼ぶ このリンクは意味の近い語同士で結ばれているが, 同義ではない語句対も存在する
前処理 •エントリページ本文の 第1節見出しより下の文章を削除 •エントリ名,'''エントリ名''',「エントリ名」を 囲み記号ごと[entry]に置換 •リダイレクト名も同様に記号ごと[redirect]置換 •[entry],[redirect]以外の文字列が 上記の記号で囲われていたら[other]に置換 •並列表現{および|または|もしくは|や}を 読点{、}に置換
•小括弧( )で囲われた部分を抜き出し 別の一文にする
実験結果 正しく抽出できたエントリ名-リダイレクト名の例 パターン エントリ名-リダイレクト名 語彙統語パターンに照合した文 名詞 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので '''ネズモドキ'''の別名もある 名詞
静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、静岡県警と 略称する 文末 脇町南町-うだつの町並み '''うだつの町並み'''と呼ばれることもある 文末 モンズーン-モンスン '''モンスン'''、'''モンスーン'''などと表記さ れる場合もある 括弧 ポストパンク-Post-punk '''ポストパンク'''(''' Post-punk ''')は・・・、 括弧 ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・
語彙統語パターン 括弧表現を用いたパターン エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合
[entry],[redirect]の置換 パターンエントリ名,リダイレクト名を[entry],[redirect]に 置き換えるのは直前の並列表現を抽出しやすくするた め エントリ名が「巨人の星」といった語句だと、 名詞、記号列の連続に「の(助詞)」が含まれない
大野-スライド.pdf