Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2011
Research
230
0
Share
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
大野 潤一. Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出. 長岡技術科学大学課題研究報告書 (2011.3)
自然言語処理研究室
March 31, 2011
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
160
自然言語処理研究室 研究概要(2012年)
jnlp
0
160
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
230
Other Decks in Research
See All in Research
存立危機事態の再検討
jimboken
0
270
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
320
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability
yuukit
1
840
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7.5k
Data Visualization Tools in the Age of AI
flekschas
0
120
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
190
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
920
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
140
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
16
24k
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
130
LLM Compute Infrastructure Overview
karakurist
2
1.2k
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
380
Featured
See All Featured
A better future with KSS
kneath
240
18k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
160
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
280
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.4k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
350
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
520
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
330
Accessibility Awareness
sabderemane
1
110
Designing for Performance
lara
611
70k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
200
Transcript
Wikipediaのエントリ-リダイレクト 関係を対象にした同義関係抽出 長岡技術科学大学 電気系 山本研究室 06102491 大野 潤一
研究背景 同義語は, 文章の換言や要約など テキスト処理の分野に必要な語彙知識である ①
既存研究 文脈や語句に依存しない手法 • 言い換えが可能な括弧表現の抽出法 [岡崎ら(2007)] という表現から同義語を抽出 • 国語辞典からの類義表現抽出とSYNGRAPHデータ構造 による柔軟マッチング [大西ら(2006)] から[アイス,アイスクリーム]の同義語対を抽出 →
高精度で語句対を抽出しているが,新聞や辞書を コーパスとしているため,新語や俗語に弱い ②
提案手法 新語や俗語など頻度の低い語について ◦更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) 高い適合率を達成するためにリダイレクトページと エントリページの関係を利用する Step1 前処理による文の整形を行う Step2
語彙統語パターン(同義とみなせる表現)を 整形後の文章と照合する ③
Step1 前処理 エントリ名:マテガイ,リダイレクト名:馬刀貝 ④
Step2 語彙統語パターン 1)名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する 2)文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する
3)括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 ⑤
評価実験 エントリ-リダイレクト対から2,000件を無作為に抽出 人手で以下の4種類に同義関係を分類 前処理を施した後,同義判定を行った 同義関係種類 語句対数 エントリ―リダイレクト対例 同義異語句対 373 広島城―鯉城
略語対 533 神一ダム―神通川第一ダム 同義異表記対 574 浅葱色 あさぎ色 非同義対 520 灰汁―あく抜き ⑥
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) ⑦
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) 406,835件のエントリ-リダイレクト対から 36,068語句対を抽出 ⑦
考察:再現率について エントリ名に対応するリダイレクト名が文中に存在し なかった 異表記対や略語対は文字列が似ているため 本文中で説明されづらい 再現率の向上には, 語彙統語パターンの拡張 Webページやスニペッドなど Wikipedia以外の語彙資源を用いる ⑧
考察:誤り解析 • 本手法で抽出した161対の内, 10対が非同義語句対 • 限定をあらわす表現 「特に・・・なものは[redirect]と呼ばれる」 「・・・を除いて[redirect]と呼ばれる」 「単に・・・という場合は[redirect]を指すことが 多い」
⑨
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対 2,000件の同義抽出を行った →適合率 92.1%,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出 •
表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには 語彙統語パターンの拡張 Wikipedia以外の語彙資源の活用 ⑩
ご清聴 ありがとうございました
リダイレクトページとエントリページの関係 エントリページへ転送するページをリダイレクトページと呼ぶ このリンクは意味の近い語同士で結ばれているが, 同義ではない語句対も存在する
前処理 •エントリページ本文の 第1節見出しより下の文章を削除 •エントリ名,'''エントリ名''',「エントリ名」を 囲み記号ごと[entry]に置換 •リダイレクト名も同様に記号ごと[redirect]置換 •[entry],[redirect]以外の文字列が 上記の記号で囲われていたら[other]に置換 •並列表現{および|または|もしくは|や}を 読点{、}に置換
•小括弧( )で囲われた部分を抜き出し 別の一文にする
実験結果 正しく抽出できたエントリ名-リダイレクト名の例 パターン エントリ名-リダイレクト名 語彙統語パターンに照合した文 名詞 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので '''ネズモドキ'''の別名もある 名詞
静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、静岡県警と 略称する 文末 脇町南町-うだつの町並み '''うだつの町並み'''と呼ばれることもある 文末 モンズーン-モンスン '''モンスン'''、'''モンスーン'''などと表記さ れる場合もある 括弧 ポストパンク-Post-punk '''ポストパンク'''(''' Post-punk ''')は・・・、 括弧 ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・
語彙統語パターン 括弧表現を用いたパターン エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合
[entry],[redirect]の置換 パターンエントリ名,リダイレクト名を[entry],[redirect]に 置き換えるのは直前の並列表現を抽出しやすくするた め エントリ名が「巨人の星」といった語句だと、 名詞、記号列の連続に「の(助詞)」が含まれない
大野-スライド.pdf