Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
Search
自然言語処理研究室
March 31, 2011
Research
0
220
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
大野 潤一. Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出. 長岡技術科学大学課題研究報告書 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
510
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
650
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
1.1k
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
0
140
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
280
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
160
財務諸表監査のための逐次検定
masakat0
0
220
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
300
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
160
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
290
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.3k
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
2.7k
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
Getting science done with accelerated Python computing platforms
jacobtomlinson
0
85
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
96
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
34
The World Runs on Bad Software
bkeepers
PRO
72
12k
Become a Pro
speakerdeck
PRO
31
5.8k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
370
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
27
Transcript
Wikipediaのエントリ-リダイレクト 関係を対象にした同義関係抽出 長岡技術科学大学 電気系 山本研究室 06102491 大野 潤一
研究背景 同義語は, 文章の換言や要約など テキスト処理の分野に必要な語彙知識である ①
既存研究 文脈や語句に依存しない手法 • 言い換えが可能な括弧表現の抽出法 [岡崎ら(2007)] という表現から同義語を抽出 • 国語辞典からの類義表現抽出とSYNGRAPHデータ構造 による柔軟マッチング [大西ら(2006)] から[アイス,アイスクリーム]の同義語対を抽出 →
高精度で語句対を抽出しているが,新聞や辞書を コーパスとしているため,新語や俗語に弱い ②
提案手法 新語や俗語など頻度の低い語について ◦更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) 高い適合率を達成するためにリダイレクトページと エントリページの関係を利用する Step1 前処理による文の整形を行う Step2
語彙統語パターン(同義とみなせる表現)を 整形後の文章と照合する ③
Step1 前処理 エントリ名:マテガイ,リダイレクト名:馬刀貝 ④
Step2 語彙統語パターン 1)名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する 2)文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する
3)括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 ⑤
評価実験 エントリ-リダイレクト対から2,000件を無作為に抽出 人手で以下の4種類に同義関係を分類 前処理を施した後,同義判定を行った 同義関係種類 語句対数 エントリ―リダイレクト対例 同義異語句対 373 広島城―鯉城
略語対 533 神一ダム―神通川第一ダム 同義異表記対 574 浅葱色 あさぎ色 非同義対 520 灰汁―あく抜き ⑥
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) ⑦
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) 406,835件のエントリ-リダイレクト対から 36,068語句対を抽出 ⑦
考察:再現率について エントリ名に対応するリダイレクト名が文中に存在し なかった 異表記対や略語対は文字列が似ているため 本文中で説明されづらい 再現率の向上には, 語彙統語パターンの拡張 Webページやスニペッドなど Wikipedia以外の語彙資源を用いる ⑧
考察:誤り解析 • 本手法で抽出した161対の内, 10対が非同義語句対 • 限定をあらわす表現 「特に・・・なものは[redirect]と呼ばれる」 「・・・を除いて[redirect]と呼ばれる」 「単に・・・という場合は[redirect]を指すことが 多い」
⑨
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対 2,000件の同義抽出を行った →適合率 92.1%,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出 •
表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには 語彙統語パターンの拡張 Wikipedia以外の語彙資源の活用 ⑩
ご清聴 ありがとうございました
リダイレクトページとエントリページの関係 エントリページへ転送するページをリダイレクトページと呼ぶ このリンクは意味の近い語同士で結ばれているが, 同義ではない語句対も存在する
前処理 •エントリページ本文の 第1節見出しより下の文章を削除 •エントリ名,'''エントリ名''',「エントリ名」を 囲み記号ごと[entry]に置換 •リダイレクト名も同様に記号ごと[redirect]置換 •[entry],[redirect]以外の文字列が 上記の記号で囲われていたら[other]に置換 •並列表現{および|または|もしくは|や}を 読点{、}に置換
•小括弧( )で囲われた部分を抜き出し 別の一文にする
実験結果 正しく抽出できたエントリ名-リダイレクト名の例 パターン エントリ名-リダイレクト名 語彙統語パターンに照合した文 名詞 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので '''ネズモドキ'''の別名もある 名詞
静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、静岡県警と 略称する 文末 脇町南町-うだつの町並み '''うだつの町並み'''と呼ばれることもある 文末 モンズーン-モンスン '''モンスン'''、'''モンスーン'''などと表記さ れる場合もある 括弧 ポストパンク-Post-punk '''ポストパンク'''(''' Post-punk ''')は・・・、 括弧 ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・
語彙統語パターン 括弧表現を用いたパターン エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合
[entry],[redirect]の置換 パターンエントリ名,リダイレクト名を[entry],[redirect]に 置き換えるのは直前の並列表現を抽出しやすくするた め エントリ名が「巨人の星」といった語句だと、 名詞、記号列の連続に「の(助詞)」が含まれない
大野-スライド.pdf