Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
Search
自然言語処理研究室
March 31, 2011
Research
0
180
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
大野 潤一, 柴木 優美, 山本 和英. Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出. 言語処理学会第17回年次大会, pp.296-299 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
95
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
980
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
200
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
3k
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
230
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
210
20250725-bet-ai-day
cipepser
2
340
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
24
17k
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
310
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
640
電力システム最適化入門
mickey_kubo
1
780
データサイエンティストの就労意識~2015→2024 一般(個人)会員アンケートより
datascientistsociety
PRO
0
800
20250502_ABEJA_論文読み会_スライド
flatton
0
180
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.6k
Code Review Best Practice
trishagee
69
19k
Documentation Writing (for coders)
carmenintech
73
5k
A Modern Web Designer's Workflow
chriscoyier
695
190k
Designing for humans not robots
tammielis
253
25k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
KATA
mclloyd
31
14k
Transcript
Wikipediaのエントリ-リダイレクト関係を 対象にした同義関係抽出 長岡技術科学大学 大野 潤一,柴木 優美,山本 和英 ①
• Wikipediaのエントリ名とリダイレクト名は 同義関係を持つ語対が多く存在する • 同義語はテキスト処理の分野に必要な語彙知識 →新語や造語をはじめとした 文字列の異なる語対についても 高精度で判別することが望ましい 研究背景 ②
同義: 【スパゲッティー ← スパゲティ】 【狙撃手 ← スナイパー】 【微分積分学 ← 微積分】 非同義: 【遺骨 ← 分骨】 【倫理学 ← 倫理学者】 【椅子 ← カウチソファー】
提案手法 本手法では, • 新語や俗語など頻度の低い語について ◦ 更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) • 高い適合率を達成するために ◦
同義語句対の候補に エントリページとリダイレクトページの関係を利用 ◦ 前処理;文の整形を行う ◦ 語彙統語パターン;収集,拡張を行い文章と照合 ③
前処理:ルール ④ 前処理前の原文 前処理後の文字列 [entry] [redirect] [other] エントリ名, '''エントリ名''',「エントリ名」 リダイレクト名,
'''リダイレクト名''',「リダイレクト名」 エントリ名,リダイレクト名以外の '''文字列''',「文字列」 並列表現 {および|または|もしくは|や} 、 (読点) 小括弧( )内の文字列 (別の一文に抜き出す) 第2節見出し語以下の文章 (削除)
前処理:実例 エントリ名:新潟市歴史博物館,リダイレクト名:みなとぴあ ⑤ '''新潟市歴史博物館''' (にいがたし・れきしはくぶつかん)は、 [[新潟市]][[中央区 (新潟市)|中央区]]にある [[博物館]]。 愛称「'''みなとぴあ'''」。 ==沿革==
[[1972年]]、「新潟市郷土資料館」として 開館。この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された。 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称。 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから「みなとぴあ」の愛称が、 一般公募によって命名された。 ==施設== ===博物館本館=== [entry]は、[[新潟市]][[中央区 (新潟市)| 中央区]]にある[[博物館]] 愛称[redirect] ==沿革== [[1972年]]、[other]として開館 この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから[redirect]の愛称が、 一般公募によって命名された にいがたし・れきしはくぶつかん (第2節見出し以降は削除) 前処理
語彙統語パターン (1) • 名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「名称」の後に[redirect](サガルマータ)が存在した場合 ⑥ 自称,名称,異称,愛称,和訳,改名,省略,表記, 元の用字,同等の意味,ニックネーム,ペンネーム,・・・
語彙統語パターン (2) • 文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「呼ばれる」の前に[redirect](恐水病)が存在した場合 ⑦ 呼ばれる,称する,略され,表現が用いられ,とも言う,・・・
語彙統語パターン (3) • 括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合 ⑧
評価実験 • エントリ-リダイレクト対から2,000件を無作為に抽出 • 人手で以下の4種類に同義関係を分類 例)分類した語句対数とその対例 ※:上3種類に含まれなかった語句対 同義関係種類 語句対数 エントリ-リダイレクト対例
同義異語句対 373 広島城 - 鯉城 略語対 533 神一ダム - 神通川第一ダム 同義異表記対 574 浅葱色 - あさぎ色 非同義対※ 520 灰汁 - あく抜き ⑨
実験結果:適合率と再現率 2,000件のエントリ-リダイレクト語句対について • 全体の適合率 92.1% (151/164) • 各同義語句対の再現率 ※1:抽出数/[redirect]が存在しない語句対も合わせた全対数 ※2:抽出数/文中に[redirect]が存在する語句対数
⑩ 同義関係種類 ペア全体の再現率※1 ペアを限定した再現率※2 同義異語句対 13.9% ( 52/ 373) 41.3% ( 52/126) 略語対 9.0% ( 48/ 533) 28.6% ( 48/168) 同義異表記対 8.9% ( 51/ 574) 39.8% ( 51/128) 全同義語対 10.2% (151/1480) 35.8% (151/422)
実験結果:抽出例 正しく抽出できたエントリ名-リダイレクト名と照合した文 パターン 語彙統語パターンに照合した文 名詞 文末 括弧 エントリ名-リダイレクト名 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので
'''ネズモドキ'''の別名もある 静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、 静岡県警と略称する 脇町南町-うだつの町並み '''うだつの町並み'''と 呼ばれることもある モンズーン-モンスン ''モンスン'''、'''モンスーン'''などと 表記される場合もある ポストパンク-Post-punk ''ポストパンク'''(''' Post-punk ''' )は・・・ ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・ ⑪
考察:提案手法について ペア全体における再現率の低さ • 最大の要因はエントリ名に対応するリダイレクト名が 文中に存在しなかったこと ◦ 異表記対や略語対は文字列が似ているため 本文中で説明がされづらい ◦ 同義判定ができる条件に限定した場合,
再現率は10.2%から35.8%まで向上する • 再現率の向上には, ◦ 語彙統語パターンの拡張 ◦ スニペッドやWebページなど Wikipedia以外の語彙資源を用いる ⑫
考察:誤り解析 抽出した161対の内,10対が非同義語句対 • 限定をあらわす表現 ◦ 「特に・・・なものは[redirect]と呼ばれる」 ◦ 「・・・を除いて[redirect]と呼ばれる」 ◦ 「単に・・・という場合は[redirect]を指すことが多い」
• 限定の表現がない場合でも, エントリの一部について説明している文が残存 →前処理で削除しきれていない ⑬
考察:既存語彙資源との比較 • Wikipediaの全エントリ-リダイレクト対について →406,835件から36,068件の同義語句対が抽出 →全対に対しての再現率は 8.9% • 日本語WordNetと重複した語句対は1,172件 →全エントリ-リダイレクト対の3.2%が重複 などの普通名詞が多く存在
⑭ セキレイ- 鶺鴒,領収書 - レシート
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対2,000件の 同義抽出を行った →適合率 92.1% ,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出
• 表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには o 語彙統語パターンの拡張 o Wikipedia以外の語彙資源の活用 ⑮