Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2011
Research
0
180
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
大野 潤一, 柴木 優美, 山本 和英. Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出. 言語処理学会第17回年次大会, pp.296-299 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
When Learned Data Structures Meet Computer Vision
matsui_528
1
3.9k
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability
yuukit
1
730
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
240
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
610
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
470
Grounding Text Complexity Control in Defined Linguistic Difficulty [Keynote@*SEM2025]
yukiar
0
130
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
160
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
170
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3.3k
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
260
20年前に50代だった人たちの今
hysmrk
0
160
LLMアプリケーションの透明性について
fufufukakaka
0
190
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
77
5.3k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
67
37k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.4k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
240
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
980
Balancing Empowerment & Direction
lara
5
940
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
400
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
WCS-LA-2024
lcolladotor
0
480
The SEO identity crisis: Don't let AI make you average
varn
0
410
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
Transcript
Wikipediaのエントリ-リダイレクト関係を 対象にした同義関係抽出 長岡技術科学大学 大野 潤一,柴木 優美,山本 和英 ①
• Wikipediaのエントリ名とリダイレクト名は 同義関係を持つ語対が多く存在する • 同義語はテキスト処理の分野に必要な語彙知識 →新語や造語をはじめとした 文字列の異なる語対についても 高精度で判別することが望ましい 研究背景 ②
同義: 【スパゲッティー ← スパゲティ】 【狙撃手 ← スナイパー】 【微分積分学 ← 微積分】 非同義: 【遺骨 ← 分骨】 【倫理学 ← 倫理学者】 【椅子 ← カウチソファー】
提案手法 本手法では, • 新語や俗語など頻度の低い語について ◦ 更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) • 高い適合率を達成するために ◦
同義語句対の候補に エントリページとリダイレクトページの関係を利用 ◦ 前処理;文の整形を行う ◦ 語彙統語パターン;収集,拡張を行い文章と照合 ③
前処理:ルール ④ 前処理前の原文 前処理後の文字列 [entry] [redirect] [other] エントリ名, '''エントリ名''',「エントリ名」 リダイレクト名,
'''リダイレクト名''',「リダイレクト名」 エントリ名,リダイレクト名以外の '''文字列''',「文字列」 並列表現 {および|または|もしくは|や} 、 (読点) 小括弧( )内の文字列 (別の一文に抜き出す) 第2節見出し語以下の文章 (削除)
前処理:実例 エントリ名:新潟市歴史博物館,リダイレクト名:みなとぴあ ⑤ '''新潟市歴史博物館''' (にいがたし・れきしはくぶつかん)は、 [[新潟市]][[中央区 (新潟市)|中央区]]にある [[博物館]]。 愛称「'''みなとぴあ'''」。 ==沿革==
[[1972年]]、「新潟市郷土資料館」として 開館。この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された。 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称。 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから「みなとぴあ」の愛称が、 一般公募によって命名された。 ==施設== ===博物館本館=== [entry]は、[[新潟市]][[中央区 (新潟市)| 中央区]]にある[[博物館]] 愛称[redirect] ==沿革== [[1972年]]、[other]として開館 この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから[redirect]の愛称が、 一般公募によって命名された にいがたし・れきしはくぶつかん (第2節見出し以降は削除) 前処理
語彙統語パターン (1) • 名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「名称」の後に[redirect](サガルマータ)が存在した場合 ⑥ 自称,名称,異称,愛称,和訳,改名,省略,表記, 元の用字,同等の意味,ニックネーム,ペンネーム,・・・
語彙統語パターン (2) • 文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「呼ばれる」の前に[redirect](恐水病)が存在した場合 ⑦ 呼ばれる,称する,略され,表現が用いられ,とも言う,・・・
語彙統語パターン (3) • 括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合 ⑧
評価実験 • エントリ-リダイレクト対から2,000件を無作為に抽出 • 人手で以下の4種類に同義関係を分類 例)分類した語句対数とその対例 ※:上3種類に含まれなかった語句対 同義関係種類 語句対数 エントリ-リダイレクト対例
同義異語句対 373 広島城 - 鯉城 略語対 533 神一ダム - 神通川第一ダム 同義異表記対 574 浅葱色 - あさぎ色 非同義対※ 520 灰汁 - あく抜き ⑨
実験結果:適合率と再現率 2,000件のエントリ-リダイレクト語句対について • 全体の適合率 92.1% (151/164) • 各同義語句対の再現率 ※1:抽出数/[redirect]が存在しない語句対も合わせた全対数 ※2:抽出数/文中に[redirect]が存在する語句対数
⑩ 同義関係種類 ペア全体の再現率※1 ペアを限定した再現率※2 同義異語句対 13.9% ( 52/ 373) 41.3% ( 52/126) 略語対 9.0% ( 48/ 533) 28.6% ( 48/168) 同義異表記対 8.9% ( 51/ 574) 39.8% ( 51/128) 全同義語対 10.2% (151/1480) 35.8% (151/422)
実験結果:抽出例 正しく抽出できたエントリ名-リダイレクト名と照合した文 パターン 語彙統語パターンに照合した文 名詞 文末 括弧 エントリ名-リダイレクト名 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので
'''ネズモドキ'''の別名もある 静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、 静岡県警と略称する 脇町南町-うだつの町並み '''うだつの町並み'''と 呼ばれることもある モンズーン-モンスン ''モンスン'''、'''モンスーン'''などと 表記される場合もある ポストパンク-Post-punk ''ポストパンク'''(''' Post-punk ''' )は・・・ ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・ ⑪
考察:提案手法について ペア全体における再現率の低さ • 最大の要因はエントリ名に対応するリダイレクト名が 文中に存在しなかったこと ◦ 異表記対や略語対は文字列が似ているため 本文中で説明がされづらい ◦ 同義判定ができる条件に限定した場合,
再現率は10.2%から35.8%まで向上する • 再現率の向上には, ◦ 語彙統語パターンの拡張 ◦ スニペッドやWebページなど Wikipedia以外の語彙資源を用いる ⑫
考察:誤り解析 抽出した161対の内,10対が非同義語句対 • 限定をあらわす表現 ◦ 「特に・・・なものは[redirect]と呼ばれる」 ◦ 「・・・を除いて[redirect]と呼ばれる」 ◦ 「単に・・・という場合は[redirect]を指すことが多い」
• 限定の表現がない場合でも, エントリの一部について説明している文が残存 →前処理で削除しきれていない ⑬
考察:既存語彙資源との比較 • Wikipediaの全エントリ-リダイレクト対について →406,835件から36,068件の同義語句対が抽出 →全対に対しての再現率は 8.9% • 日本語WordNetと重複した語句対は1,172件 →全エントリ-リダイレクト対の3.2%が重複 などの普通名詞が多く存在
⑭ セキレイ- 鶺鴒,領収書 - レシート
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対2,000件の 同義抽出を行った →適合率 92.1% ,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出
• 表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには o 語彙統語パターンの拡張 o Wikipedia以外の語彙資源の活用 ⑮