Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
Search
自然言語処理研究室
March 31, 2011
Research
0
180
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
大野 潤一, 柴木 優美, 山本 和英. Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出. 言語処理学会第17回年次大会, pp.296-299 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
20250502_ABEJA_論文読み会_スライド
flatton
0
170
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
chemical_tree
2
610
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
530
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
250
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
260
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
110
数理最適化に基づく制御
mickey_kubo
5
670
Self-supervised audiovisual representation learning for remote sensing data
satai
3
220
Trust No Bot? Forging Confidence in AI for Software Engineering
tomzimmermann
1
240
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
650
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
800
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Embracing the Ebb and Flow
colly
86
4.7k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
How to train your dragon (web standard)
notwaldorf
94
6.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.8k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Raft: Consensus for Rubyists
vanstee
140
7k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Transcript
Wikipediaのエントリ-リダイレクト関係を 対象にした同義関係抽出 長岡技術科学大学 大野 潤一,柴木 優美,山本 和英 ①
• Wikipediaのエントリ名とリダイレクト名は 同義関係を持つ語対が多く存在する • 同義語はテキスト処理の分野に必要な語彙知識 →新語や造語をはじめとした 文字列の異なる語対についても 高精度で判別することが望ましい 研究背景 ②
同義: 【スパゲッティー ← スパゲティ】 【狙撃手 ← スナイパー】 【微分積分学 ← 微積分】 非同義: 【遺骨 ← 分骨】 【倫理学 ← 倫理学者】 【椅子 ← カウチソファー】
提案手法 本手法では, • 新語や俗語など頻度の低い語について ◦ 更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) • 高い適合率を達成するために ◦
同義語句対の候補に エントリページとリダイレクトページの関係を利用 ◦ 前処理;文の整形を行う ◦ 語彙統語パターン;収集,拡張を行い文章と照合 ③
前処理:ルール ④ 前処理前の原文 前処理後の文字列 [entry] [redirect] [other] エントリ名, '''エントリ名''',「エントリ名」 リダイレクト名,
'''リダイレクト名''',「リダイレクト名」 エントリ名,リダイレクト名以外の '''文字列''',「文字列」 並列表現 {および|または|もしくは|や} 、 (読点) 小括弧( )内の文字列 (別の一文に抜き出す) 第2節見出し語以下の文章 (削除)
前処理:実例 エントリ名:新潟市歴史博物館,リダイレクト名:みなとぴあ ⑤ '''新潟市歴史博物館''' (にいがたし・れきしはくぶつかん)は、 [[新潟市]][[中央区 (新潟市)|中央区]]にある [[博物館]]。 愛称「'''みなとぴあ'''」。 ==沿革==
[[1972年]]、「新潟市郷土資料館」として 開館。この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された。 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称。 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから「みなとぴあ」の愛称が、 一般公募によって命名された。 ==施設== ===博物館本館=== [entry]は、[[新潟市]][[中央区 (新潟市)| 中央区]]にある[[博物館]] 愛称[redirect] ==沿革== [[1972年]]、[other]として開館 この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから[redirect]の愛称が、 一般公募によって命名された にいがたし・れきしはくぶつかん (第2節見出し以降は削除) 前処理
語彙統語パターン (1) • 名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「名称」の後に[redirect](サガルマータ)が存在した場合 ⑥ 自称,名称,異称,愛称,和訳,改名,省略,表記, 元の用字,同等の意味,ニックネーム,ペンネーム,・・・
語彙統語パターン (2) • 文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「呼ばれる」の前に[redirect](恐水病)が存在した場合 ⑦ 呼ばれる,称する,略され,表現が用いられ,とも言う,・・・
語彙統語パターン (3) • 括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合 ⑧
評価実験 • エントリ-リダイレクト対から2,000件を無作為に抽出 • 人手で以下の4種類に同義関係を分類 例)分類した語句対数とその対例 ※:上3種類に含まれなかった語句対 同義関係種類 語句対数 エントリ-リダイレクト対例
同義異語句対 373 広島城 - 鯉城 略語対 533 神一ダム - 神通川第一ダム 同義異表記対 574 浅葱色 - あさぎ色 非同義対※ 520 灰汁 - あく抜き ⑨
実験結果:適合率と再現率 2,000件のエントリ-リダイレクト語句対について • 全体の適合率 92.1% (151/164) • 各同義語句対の再現率 ※1:抽出数/[redirect]が存在しない語句対も合わせた全対数 ※2:抽出数/文中に[redirect]が存在する語句対数
⑩ 同義関係種類 ペア全体の再現率※1 ペアを限定した再現率※2 同義異語句対 13.9% ( 52/ 373) 41.3% ( 52/126) 略語対 9.0% ( 48/ 533) 28.6% ( 48/168) 同義異表記対 8.9% ( 51/ 574) 39.8% ( 51/128) 全同義語対 10.2% (151/1480) 35.8% (151/422)
実験結果:抽出例 正しく抽出できたエントリ名-リダイレクト名と照合した文 パターン 語彙統語パターンに照合した文 名詞 文末 括弧 エントリ名-リダイレクト名 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので
'''ネズモドキ'''の別名もある 静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、 静岡県警と略称する 脇町南町-うだつの町並み '''うだつの町並み'''と 呼ばれることもある モンズーン-モンスン ''モンスン'''、'''モンスーン'''などと 表記される場合もある ポストパンク-Post-punk ''ポストパンク'''(''' Post-punk ''' )は・・・ ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・ ⑪
考察:提案手法について ペア全体における再現率の低さ • 最大の要因はエントリ名に対応するリダイレクト名が 文中に存在しなかったこと ◦ 異表記対や略語対は文字列が似ているため 本文中で説明がされづらい ◦ 同義判定ができる条件に限定した場合,
再現率は10.2%から35.8%まで向上する • 再現率の向上には, ◦ 語彙統語パターンの拡張 ◦ スニペッドやWebページなど Wikipedia以外の語彙資源を用いる ⑫
考察:誤り解析 抽出した161対の内,10対が非同義語句対 • 限定をあらわす表現 ◦ 「特に・・・なものは[redirect]と呼ばれる」 ◦ 「・・・を除いて[redirect]と呼ばれる」 ◦ 「単に・・・という場合は[redirect]を指すことが多い」
• 限定の表現がない場合でも, エントリの一部について説明している文が残存 →前処理で削除しきれていない ⑬
考察:既存語彙資源との比較 • Wikipediaの全エントリ-リダイレクト対について →406,835件から36,068件の同義語句対が抽出 →全対に対しての再現率は 8.9% • 日本語WordNetと重複した語句対は1,172件 →全エントリ-リダイレクト対の3.2%が重複 などの普通名詞が多く存在
⑭ セキレイ- 鶺鴒,領収書 - レシート
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対2,000件の 同義抽出を行った →適合率 92.1% ,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出
• 表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには o 語彙統語パターンの拡張 o Wikipedia以外の語彙資源の活用 ⑮