Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
Search
自然言語処理研究室
March 31, 2011
Research
0
120
Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出
大野 潤一, 柴木 優美, 山本 和英. Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出. 言語処理学会第17回年次大会, pp.296-299 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
64
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
10-ot-generic-bio.pdf
gpeyre
0
120
Deep State Space Models 101 / Mamba
kurita
9
3.4k
自己教師あり学習による事前学習(CVIMチュートリアル)
naok615
2
1.3k
サウナでのプロジェクションマッピングの可能性の検討 / EC71koizumi
yumulab
0
140
CVPR2023 EarthVision Workshopより衛星画像関連論文紹介 / Satellite Imaging Processing Papers in CVPR2023 EarthVision Workshop
nttcom
0
110
精神疾患患者のアクティビティデータを利用したリハビリテーションのためのシステムに関する研究
comfortdesignlab
0
140
How to Perform Manual Classification for Deep Learning Using CloudCompare
kentaitakura
0
570
「EBPMエコシステム」の可能性
daimoriwaki
0
200
DeepCrysTet: A Deep Learning Approach Using Tetrahedral Mesh for Predicting Properties of Crystalline Materials
tsurubee
0
360
説明可能AI:代表的手法と最近の動向
yuyay
1
570
Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical
nttcom
0
110
株式会社リクルートホールディングス 企業分析
frandle256
0
130
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
130
6.2k
Typedesign – Prime Four
hannesfritz
36
2k
A better future with KSS
kneath
230
16k
Navigating Team Friction
lara
177
13k
The Cost Of JavaScript in 2023
addyosmani
13
3.8k
Into the Great Unknown - MozCon
thekraken
10
980
Building Adaptive Systems
keathley
29
1.8k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
124
32k
The Language of Interfaces
destraynor
151
23k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
20
1.6k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
319
20k
Bash Introduction
62gerente
604
210k
Transcript
Wikipediaのエントリ-リダイレクト関係を 対象にした同義関係抽出 長岡技術科学大学 大野 潤一,柴木 優美,山本 和英 ①
• Wikipediaのエントリ名とリダイレクト名は 同義関係を持つ語対が多く存在する • 同義語はテキスト処理の分野に必要な語彙知識 →新語や造語をはじめとした 文字列の異なる語対についても 高精度で判別することが望ましい 研究背景 ②
同義: 【スパゲッティー ← スパゲティ】 【狙撃手 ← スナイパー】 【微分積分学 ← 微積分】 非同義: 【遺骨 ← 分骨】 【倫理学 ← 倫理学者】 【椅子 ← カウチソファー】
提案手法 本手法では, • 新語や俗語など頻度の低い語について ◦ 更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) • 高い適合率を達成するために ◦
同義語句対の候補に エントリページとリダイレクトページの関係を利用 ◦ 前処理;文の整形を行う ◦ 語彙統語パターン;収集,拡張を行い文章と照合 ③
前処理:ルール ④ 前処理前の原文 前処理後の文字列 [entry] [redirect] [other] エントリ名, '''エントリ名''',「エントリ名」 リダイレクト名,
'''リダイレクト名''',「リダイレクト名」 エントリ名,リダイレクト名以外の '''文字列''',「文字列」 並列表現 {および|または|もしくは|や} 、 (読点) 小括弧( )内の文字列 (別の一文に抜き出す) 第2節見出し語以下の文章 (削除)
前処理:実例 エントリ名:新潟市歴史博物館,リダイレクト名:みなとぴあ ⑤ '''新潟市歴史博物館''' (にいがたし・れきしはくぶつかん)は、 [[新潟市]][[中央区 (新潟市)|中央区]]にある [[博物館]]。 愛称「'''みなとぴあ'''」。 ==沿革==
[[1972年]]、「新潟市郷土資料館」として 開館。この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された。 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称。 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから「みなとぴあ」の愛称が、 一般公募によって命名された。 ==施設== ===博物館本館=== [entry]は、[[新潟市]][[中央区 (新潟市)| 中央区]]にある[[博物館]] 愛称[redirect] ==沿革== [[1972年]]、[other]として開館 この間、[[1982年]]には本館に隣接 して石庫が復元され、横を通る市道には、 かつて新潟市中心部に張り巡らされていた 堀も再現された 郷土資料館としては[[2003年]]に一旦閉館 し、新築・改装など工事が行われた後、 [[2004年]][[3月27日]]、新たに建設された 博物館本館と、移設・復元された旧第四銀行 住吉町支店の公開を開始し、現名称に改称 [[信濃川]]・[[新潟港|新潟西港]]に面する ロケーションから[redirect]の愛称が、 一般公募によって命名された にいがたし・れきしはくぶつかん (第2節見出し以降は削除) 前処理
語彙統語パターン (1) • 名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「名称」の後に[redirect](サガルマータ)が存在した場合 ⑥ 自称,名称,異称,愛称,和訳,改名,省略,表記, 元の用字,同等の意味,ニックネーム,ペンネーム,・・・
語彙統語パターン (2) • 文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が 存在した場合,エントリ名とリダイレクト名を同義と判定 例) 「呼ばれる」の前に[redirect](恐水病)が存在した場合 ⑦ 呼ばれる,称する,略され,表現が用いられ,とも言う,・・・
語彙統語パターン (3) • 括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合 ⑧
評価実験 • エントリ-リダイレクト対から2,000件を無作為に抽出 • 人手で以下の4種類に同義関係を分類 例)分類した語句対数とその対例 ※:上3種類に含まれなかった語句対 同義関係種類 語句対数 エントリ-リダイレクト対例
同義異語句対 373 広島城 - 鯉城 略語対 533 神一ダム - 神通川第一ダム 同義異表記対 574 浅葱色 - あさぎ色 非同義対※ 520 灰汁 - あく抜き ⑨
実験結果:適合率と再現率 2,000件のエントリ-リダイレクト語句対について • 全体の適合率 92.1% (151/164) • 各同義語句対の再現率 ※1:抽出数/[redirect]が存在しない語句対も合わせた全対数 ※2:抽出数/文中に[redirect]が存在する語句対数
⑩ 同義関係種類 ペア全体の再現率※1 ペアを限定した再現率※2 同義異語句対 13.9% ( 52/ 373) 41.3% ( 52/126) 略語対 9.0% ( 48/ 533) 28.6% ( 48/168) 同義異表記対 8.9% ( 51/ 574) 39.8% ( 51/128) 全同義語対 10.2% (151/1480) 35.8% (151/422)
実験結果:抽出例 正しく抽出できたエントリ名-リダイレクト名と照合した文 パターン 語彙統語パターンに照合した文 名詞 文末 括弧 エントリ名-リダイレクト名 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので
'''ネズモドキ'''の別名もある 静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、 静岡県警と略称する 脇町南町-うだつの町並み '''うだつの町並み'''と 呼ばれることもある モンズーン-モンスン ''モンスン'''、'''モンスーン'''などと 表記される場合もある ポストパンク-Post-punk ''ポストパンク'''(''' Post-punk ''' )は・・・ ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・ ⑪
考察:提案手法について ペア全体における再現率の低さ • 最大の要因はエントリ名に対応するリダイレクト名が 文中に存在しなかったこと ◦ 異表記対や略語対は文字列が似ているため 本文中で説明がされづらい ◦ 同義判定ができる条件に限定した場合,
再現率は10.2%から35.8%まで向上する • 再現率の向上には, ◦ 語彙統語パターンの拡張 ◦ スニペッドやWebページなど Wikipedia以外の語彙資源を用いる ⑫
考察:誤り解析 抽出した161対の内,10対が非同義語句対 • 限定をあらわす表現 ◦ 「特に・・・なものは[redirect]と呼ばれる」 ◦ 「・・・を除いて[redirect]と呼ばれる」 ◦ 「単に・・・という場合は[redirect]を指すことが多い」
• 限定の表現がない場合でも, エントリの一部について説明している文が残存 →前処理で削除しきれていない ⑬
考察:既存語彙資源との比較 • Wikipediaの全エントリ-リダイレクト対について →406,835件から36,068件の同義語句対が抽出 →全対に対しての再現率は 8.9% • 日本語WordNetと重複した語句対は1,172件 →全エントリ-リダイレクト対の3.2%が重複 などの普通名詞が多く存在
⑭ セキレイ- 鶺鴒,領収書 - レシート
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対2,000件の 同義抽出を行った →適合率 92.1% ,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出
• 表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには o 語彙統語パターンの拡張 o Wikipedia以外の語彙資源の活用 ⑮