Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
Search
自然言語処理研究室
March 31, 2011
Research
0
220
Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出
大野 潤一. Wikipediaのエントリ-リダイレクト関係を対象にした同義関係抽出. 長岡技術科学大学課題研究報告書 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
97
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
1
200
まずはここから:Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境
matsui_528
2
480
最適化と機械学習による問題解決
mickey_kubo
0
170
一人称視点映像解析の最先端(MIRU2025 チュートリアル)
takumayagi
6
3.4k
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
16
9.9k
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
1.5k
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
760
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
570
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
430
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
200
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
180
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
4k
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Why Our Code Smells
bkeepers
PRO
339
57k
Embracing the Ebb and Flow
colly
87
4.8k
It's Worth the Effort
3n
187
28k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Documentation Writing (for coders)
carmenintech
74
5k
Designing Experiences People Love
moore
142
24k
Typedesign – Prime Four
hannesfritz
42
2.8k
Transcript
Wikipediaのエントリ-リダイレクト 関係を対象にした同義関係抽出 長岡技術科学大学 電気系 山本研究室 06102491 大野 潤一
研究背景 同義語は, 文章の換言や要約など テキスト処理の分野に必要な語彙知識である ①
既存研究 文脈や語句に依存しない手法 • 言い換えが可能な括弧表現の抽出法 [岡崎ら(2007)] という表現から同義語を抽出 • 国語辞典からの類義表現抽出とSYNGRAPHデータ構造 による柔軟マッチング [大西ら(2006)] から[アイス,アイスクリーム]の同義語対を抽出 →
高精度で語句対を抽出しているが,新聞や辞書を コーパスとしているため,新語や俗語に弱い ②
提案手法 新語や俗語など頻度の低い語について ◦更新性の優れるオンライン辞書Wikipediaを用いる (2010年11月2日時点のダンプデータを使用) 高い適合率を達成するためにリダイレクトページと エントリページの関係を利用する Step1 前処理による文の整形を行う Step2
語彙統語パターン(同義とみなせる表現)を 整形後の文章と照合する ③
Step1 前処理 エントリ名:マテガイ,リダイレクト名:馬刀貝 ④
Step2 語彙統語パターン 1)名詞をキーワードとした語彙統語パターン →キーワード前後の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する 2)文末表現をキーワードとしたパターン →キーワードより前の名詞,記号列中に[redirect]が存在した 場合,エントリ名とリダイレクト名を同義と判定する
3)括弧表現を用いたパターン →エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 ⑤
評価実験 エントリ-リダイレクト対から2,000件を無作為に抽出 人手で以下の4種類に同義関係を分類 前処理を施した後,同義判定を行った 同義関係種類 語句対数 エントリ―リダイレクト対例 同義異語句対 373 広島城―鯉城
略語対 533 神一ダム―神通川第一ダム 同義異表記対 574 浅葱色 あさぎ色 非同義対 520 灰汁―あく抜き ⑥
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) ⑦
実験結果 2,000件のエントリ-リダイレクト語句対について 全体の適合率 92.1% (151/164) 各同義語句対の再現率 ※1:(抽出数/文中に[redirect]が存在する語句対数) ※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数) 同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2 同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373) 略語対 28.6% ( 48/168) 9.0% ( 48/ 533) 同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574) 全同義語対 35.8% (151/422) 10.2% (151/1480) 406,835件のエントリ-リダイレクト対から 36,068語句対を抽出 ⑦
考察:再現率について エントリ名に対応するリダイレクト名が文中に存在し なかった 異表記対や略語対は文字列が似ているため 本文中で説明されづらい 再現率の向上には, 語彙統語パターンの拡張 Webページやスニペッドなど Wikipedia以外の語彙資源を用いる ⑧
考察:誤り解析 • 本手法で抽出した161対の内, 10対が非同義語句対 • 限定をあらわす表現 「特に・・・なものは[redirect]と呼ばれる」 「・・・を除いて[redirect]と呼ばれる」 「単に・・・という場合は[redirect]を指すことが 多い」
⑨
結論 • 3種類の語彙統語パターンを用いて 前処理を施したエントリ-リダイレクト語句対 2,000件の同義抽出を行った →適合率 92.1%,全体の再現率 10.2% →全エントリ-リダイレクト対から36,068件抽出 •
表層の異なる同義異語句対が抽出されやすい • より多くの同義語句対を抽出するには 語彙統語パターンの拡張 Wikipedia以外の語彙資源の活用 ⑩
ご清聴 ありがとうございました
リダイレクトページとエントリページの関係 エントリページへ転送するページをリダイレクトページと呼ぶ このリンクは意味の近い語同士で結ばれているが, 同義ではない語句対も存在する
前処理 •エントリページ本文の 第1節見出しより下の文章を削除 •エントリ名,'''エントリ名''',「エントリ名」を 囲み記号ごと[entry]に置換 •リダイレクト名も同様に記号ごと[redirect]置換 •[entry],[redirect]以外の文字列が 上記の記号で囲われていたら[other]に置換 •並列表現{および|または|もしくは|や}を 読点{、}に置換
•小括弧( )で囲われた部分を抜き出し 別の一文にする
実験結果 正しく抽出できたエントリ名-リダイレクト名の例 パターン エントリ名-リダイレクト名 語彙統語パターンに照合した文 名詞 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので '''ネズモドキ'''の別名もある 名詞
静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、静岡県警と 略称する 文末 脇町南町-うだつの町並み '''うだつの町並み'''と呼ばれることもある 文末 モンズーン-モンスン '''モンスン'''、'''モンスーン'''などと表記さ れる場合もある 括弧 ポストパンク-Post-punk '''ポストパンク'''(''' Post-punk ''')は・・・、 括弧 ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・
語彙統語パターン 括弧表現を用いたパターン エントリ本文内での小括弧( )に対して行う処理 括弧内に[redirect]が存在したら同義と判定 例) ( )内に[redirect](林檎酸)が存在した場合
[entry],[redirect]の置換 パターンエントリ名,リダイレクト名を[entry],[redirect]に 置き換えるのは直前の並列表現を抽出しやすくするた め エントリ名が「巨人の星」といった語句だと、 名詞、記号列の連続に「の(助詞)」が含まれない
大野-スライド.pdf