Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
Search
Shohei Okada
February 02, 2015
Research
1
340
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
Shohei Okada
February 02, 2015
Tweet
Share
More Decks by Shohei Okada
See All by Shohei Okada
たった 1 枚の PHP ファイルで実装する MCP サーバ / MCP Server with Vanilla PHP
okashoi
1
190
どうして手を動かすよりもチーム内のコードレビューを優先するべきなのか
okashoi
3
1.4k
パスワードのハッシュ、ソルトってなに? - What is hash and salt for password?
okashoi
3
210
設計の考え方 - インターフェースと腐敗防止層編 #phpconfuk / Interface and Anti Corruption Layer
okashoi
11
3.8k
"config" ってなんだ? / What is "config"?
okashoi
0
1.2k
ファイル先頭の use の意味、説明できますか? 〜PHP の namespace と autoloading の関係を正しく理解しよう〜 / namespace and autoloading in php
okashoi
4
1.6k
MySQL のインデックスの種類をおさらいしよう! / overviewing indexes in MySQL
okashoi
0
890
PHP における静的解析(あるいはそもそも静的解析とは) / #phpcondo_yasai static analysis for PHP
okashoi
1
600
【PHPカンファレンス沖縄 2023】素朴で考慮漏れのある PHP コードをテストコードとともに補強していく(ライブコーディング補足資料) / #phpcon_okinawa 2023 livecoding supplementary material
okashoi
3
1.9k
Other Decks in Research
See All in Research
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.1k
2025年度 生成AIの使い方/接し方
hkefka385
1
700
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
320
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
2
370
20250502_ABEJA_論文読み会_スライド
flatton
0
170
NLP2025参加報告会 LT資料
hargon24
1
320
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
220
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
480
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
950
数理最適化と機械学習の融合
mickey_kubo
15
8.8k
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.5k
線形判別分析のPU学習による朝日歌壇短歌の分析
masakat0
0
130
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
670
Measuring & Analyzing Core Web Vitals
bluesmoon
7
490
The Invisible Side of Design
smashingmag
299
51k
Why You Should Never Use an ORM
jnunemaker
PRO
57
9.4k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
The Cost Of JavaScript in 2023
addyosmani
51
8.4k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Designing for humans not robots
tammielis
253
25k
Making Projects Easy
brettharned
116
6.3k
Designing for Performance
lara
609
69k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
5
210
Transcript
文献紹介 2015/02/02 長岡技術科学大学 自然言語処理研究室 岡田 正平
今回の文献紹介の趣旨 • SemEval (SENSEVAL) のWSDタスクについて紹介 – Lexical Sample – All-Words
– Monolingual – Multilingual – Cross-lingual 2015/02/02 文献紹介 2
WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 3 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)
All-Words The English All-Words Task Benjamin Snyder and Martha Palmer
In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 41-43. 2004. 2015/02/02 文献紹介 4
All-Words • 与えられた文中の全内容語をWordNet中の語義に割り当 てる • 構文解析とPOS-tagの情報は与えられる 2015/02/02 文献紹介 5
Test Corpus • Wall Street Journal と Brown Corpus から得られた約
5,000語の内容語を対象 • 作業者2人によるアノテーション後,別の作業者による 確認・修正 – WordNet中に適切な項目がある場合は複合語も可 – 複数語義に割当てることも可(できるだけ避ける) – 「WordNet中に無い」も可 • 最終的に2,211語 2015/02/02 文献紹介 6
Lexical Sample The Senseval-3 English lexical sample task Rada Mihalcea,
Timothy Chklovski and Adam Kilgarriff In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 25-28. 2004. 2015/02/02 文献紹介 7
コーパスの構築 • British National Corpus, Penn Treebank corpus, Los Angeles
Times collection から抽出された文を利用 • 語義目録は WordNet 1.7.1 のものを利用 – ただし動詞は Wordsmyth のものを利用 • SENSEVAL2において動詞に対する性能が低かった ため • 語義の粒度が細かすぎたためと思われる • 対象語は57語(名詞20語,動詞32語,形容詞5語) 2015/02/02 文献紹介 8
コーパスの構築 • Web上のボランティアを利用 – 対象語を含む文をコーパスから抽出 – 作業者に提示し,最も適切な語義を選ばせる • チェックボックによる選択(複数可) •
“unclear”と”none of the above” を選択可 • 他者の回答は表示されない – 2人の回答が一致したらタグ付けされる(最大4人) 2015/02/02 文献紹介 9
Multilingual WSD SemEval-2013 Task 12: Multilingual Word Sense Disambiguation Roberto
Navigli, David Jurgens and Daniele Vannella In Proc. of SemEval 2013, pp. 222-231. 2013. 2015/02/02 文献紹介 10
Task Setup • 対象となる名詞を最も適切な語義に割り当てる – 語義はBabelNet • 2010, 2011, 2012
の workshop on SMT の データセットより13記事 – English, French, German, Spanish – さらに人手で English → Italian の翻訳 2015/02/02 文献紹介 11
語義目録 • BabelNet 1.1.1 – 単語,複合語,固有名詞を含む – Wikipedia や WordNet
3.0 等から作られている – synset は同じ概念に対する複数言語の表現集合 {Globus aerostàticCA , BalloonEN , AérostationFR , BallonDE , Pallone aerostaticoIT , ..., Globo aerostáticoES } 2015/02/02 文献紹介 12
Sense Annotation • 各言語の母語話者がアノテーション – English, French, German, Spanish: 各言語1人
– Italian: 2人 2015/02/02 文献紹介 13
Sense Annotation 各作業者が 1. 見出し語に付けられているPOSは正しいか 2. 複合語または固有名詞のアノテーションは正しいか 3. 見出し語の意味がBabelNetに割り当てられているか をチェックする(正しくないものは取り除かれる)
2015/02/02 文献紹介 14
Sense Annotation • 英語のデータセット中の語をBebelNetの語義に 割り当てる • 英語でアノテーションされたものを他言語に写像 – 対応する英文中の語の語義に含まれる場合にその語 義に割り当てる
• 各言語の作業者によって修正 • 異なる作業者が高頻度の見出し語について確認 2015/02/02 文献紹介 15
Cross-lingual WSD SemEval-2013 Task 10: Cross-lingual Word Sense Disambiguation Els
Lefever and Véronique Hoste In Proc. of SemEval 2013, pp. 158-166. 2013. 2015/02/02 文献紹介 16
Cross-lingual WSD その文脈において正しい訳語を選択する “Je cherche des idées pour manger de
l’avocat” (French→English) – 正しい訳語 “avocat” → “avocado” – 誤った訳語 “avocat” → “lawyer” 2015/02/02 文献紹介 17
Task setup • 英語の名詞に対する教師なしWSDタスク – 英語の名詞 20 個 • 語義目録は
Europarl parallel corpus に基づく • 対象言語: French, Italian, Spanish, Dutch, German 2015/02/02 文献紹介 18
Motivations • パラレルコーパスを利用することで,データの作成時の ボトルネックを解決可能 – 語義のタグ付けが不要 – 同様のフレームワークが多言語にも適用可 2015/02/02 文献紹介
19
Motivations • 語義の粒度の問題 – 必ずしも細かい粒度が必要ではない “head” (English) は常に “hoofd” (Dutch)に翻訳できる
(頭と組織の長の両方の意味を持つ) – 領域特化のコーパスを利用することで, その領域向きの語義目録が作成可 2015/02/02 文献紹介 20
Motivations • 言語横断のものに即座に応用可能 – 機械翻訳 – 情報検索 2015/02/02 文献紹介 21
語義目録の作成 英語と対象言語間で1文対1文になっているものを利用 1. 対訳コーパスにおいて単語アライメントを行い, 対象名詞の翻訳を列挙する 2. 得られた翻訳をクラスタリングし,人手で見出し語化 2015/02/02 文献紹介 22
テストデータ • ANCコーパスより人手で各名詞に対して50文を選択 • 対象言語ごとに3人の作業者 1. 最も適切な語義(クラスタ)を選択 2. 適切な翻訳を3つまで,そのクラスタより選択 2015/02/02
文献紹介 23
subtasks • best evaluation – システムはいくつでも答えを提示可能 – 提示した数によってスコアが割られる • Out-of-five
– システムは5つまで答えを提示可能 – 誤った答えに対するペナルティは無し 2015/02/02 文献紹介 24
WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 25 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)