Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
Search
Shohei Okada
February 02, 2015
Research
1
330
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
Shohei Okada
February 02, 2015
Tweet
Share
More Decks by Shohei Okada
See All by Shohei Okada
パスワードのハッシュ、ソルトってなに? - What is hash and salt for password?
okashoi
3
87
設計の考え方 - インターフェースと腐敗防止層編 #phpconfuk / Interface and Anti Corruption Layer
okashoi
9
2.6k
"config" ってなんだ? / What is "config"?
okashoi
0
650
ファイル先頭の use の意味、説明できますか? 〜PHP の namespace と autoloading の関係を正しく理解しよう〜 / namespace and autoloading in php
okashoi
3
1k
MySQL のインデックスの種類をおさらいしよう! / overviewing indexes in MySQL
okashoi
0
650
PHP における静的解析(あるいはそもそも静的解析とは) / #phpcondo_yasai static analysis for PHP
okashoi
1
440
【PHPカンファレンス沖縄 2023】素朴で考慮漏れのある PHP コードをテストコードとともに補強していく(ライブコーディング補足資料) / #phpcon_okinawa 2023 livecoding supplementary material
okashoi
3
1.8k
その説明、コードコメントに書く?コミットメッセージに書く? プルリクエストに書く? - #phpconfuk 2023
okashoi
14
4.9k
いろいろなフレームワークの仕組みを index.php から読み解こう / index.php of each framework
okashoi
2
2.6k
Other Decks in Research
See All in Research
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
6
670
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
a1da4
1
220
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
1
260
秘伝:脆弱性診断をうまく活用してセキュリティを確保するには
okdt
PRO
3
740
工学としてのSRE再訪 / Revisiting SRE as Engineering
yuukit
19
11k
最近のVisual Odometryと Depth Estimation
sgk
1
270
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
3
730
「並列化時代の乱数生成」
abap34
3
820
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
650
Practical The One Person Framework
asonas
1
1.6k
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
120
Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
sosk
1
950
Featured
See All Featured
Scaling GitHub
holman
458
140k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Rails Girls Zürich Keynote
gr2m
94
13k
Making the Leap to Tech Lead
cromwellryan
133
8.9k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.5k
Practical Orchestrator
shlominoach
186
10k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
Visualization
eitanlees
145
15k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
A Philosophy of Restraint
colly
203
16k
Transcript
文献紹介 2015/02/02 長岡技術科学大学 自然言語処理研究室 岡田 正平
今回の文献紹介の趣旨 • SemEval (SENSEVAL) のWSDタスクについて紹介 – Lexical Sample – All-Words
– Monolingual – Multilingual – Cross-lingual 2015/02/02 文献紹介 2
WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 3 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)
All-Words The English All-Words Task Benjamin Snyder and Martha Palmer
In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 41-43. 2004. 2015/02/02 文献紹介 4
All-Words • 与えられた文中の全内容語をWordNet中の語義に割り当 てる • 構文解析とPOS-tagの情報は与えられる 2015/02/02 文献紹介 5
Test Corpus • Wall Street Journal と Brown Corpus から得られた約
5,000語の内容語を対象 • 作業者2人によるアノテーション後,別の作業者による 確認・修正 – WordNet中に適切な項目がある場合は複合語も可 – 複数語義に割当てることも可(できるだけ避ける) – 「WordNet中に無い」も可 • 最終的に2,211語 2015/02/02 文献紹介 6
Lexical Sample The Senseval-3 English lexical sample task Rada Mihalcea,
Timothy Chklovski and Adam Kilgarriff In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 25-28. 2004. 2015/02/02 文献紹介 7
コーパスの構築 • British National Corpus, Penn Treebank corpus, Los Angeles
Times collection から抽出された文を利用 • 語義目録は WordNet 1.7.1 のものを利用 – ただし動詞は Wordsmyth のものを利用 • SENSEVAL2において動詞に対する性能が低かった ため • 語義の粒度が細かすぎたためと思われる • 対象語は57語(名詞20語,動詞32語,形容詞5語) 2015/02/02 文献紹介 8
コーパスの構築 • Web上のボランティアを利用 – 対象語を含む文をコーパスから抽出 – 作業者に提示し,最も適切な語義を選ばせる • チェックボックによる選択(複数可) •
“unclear”と”none of the above” を選択可 • 他者の回答は表示されない – 2人の回答が一致したらタグ付けされる(最大4人) 2015/02/02 文献紹介 9
Multilingual WSD SemEval-2013 Task 12: Multilingual Word Sense Disambiguation Roberto
Navigli, David Jurgens and Daniele Vannella In Proc. of SemEval 2013, pp. 222-231. 2013. 2015/02/02 文献紹介 10
Task Setup • 対象となる名詞を最も適切な語義に割り当てる – 語義はBabelNet • 2010, 2011, 2012
の workshop on SMT の データセットより13記事 – English, French, German, Spanish – さらに人手で English → Italian の翻訳 2015/02/02 文献紹介 11
語義目録 • BabelNet 1.1.1 – 単語,複合語,固有名詞を含む – Wikipedia や WordNet
3.0 等から作られている – synset は同じ概念に対する複数言語の表現集合 {Globus aerostàticCA , BalloonEN , AérostationFR , BallonDE , Pallone aerostaticoIT , ..., Globo aerostáticoES } 2015/02/02 文献紹介 12
Sense Annotation • 各言語の母語話者がアノテーション – English, French, German, Spanish: 各言語1人
– Italian: 2人 2015/02/02 文献紹介 13
Sense Annotation 各作業者が 1. 見出し語に付けられているPOSは正しいか 2. 複合語または固有名詞のアノテーションは正しいか 3. 見出し語の意味がBabelNetに割り当てられているか をチェックする(正しくないものは取り除かれる)
2015/02/02 文献紹介 14
Sense Annotation • 英語のデータセット中の語をBebelNetの語義に 割り当てる • 英語でアノテーションされたものを他言語に写像 – 対応する英文中の語の語義に含まれる場合にその語 義に割り当てる
• 各言語の作業者によって修正 • 異なる作業者が高頻度の見出し語について確認 2015/02/02 文献紹介 15
Cross-lingual WSD SemEval-2013 Task 10: Cross-lingual Word Sense Disambiguation Els
Lefever and Véronique Hoste In Proc. of SemEval 2013, pp. 158-166. 2013. 2015/02/02 文献紹介 16
Cross-lingual WSD その文脈において正しい訳語を選択する “Je cherche des idées pour manger de
l’avocat” (French→English) – 正しい訳語 “avocat” → “avocado” – 誤った訳語 “avocat” → “lawyer” 2015/02/02 文献紹介 17
Task setup • 英語の名詞に対する教師なしWSDタスク – 英語の名詞 20 個 • 語義目録は
Europarl parallel corpus に基づく • 対象言語: French, Italian, Spanish, Dutch, German 2015/02/02 文献紹介 18
Motivations • パラレルコーパスを利用することで,データの作成時の ボトルネックを解決可能 – 語義のタグ付けが不要 – 同様のフレームワークが多言語にも適用可 2015/02/02 文献紹介
19
Motivations • 語義の粒度の問題 – 必ずしも細かい粒度が必要ではない “head” (English) は常に “hoofd” (Dutch)に翻訳できる
(頭と組織の長の両方の意味を持つ) – 領域特化のコーパスを利用することで, その領域向きの語義目録が作成可 2015/02/02 文献紹介 20
Motivations • 言語横断のものに即座に応用可能 – 機械翻訳 – 情報検索 2015/02/02 文献紹介 21
語義目録の作成 英語と対象言語間で1文対1文になっているものを利用 1. 対訳コーパスにおいて単語アライメントを行い, 対象名詞の翻訳を列挙する 2. 得られた翻訳をクラスタリングし,人手で見出し語化 2015/02/02 文献紹介 22
テストデータ • ANCコーパスより人手で各名詞に対して50文を選択 • 対象言語ごとに3人の作業者 1. 最も適切な語義(クラスタ)を選択 2. 適切な翻訳を3つまで,そのクラスタより選択 2015/02/02
文献紹介 23
subtasks • best evaluation – システムはいくつでも答えを提示可能 – 提示した数によってスコアが割られる • Out-of-five
– システムは5つまで答えを提示可能 – 誤った答えに対するペナルティは無し 2015/02/02 文献紹介 24
WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 25 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)