Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
Search
Shohei Okada
February 02, 2015
Research
1
340
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
Shohei Okada
February 02, 2015
Tweet
Share
More Decks by Shohei Okada
See All by Shohei Okada
たった 1 枚の PHP ファイルで実装する MCP サーバ / MCP Server with Vanilla PHP
okashoi
1
210
どうして手を動かすよりもチーム内のコードレビューを優先するべきなのか
okashoi
3
1.4k
パスワードのハッシュ、ソルトってなに? - What is hash and salt for password?
okashoi
3
210
設計の考え方 - インターフェースと腐敗防止層編 #phpconfuk / Interface and Anti Corruption Layer
okashoi
11
3.8k
"config" ってなんだ? / What is "config"?
okashoi
0
1.2k
ファイル先頭の use の意味、説明できますか? 〜PHP の namespace と autoloading の関係を正しく理解しよう〜 / namespace and autoloading in php
okashoi
4
1.6k
MySQL のインデックスの種類をおさらいしよう! / overviewing indexes in MySQL
okashoi
0
890
PHP における静的解析(あるいはそもそも静的解析とは) / #phpcondo_yasai static analysis for PHP
okashoi
1
600
【PHPカンファレンス沖縄 2023】素朴で考慮漏れのある PHP コードをテストコードとともに補強していく(ライブコーディング補足資料) / #phpcon_okinawa 2023 livecoding supplementary material
okashoi
3
1.9k
Other Decks in Research
See All in Research
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
380
近似動的計画入門
mickey_kubo
4
970
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
340
SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery
satai
3
210
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
6
1k
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
340
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
5.7k
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
120
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
480
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
110
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
694
190k
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.3k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Side Projects
sachag
455
42k
Into the Great Unknown - MozCon
thekraken
39
1.9k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
How to Ace a Technical Interview
jacobian
277
23k
Faster Mobile Websites
deanohume
307
31k
Visualization
eitanlees
146
16k
Transcript
文献紹介 2015/02/02 長岡技術科学大学 自然言語処理研究室 岡田 正平
今回の文献紹介の趣旨 • SemEval (SENSEVAL) のWSDタスクについて紹介 – Lexical Sample – All-Words
– Monolingual – Multilingual – Cross-lingual 2015/02/02 文献紹介 2
WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 3 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)
All-Words The English All-Words Task Benjamin Snyder and Martha Palmer
In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 41-43. 2004. 2015/02/02 文献紹介 4
All-Words • 与えられた文中の全内容語をWordNet中の語義に割り当 てる • 構文解析とPOS-tagの情報は与えられる 2015/02/02 文献紹介 5
Test Corpus • Wall Street Journal と Brown Corpus から得られた約
5,000語の内容語を対象 • 作業者2人によるアノテーション後,別の作業者による 確認・修正 – WordNet中に適切な項目がある場合は複合語も可 – 複数語義に割当てることも可(できるだけ避ける) – 「WordNet中に無い」も可 • 最終的に2,211語 2015/02/02 文献紹介 6
Lexical Sample The Senseval-3 English lexical sample task Rada Mihalcea,
Timothy Chklovski and Adam Kilgarriff In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 25-28. 2004. 2015/02/02 文献紹介 7
コーパスの構築 • British National Corpus, Penn Treebank corpus, Los Angeles
Times collection から抽出された文を利用 • 語義目録は WordNet 1.7.1 のものを利用 – ただし動詞は Wordsmyth のものを利用 • SENSEVAL2において動詞に対する性能が低かった ため • 語義の粒度が細かすぎたためと思われる • 対象語は57語(名詞20語,動詞32語,形容詞5語) 2015/02/02 文献紹介 8
コーパスの構築 • Web上のボランティアを利用 – 対象語を含む文をコーパスから抽出 – 作業者に提示し,最も適切な語義を選ばせる • チェックボックによる選択(複数可) •
“unclear”と”none of the above” を選択可 • 他者の回答は表示されない – 2人の回答が一致したらタグ付けされる(最大4人) 2015/02/02 文献紹介 9
Multilingual WSD SemEval-2013 Task 12: Multilingual Word Sense Disambiguation Roberto
Navigli, David Jurgens and Daniele Vannella In Proc. of SemEval 2013, pp. 222-231. 2013. 2015/02/02 文献紹介 10
Task Setup • 対象となる名詞を最も適切な語義に割り当てる – 語義はBabelNet • 2010, 2011, 2012
の workshop on SMT の データセットより13記事 – English, French, German, Spanish – さらに人手で English → Italian の翻訳 2015/02/02 文献紹介 11
語義目録 • BabelNet 1.1.1 – 単語,複合語,固有名詞を含む – Wikipedia や WordNet
3.0 等から作られている – synset は同じ概念に対する複数言語の表現集合 {Globus aerostàticCA , BalloonEN , AérostationFR , BallonDE , Pallone aerostaticoIT , ..., Globo aerostáticoES } 2015/02/02 文献紹介 12
Sense Annotation • 各言語の母語話者がアノテーション – English, French, German, Spanish: 各言語1人
– Italian: 2人 2015/02/02 文献紹介 13
Sense Annotation 各作業者が 1. 見出し語に付けられているPOSは正しいか 2. 複合語または固有名詞のアノテーションは正しいか 3. 見出し語の意味がBabelNetに割り当てられているか をチェックする(正しくないものは取り除かれる)
2015/02/02 文献紹介 14
Sense Annotation • 英語のデータセット中の語をBebelNetの語義に 割り当てる • 英語でアノテーションされたものを他言語に写像 – 対応する英文中の語の語義に含まれる場合にその語 義に割り当てる
• 各言語の作業者によって修正 • 異なる作業者が高頻度の見出し語について確認 2015/02/02 文献紹介 15
Cross-lingual WSD SemEval-2013 Task 10: Cross-lingual Word Sense Disambiguation Els
Lefever and Véronique Hoste In Proc. of SemEval 2013, pp. 158-166. 2013. 2015/02/02 文献紹介 16
Cross-lingual WSD その文脈において正しい訳語を選択する “Je cherche des idées pour manger de
l’avocat” (French→English) – 正しい訳語 “avocat” → “avocado” – 誤った訳語 “avocat” → “lawyer” 2015/02/02 文献紹介 17
Task setup • 英語の名詞に対する教師なしWSDタスク – 英語の名詞 20 個 • 語義目録は
Europarl parallel corpus に基づく • 対象言語: French, Italian, Spanish, Dutch, German 2015/02/02 文献紹介 18
Motivations • パラレルコーパスを利用することで,データの作成時の ボトルネックを解決可能 – 語義のタグ付けが不要 – 同様のフレームワークが多言語にも適用可 2015/02/02 文献紹介
19
Motivations • 語義の粒度の問題 – 必ずしも細かい粒度が必要ではない “head” (English) は常に “hoofd” (Dutch)に翻訳できる
(頭と組織の長の両方の意味を持つ) – 領域特化のコーパスを利用することで, その領域向きの語義目録が作成可 2015/02/02 文献紹介 20
Motivations • 言語横断のものに即座に応用可能 – 機械翻訳 – 情報検索 2015/02/02 文献紹介 21
語義目録の作成 英語と対象言語間で1文対1文になっているものを利用 1. 対訳コーパスにおいて単語アライメントを行い, 対象名詞の翻訳を列挙する 2. 得られた翻訳をクラスタリングし,人手で見出し語化 2015/02/02 文献紹介 22
テストデータ • ANCコーパスより人手で各名詞に対して50文を選択 • 対象言語ごとに3人の作業者 1. 最も適切な語義(クラスタ)を選択 2. 適切な翻訳を3つまで,そのクラスタより選択 2015/02/02
文献紹介 23
subtasks • best evaluation – システムはいくつでも答えを提示可能 – 提示した数によってスコアが割られる • Out-of-five
– システムは5つまで答えを提示可能 – 誤った答えに対するペナルティは無し 2015/02/02 文献紹介 24
WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 25 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)