Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介ゼミ(6月分)
Search
miyanishi
June 26, 2014
0
380
文献紹介ゼミ(6月分)
miyanishi
June 26, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1371
200k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6k
How STYLIGHT went responsive
nonsquared
100
5.9k
Into the Great Unknown - MozCon
thekraken
40
2.1k
Optimizing for Happiness
mojombo
379
70k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
Product Roadmaps are Hard
iamctodd
PRO
55
11k
Transcript
自然言語処理研究室 修士1年 宮西 由貴
タイトル: ParaSense or How to Parallel Corpora for Word
Sense Disambiguation 著者: Els Lefever Veronique Hoste Martine De Cock Proceedings of Annual Meeting of ACL:shortpapers,2010,p317-322 01
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 手動アライメントの有無による結果の比較 02
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 アライメントの有無による結果の比較 02 Spanish以外の対訳コーパスを使用した場合、 従来手法に圧倒的に勝利!
最近の教師ありWSD 語義付与コーパスを使うと結果が良好 (大規模&語義を人手で付与したものが良好) ⇒人手で付与するのは作成が大変・・・ Multilingual classificationーbased
対訳コーパスを使用 バイリンガルWSDモデル WordNetと対訳コーパスの併用 03
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 04
入力言語:英語 使用言語:5つの言語を使用 フランス語 イタリア語 スペイン語
ドイツ語 オランダ語 使用コーパス: Europarlコーパス 英語とヨーロッパ諸国語の対訳コーパス 05
Europarlコーパス(※) のアライメント 入力・使用言語についてアライメント GIZA++を使用 分類器を5種類用意
使用言語に対して1つずつ分類器を用意 Memory-based learning(MBL)を使用 Jefferey-Divergence距離でパラメータ決定 06
それぞれの分類器の学習 学習にはアライメント結果を使用 分類器の言語のアライメント結果を使用 実験 入力された英文中の多義語の意味を判別
それぞれの分類器の結果を比較 07
2種類のアライメントを試す 全自動で単語アライメントを行う 人手で単語アライメントを行う 学習データ生成の前処理 英文には簡単な構文解析を行う
品詞タグ・チャンクを用いる 08
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09 Local context feature Translation feature
提案システムの素性は3種類 1:full feature vector 2:Translation feature
3:Local context feature 比較するシステム Baseline:高頻度語義を選択 T3-COLEUR,UvT-WSD: SemEval内で成績が上位だったシステム 10 「手動アライメント」 「自動アライメント」 それぞれに対して実験
テストセット SemEval”CLWSD”のテストセットを使用 テスト文は2種類のコーパスを使用 ▪ JRC-ACQUIS Multilingual Parallel
Corpus ▪ BNC 評価 Precision:SemEvalで使われた精度 Accuracy:正解数をテスト文数で割った値 11
Precisionで評価した場合 12
Precisionで評価した場合 12 自動アライメント 手動アライメント
Precisionで評価した場合 12
Accuracyで評価した場合 13
スペイン語以外では圧倒的に良い結果 自動アライメントでも従来手法に勝利 対訳コーパスの乏しさについて 現在手に入る量は乏しい 今後
大量の対訳コーパスが手に入る? (企業などが作成するのでは?) 14 全自動&知識ボトルネックを解消!
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 15
提案手法の効果 従来手法と同等もしくはそれ以上の結果 素性が単純なので改善の余地あり アライメント方法について 自動でも手動と大差ない結果
言語による結果の比較 英語-スペイン語間では従来手法が上 従来手法より言語による差が少ない 16