Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介ゼミ(6月分)
Search
miyanishi
June 26, 2014
380
0
Share
文献紹介ゼミ(6月分)
miyanishi
June 26, 2014
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
87
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Mind Mapping
helmedeiros
PRO
1
150
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
200
Six Lessons from altMBA
skipperchong
29
4.2k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
Exploring anti-patterns in Rails
aemeredith
3
310
Become a Pro
speakerdeck
PRO
31
5.9k
[SF Ruby Conf 2025] Rails X
palkan
2
930
The Limits of Empathy - UXLibs8
cassininazir
1
290
GraphQLとの向き合い方2022年版
quramy
50
14k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.1k
Agile that works and the tools we love
rasmusluckow
331
21k
Transcript
自然言語処理研究室 修士1年 宮西 由貴
タイトル: ParaSense or How to Parallel Corpora for Word
Sense Disambiguation 著者: Els Lefever Veronique Hoste Martine De Cock Proceedings of Annual Meeting of ACL:shortpapers,2010,p317-322 01
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 手動アライメントの有無による結果の比較 02
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 アライメントの有無による結果の比較 02 Spanish以外の対訳コーパスを使用した場合、 従来手法に圧倒的に勝利!
最近の教師ありWSD 語義付与コーパスを使うと結果が良好 (大規模&語義を人手で付与したものが良好) ⇒人手で付与するのは作成が大変・・・ Multilingual classificationーbased
対訳コーパスを使用 バイリンガルWSDモデル WordNetと対訳コーパスの併用 03
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 04
入力言語:英語 使用言語:5つの言語を使用 フランス語 イタリア語 スペイン語
ドイツ語 オランダ語 使用コーパス: Europarlコーパス 英語とヨーロッパ諸国語の対訳コーパス 05
Europarlコーパス(※) のアライメント 入力・使用言語についてアライメント GIZA++を使用 分類器を5種類用意
使用言語に対して1つずつ分類器を用意 Memory-based learning(MBL)を使用 Jefferey-Divergence距離でパラメータ決定 06
それぞれの分類器の学習 学習にはアライメント結果を使用 分類器の言語のアライメント結果を使用 実験 入力された英文中の多義語の意味を判別
それぞれの分類器の結果を比較 07
2種類のアライメントを試す 全自動で単語アライメントを行う 人手で単語アライメントを行う 学習データ生成の前処理 英文には簡単な構文解析を行う
品詞タグ・チャンクを用いる 08
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09 Local context feature Translation feature
提案システムの素性は3種類 1:full feature vector 2:Translation feature
3:Local context feature 比較するシステム Baseline:高頻度語義を選択 T3-COLEUR,UvT-WSD: SemEval内で成績が上位だったシステム 10 「手動アライメント」 「自動アライメント」 それぞれに対して実験
テストセット SemEval”CLWSD”のテストセットを使用 テスト文は2種類のコーパスを使用 ▪ JRC-ACQUIS Multilingual Parallel
Corpus ▪ BNC 評価 Precision:SemEvalで使われた精度 Accuracy:正解数をテスト文数で割った値 11
Precisionで評価した場合 12
Precisionで評価した場合 12 自動アライメント 手動アライメント
Precisionで評価した場合 12
Accuracyで評価した場合 13
スペイン語以外では圧倒的に良い結果 自動アライメントでも従来手法に勝利 対訳コーパスの乏しさについて 現在手に入る量は乏しい 今後
大量の対訳コーパスが手に入る? (企業などが作成するのでは?) 14 全自動&知識ボトルネックを解消!
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 15
提案手法の効果 従来手法と同等もしくはそれ以上の結果 素性が単純なので改善の余地あり アライメント方法について 自動でも手動と大差ない結果
言語による結果の比較 英語-スペイン語間では従来手法が上 従来手法より言語による差が少ない 16