Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20160422 文献紹介
Search
Yuta
April 22, 2016
Education
0
170
20160422 文献紹介
Yuta
April 22, 2016
Tweet
Share
More Decks by Yuta
See All by Yuta
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
20150415 文献紹介
sudo
1
230
Other Decks in Education
See All in Education
Test-NUTMEG紹介スライド
mugiiicha
0
160
Transición del Management al Neuromanagement
jvpcubias
0
210
『会社を知ってもらう』から『安心して活躍してもらう』までの プロセスとフロー
sasakendayo
0
260
シリコンバレーでスタートアップを共同創業したファウンディングエンジニアとしての学び
tomoima525
1
1.2k
質のよいアウトプットをできるようになるために~「読む・聞く、まとめる、言葉にする」を読んで~
amarelo_n24
0
210
理想の英語力に一直線!最高効率な英語学習のすゝめ
logica0419
6
390
OpenSourceSummitJapanを運営してみた話
kujiraitakahiro
0
790
[Segah 2025] Gamified Interventions for Composting Behavior in the Workplace
ezefranca
0
100
20250830_MIEE祭_会社員視点での学びのヒント
ponponmikankan
1
150
アントレプレナーシップ教育 ~ 自分で自分の幸せを決めるために ~
yoshizaki
0
170
RSJ2025 ランチョンセミナー 一歩ずつ世界へ:学生・若手研究者のための等身大の国際化の始め方
t_inamura
0
280
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
2k
Featured
See All Featured
Building Applications with DynamoDB
mza
96
6.6k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Code Review Best Practice
trishagee
70
19k
The World Runs on Bad Software
bkeepers
PRO
70
11k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
112
20k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
51
5.6k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Raft: Consensus for Rubyists
vanstee
140
7.1k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
139
34k
Transcript
文献紹介 長岡技術科学大学 自然言語処理研究室 須戸 悠太 1
紹介文献 • Emmanuel Morin; Amir Hazem; Florian Boudin; Elizaveta Loginova-Clouet
• LINA: Identifying Comparable Documents from Wikipedia • Proceedings of the Eighth Workshop on Building and Using Comparable Corpora – PP.88-91 2
概要 • BUCC2015で発表したLINAシステム • hapax words の数を収集することにより、同等 の文書を識別 • 分類棚の推論とクロスリンガル情報を用いて,
上記の方法を拡張 – 約60%の精度で同等の文書が特定できた 3
導入 • 統計的機械翻訳において重要なパラレル コーパス • 同等のリソースを識別するための既存のアプ ローチの評価 – Wikipedia等 •
言語にとらわれないアプローチ 4
基本的な手法 • 文書内で1度しか出現しないかつ4文字以上 の単語(hapax words)を含む文書をbags of words で索引付けする • hapax
wordsを最も多く共有する文書は並列 であると考えられる. – Wikipediaで並列文書を検出する際に非常によく 機能する. 5
hapax words の例 • Hapax words の ほとんどは固有 名詞や数値に 関係するもの
– 今回はURLや 特殊文字も保 持 6
文書のペアの選択 • ソース-ターゲット文書のペアを検索するた めに,ソース言語(EN)の文書ごとにhapax wordsの最大数を共有するターゲット言語(FR, DE)の文書を20文ずつ選択する(baseline) 7
分類棚の利用 • 多重に割り当てられたソース文書が多いため, 削っていく必要がある.(baseline) • 共有の単語(以下分類棚)の最大数と文書の ペアを保持することによって潜在的な複数の ソースドキュメントを削除する. – 60%→10%と激減した.(+pigeonhole)
8
クロスリンガル情報の利用 • ソース-ターゲット言語と異なる言語でソース 言語とペアリングしている文書を利用 • ターゲット文書とhapax words の共有数を比 較し最大となるターゲット文書を選択する. •
多重に割り当てられたソース文書は10% →4%未満に減少(cross-lingual) 9
クロスリンガル情報の利用 10 ←ソース言語 ターゲット言語1→ ターゲット言語2→
実験 • フランス語-英語、ドイツ語―英語のペアで 実験 • 以下の3つの尺度で評価 – 平均精度(MAP) – 正解率(Succ)
– 上位5文の精度(P@5) 11
実験結果 • 分類棚を利用することで精度が大きく改善 12