Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20160422 文献紹介
Search
Yuta
April 22, 2016
Education
0
170
20160422 文献紹介
Yuta
April 22, 2016
Tweet
Share
More Decks by Yuta
See All by Yuta
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
20150415 文献紹介
sudo
1
230
Other Decks in Education
See All in Education
The Art of Note Taking
kanaya
1
140
Data Management and Analytics Specialisation
signer
PRO
0
1.4k
2025/06/05_読み漁り学習
nag8
0
150
Virtual and Augmented Reality - Lecture 8 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
予習動画
takenawa
0
7.5k
SkimaTalk Teacher Guidelines
skimatalk
0
800k
Are puppies a ranking factor?
jonoalderson
0
870
Pydantic(AI)とJSONの詳細解説
mickey_kubo
0
120
アウトプット0のエンジニアが半年でアウトプットしまくった話 With JAWS-UG
masakiokuda
2
330
Constructing a Custom TeX Ecosystem for Educational Institutions—Beyond Academic Typesetting
doratex
1
11k
日本の教育の未来 を考える テクノロジーは教育をどのように変えるのか
kzkmaeda
1
210
SkimaTalk Tutorial for Corporate Customers
skimatalk
0
290
Featured
See All Featured
Why Our Code Smells
bkeepers
PRO
336
57k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Site-Speed That Sticks
csswizardry
10
690
KATA
mclloyd
30
14k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
A Tale of Four Properties
chriscoyier
160
23k
Six Lessons from altMBA
skipperchong
28
3.9k
We Have a Design System, Now What?
morganepeng
53
7.7k
Code Review Best Practice
trishagee
69
19k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Speed Design
sergeychernyshev
32
1k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
Transcript
文献紹介 長岡技術科学大学 自然言語処理研究室 須戸 悠太 1
紹介文献 • Emmanuel Morin; Amir Hazem; Florian Boudin; Elizaveta Loginova-Clouet
• LINA: Identifying Comparable Documents from Wikipedia • Proceedings of the Eighth Workshop on Building and Using Comparable Corpora – PP.88-91 2
概要 • BUCC2015で発表したLINAシステム • hapax words の数を収集することにより、同等 の文書を識別 • 分類棚の推論とクロスリンガル情報を用いて,
上記の方法を拡張 – 約60%の精度で同等の文書が特定できた 3
導入 • 統計的機械翻訳において重要なパラレル コーパス • 同等のリソースを識別するための既存のアプ ローチの評価 – Wikipedia等 •
言語にとらわれないアプローチ 4
基本的な手法 • 文書内で1度しか出現しないかつ4文字以上 の単語(hapax words)を含む文書をbags of words で索引付けする • hapax
wordsを最も多く共有する文書は並列 であると考えられる. – Wikipediaで並列文書を検出する際に非常によく 機能する. 5
hapax words の例 • Hapax words の ほとんどは固有 名詞や数値に 関係するもの
– 今回はURLや 特殊文字も保 持 6
文書のペアの選択 • ソース-ターゲット文書のペアを検索するた めに,ソース言語(EN)の文書ごとにhapax wordsの最大数を共有するターゲット言語(FR, DE)の文書を20文ずつ選択する(baseline) 7
分類棚の利用 • 多重に割り当てられたソース文書が多いため, 削っていく必要がある.(baseline) • 共有の単語(以下分類棚)の最大数と文書の ペアを保持することによって潜在的な複数の ソースドキュメントを削除する. – 60%→10%と激減した.(+pigeonhole)
8
クロスリンガル情報の利用 • ソース-ターゲット言語と異なる言語でソース 言語とペアリングしている文書を利用 • ターゲット文書とhapax words の共有数を比 較し最大となるターゲット文書を選択する. •
多重に割り当てられたソース文書は10% →4%未満に減少(cross-lingual) 9
クロスリンガル情報の利用 10 ←ソース言語 ターゲット言語1→ ターゲット言語2→
実験 • フランス語-英語、ドイツ語―英語のペアで 実験 • 以下の3つの尺度で評価 – 平均精度(MAP) – 正解率(Succ)
– 上位5文の精度(P@5) 11
実験結果 • 分類棚を利用することで精度が大きく改善 12