Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20160422 文献紹介
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
April 22, 2016
Education
180
0
Share
20160422 文献紹介
Yuta
April 22, 2016
More Decks by Yuta
See All by Yuta
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
230
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
20150415 文献紹介
sudo
1
240
Other Decks in Education
See All in Education
Analysis and Validation - Lecture 4 - Information Visualisation (4019538FNR)
signer
PRO
0
2.7k
「機械学習と因果推論」入門① 因果効果とは
masakat0
0
1.7k
Modelamiento Matematico (Ingresantes UNI 2026)
robintux
0
280
Tangible, Embedded and Embodied Interaction - Lecture 7 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.2k
LinkedIn
matleenalaakso
0
4.1k
fake vs real
latrrr
0
120
事業紹介資料(トレーナー養成講座)
kentaro1981
0
280
生成AIを授業の相棒にするデータサイエンス入門(「デジタル✕探究」イノベーターズフォーラム テクニカルセッション講演資料)
datascientistsociety
PRO
0
220
2026年度春学期 統計学 第5回 分布をまとめるー記述統計量(平均・分散など) (2026. 5. 7)
akiraasano
PRO
0
110
[2026前期火5] 論理学(京都大学文学部 前期 第3回)「形式言語と四つのキーワード:メタ・構成・意味論・ハーモニー」
yatabe
0
410
SSH_handshake_easy_explain
kenbo
0
970
アントレプレナーシップ教育機構 概要
sciencetokyo
PRO
0
3k
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
28
2.6k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
A Tale of Four Properties
chriscoyier
163
24k
Mobile First: as difficult as doing things right
swwweet
225
10k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
160
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
560
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Exploring anti-patterns in Rails
aemeredith
3
350
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Transcript
文献紹介 長岡技術科学大学 自然言語処理研究室 須戸 悠太 1
紹介文献 • Emmanuel Morin; Amir Hazem; Florian Boudin; Elizaveta Loginova-Clouet
• LINA: Identifying Comparable Documents from Wikipedia • Proceedings of the Eighth Workshop on Building and Using Comparable Corpora – PP.88-91 2
概要 • BUCC2015で発表したLINAシステム • hapax words の数を収集することにより、同等 の文書を識別 • 分類棚の推論とクロスリンガル情報を用いて,
上記の方法を拡張 – 約60%の精度で同等の文書が特定できた 3
導入 • 統計的機械翻訳において重要なパラレル コーパス • 同等のリソースを識別するための既存のアプ ローチの評価 – Wikipedia等 •
言語にとらわれないアプローチ 4
基本的な手法 • 文書内で1度しか出現しないかつ4文字以上 の単語(hapax words)を含む文書をbags of words で索引付けする • hapax
wordsを最も多く共有する文書は並列 であると考えられる. – Wikipediaで並列文書を検出する際に非常によく 機能する. 5
hapax words の例 • Hapax words の ほとんどは固有 名詞や数値に 関係するもの
– 今回はURLや 特殊文字も保 持 6
文書のペアの選択 • ソース-ターゲット文書のペアを検索するた めに,ソース言語(EN)の文書ごとにhapax wordsの最大数を共有するターゲット言語(FR, DE)の文書を20文ずつ選択する(baseline) 7
分類棚の利用 • 多重に割り当てられたソース文書が多いため, 削っていく必要がある.(baseline) • 共有の単語(以下分類棚)の最大数と文書の ペアを保持することによって潜在的な複数の ソースドキュメントを削除する. – 60%→10%と激減した.(+pigeonhole)
8
クロスリンガル情報の利用 • ソース-ターゲット言語と異なる言語でソース 言語とペアリングしている文書を利用 • ターゲット文書とhapax words の共有数を比 較し最大となるターゲット文書を選択する. •
多重に割り当てられたソース文書は10% →4%未満に減少(cross-lingual) 9
クロスリンガル情報の利用 10 ←ソース言語 ターゲット言語1→ ターゲット言語2→
実験 • フランス語-英語、ドイツ語―英語のペアで 実験 • 以下の3つの尺度で評価 – 平均精度(MAP) – 正解率(Succ)
– 上位5文の精度(P@5) 11
実験結果 • 分類棚を利用することで精度が大きく改善 12