Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会 第9回 言語モデルの評価
Search
phong3112
March 01, 2016
0
98
B3勉強会 第9回 言語モデルの評価
phong3112
March 01, 2016
Tweet
Share
More Decks by phong3112
See All by phong3112
A Pointwise Approach for Vietnamese Diacritics Restoration
phong3112
0
80
文献紹介 2016-06-24:Building a Large Syntactically-Annotated Corpus of Vietnamese
phong3112
0
64
Smoothing: Add-1
phong3112
0
120
B3勉強会 第2回 N-gramの紹介
phong3112
0
110
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
504
110k
Debugging Ruby Performance
tmm1
70
11k
Optimising Largest Contentful Paint
csswizardry
8
2.3k
Build The Right Thing And Hit Your Dates
maggiecrowley
24
2k
The Illustrated Children's Guide to Kubernetes
chrisshort
31
46k
The Language of Interfaces
destraynor
151
23k
Designing on Purpose - Digital PM Summit 2013
jponch
110
6.5k
Mobile First: as difficult as doing things right
swwweet
216
8.6k
jQuery: Nuts, Bolts and Bling
dougneiner
59
7.1k
Imperfection Machines: The Place of Print at Facebook
scottboms
260
12k
Creatively Recalculating Your Daily Design Routine
revolveconf
210
11k
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
Transcript
言語モデルの評価 第9回 B3勉強会 2016/03/01 自然言語処理研究室 学部3年 LY NAM PHONG
参考文献 SPEECH AND LANGUAGE PROCESSING – Daniel Jurafsky &
James H. Martin Pearson International Edition, 2nd Edition, pp. 129 – 131 Natural Language Processing online course by Dan Jurafsky, Christopher Manning, Stanford University https://class.coursera.org/nlp/lecture/129
評価:このモデルは良いモデルか? AモデルとBモデルはどちらが良い? 良いモデルは他のモデルより良い文を挙げる。 言語モデルはトレーニングセットで実習され、テストセットで試される。 だから、テストセットとトレーニングセットは異ならないければならない。 モデルの評価はテストセットに対してモデルの実行のは良いかどうか知ら せる
外部評価 外部評価とは? 英語で Extrinsic evaluationである。 AとBモデルの比較するため、一番良い方法はAとBモデルは一緒の タスクを実行し、結果から評価する。 外部評価の問題点:時間がかかる。
だから、固有評価(Intrinsic evaluation)が必要である。 → Perplexityという評価方法が固有評価の代表的な方法である。
Perplexityの直感的 Shannonのゲーム:文の次の言葉を予測する I always order pizza with cheese
and ….. I saw a …. 良いモデルなら、このゲームはいい言葉が予測できる。 → 高い確率値をあげる。
Perplexity Perplexityとはテストセットの確率値を文の長さで正規化する。 = (1 2 3 … )− 1
= =1 1 ( |1 … −1 ) Bigram: = =1 1 ( |−1 ) 以上の式で、一番良いモデルは、Perplexity PPが一番低い値であることが分 かった。
Perplexityの例算 数字列の長さはNで、一つの数字を見出すのタスクを考えられる。 数字を見出す確率は1/10と考えられて、以上の式で = (1 2 3 … )−
1 = ( 1 10 ) − 1 = 10