Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会 第9回 言語モデルの評価
Search
phong3112
March 01, 2016
0
100
B3勉強会 第9回 言語モデルの評価
phong3112
March 01, 2016
Tweet
Share
More Decks by phong3112
See All by phong3112
A Pointwise Approach for Vietnamese Diacritics Restoration
phong3112
0
110
文献紹介 2016-06-24:Building a Large Syntactically-Annotated Corpus of Vietnamese
phong3112
0
110
Smoothing: Add-1
phong3112
0
160
B3勉強会 第2回 N-gramの紹介
phong3112
0
130
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
135
9.5k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
How to Ace a Technical Interview
jacobian
279
23k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Code Review Best Practice
trishagee
71
19k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
言語モデルの評価 第9回 B3勉強会 2016/03/01 自然言語処理研究室 学部3年 LY NAM PHONG
参考文献 SPEECH AND LANGUAGE PROCESSING – Daniel Jurafsky &
James H. Martin Pearson International Edition, 2nd Edition, pp. 129 – 131 Natural Language Processing online course by Dan Jurafsky, Christopher Manning, Stanford University https://class.coursera.org/nlp/lecture/129
評価:このモデルは良いモデルか? AモデルとBモデルはどちらが良い? 良いモデルは他のモデルより良い文を挙げる。 言語モデルはトレーニングセットで実習され、テストセットで試される。 だから、テストセットとトレーニングセットは異ならないければならない。 モデルの評価はテストセットに対してモデルの実行のは良いかどうか知ら せる
外部評価 外部評価とは? 英語で Extrinsic evaluationである。 AとBモデルの比較するため、一番良い方法はAとBモデルは一緒の タスクを実行し、結果から評価する。 外部評価の問題点:時間がかかる。
だから、固有評価(Intrinsic evaluation)が必要である。 → Perplexityという評価方法が固有評価の代表的な方法である。
Perplexityの直感的 Shannonのゲーム:文の次の言葉を予測する I always order pizza with cheese
and ….. I saw a …. 良いモデルなら、このゲームはいい言葉が予測できる。 → 高い確率値をあげる。
Perplexity Perplexityとはテストセットの確率値を文の長さで正規化する。 = (1 2 3 … )− 1
= =1 1 ( |1 … −1 ) Bigram: = =1 1 ( |−1 ) 以上の式で、一番良いモデルは、Perplexity PPが一番低い値であることが分 かった。
Perplexityの例算 数字列の長さはNで、一つの数字を見出すのタスクを考えられる。 数字を見出す確率は1/10と考えられて、以上の式で = (1 2 3 … )−
1 = ( 1 10 ) − 1 = 10