Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会 第9回 言語モデルの評価
Search
phong3112
March 01, 2016
0
110
B3勉強会 第9回 言語モデルの評価
phong3112
March 01, 2016
Tweet
Share
More Decks by phong3112
See All by phong3112
A Pointwise Approach for Vietnamese Diacritics Restoration
phong3112
0
120
文献紹介 2016-06-24:Building a Large Syntactically-Annotated Corpus of Vietnamese
phong3112
0
120
Smoothing: Add-1
phong3112
0
160
B3勉強会 第2回 N-gramの紹介
phong3112
0
130
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.9k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.7k
Optimizing for Happiness
mojombo
379
70k
The Invisible Side of Design
smashingmag
302
51k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
230
22k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
GraphQLとの向き合い方2022年版
quramy
49
14k
Docker and Python
trallard
46
3.6k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
It's Worth the Effort
3n
187
28k
The Power of CSS Pseudo Elements
geoffreycrofte
79
6k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.6k
Transcript
言語モデルの評価 第9回 B3勉強会 2016/03/01 自然言語処理研究室 学部3年 LY NAM PHONG
参考文献 SPEECH AND LANGUAGE PROCESSING – Daniel Jurafsky &
James H. Martin Pearson International Edition, 2nd Edition, pp. 129 – 131 Natural Language Processing online course by Dan Jurafsky, Christopher Manning, Stanford University https://class.coursera.org/nlp/lecture/129
評価:このモデルは良いモデルか? AモデルとBモデルはどちらが良い? 良いモデルは他のモデルより良い文を挙げる。 言語モデルはトレーニングセットで実習され、テストセットで試される。 だから、テストセットとトレーニングセットは異ならないければならない。 モデルの評価はテストセットに対してモデルの実行のは良いかどうか知ら せる
外部評価 外部評価とは? 英語で Extrinsic evaluationである。 AとBモデルの比較するため、一番良い方法はAとBモデルは一緒の タスクを実行し、結果から評価する。 外部評価の問題点:時間がかかる。
だから、固有評価(Intrinsic evaluation)が必要である。 → Perplexityという評価方法が固有評価の代表的な方法である。
Perplexityの直感的 Shannonのゲーム:文の次の言葉を予測する I always order pizza with cheese
and ….. I saw a …. 良いモデルなら、このゲームはいい言葉が予測できる。 → 高い確率値をあげる。
Perplexity Perplexityとはテストセットの確率値を文の長さで正規化する。 = (1 2 3 … )− 1
= =1 1 ( |1 … −1 ) Bigram: = =1 1 ( |−1 ) 以上の式で、一番良いモデルは、Perplexity PPが一番低い値であることが分 かった。
Perplexityの例算 数字列の長さはNで、一つの数字を見出すのタスクを考えられる。 数字を見出す確率は1/10と考えられて、以上の式で = (1 2 3 … )−
1 = ( 1 10 ) − 1 = 10