Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会 第9回 言語モデルの評価
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
phong3112
March 01, 2016
0
110
B3勉強会 第9回 言語モデルの評価
phong3112
March 01, 2016
Tweet
Share
More Decks by phong3112
See All by phong3112
A Pointwise Approach for Vietnamese Diacritics Restoration
phong3112
0
120
文献紹介 2016-06-24:Building a Large Syntactically-Annotated Corpus of Vietnamese
phong3112
0
130
Smoothing: Add-1
phong3112
0
170
B3勉強会 第2回 N-gramの紹介
phong3112
0
130
Featured
See All Featured
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
460
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
Exploring anti-patterns in Rails
aemeredith
2
250
Site-Speed That Sticks
csswizardry
13
1.1k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
200
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Transcript
言語モデルの評価 第9回 B3勉強会 2016/03/01 自然言語処理研究室 学部3年 LY NAM PHONG
参考文献 SPEECH AND LANGUAGE PROCESSING – Daniel Jurafsky &
James H. Martin Pearson International Edition, 2nd Edition, pp. 129 – 131 Natural Language Processing online course by Dan Jurafsky, Christopher Manning, Stanford University https://class.coursera.org/nlp/lecture/129
評価:このモデルは良いモデルか? AモデルとBモデルはどちらが良い? 良いモデルは他のモデルより良い文を挙げる。 言語モデルはトレーニングセットで実習され、テストセットで試される。 だから、テストセットとトレーニングセットは異ならないければならない。 モデルの評価はテストセットに対してモデルの実行のは良いかどうか知ら せる
外部評価 外部評価とは? 英語で Extrinsic evaluationである。 AとBモデルの比較するため、一番良い方法はAとBモデルは一緒の タスクを実行し、結果から評価する。 外部評価の問題点:時間がかかる。
だから、固有評価(Intrinsic evaluation)が必要である。 → Perplexityという評価方法が固有評価の代表的な方法である。
Perplexityの直感的 Shannonのゲーム:文の次の言葉を予測する I always order pizza with cheese
and ….. I saw a …. 良いモデルなら、このゲームはいい言葉が予測できる。 → 高い確率値をあげる。
Perplexity Perplexityとはテストセットの確率値を文の長さで正規化する。 = (1 2 3 … )− 1
= =1 1 ( |1 … −1 ) Bigram: = =1 1 ( |−1 ) 以上の式で、一番良いモデルは、Perplexity PPが一番低い値であることが分 かった。
Perplexityの例算 数字列の長さはNで、一つの数字を見出すのタスクを考えられる。 数字を見出す確率は1/10と考えられて、以上の式で = (1 2 3 … )−
1 = ( 1 10 ) − 1 = 10