Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会 第9回 言語モデルの評価
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
phong3112
March 01, 2016
0
110
B3勉強会 第9回 言語モデルの評価
phong3112
March 01, 2016
Tweet
Share
More Decks by phong3112
See All by phong3112
A Pointwise Approach for Vietnamese Diacritics Restoration
phong3112
0
120
文献紹介 2016-06-24:Building a Large Syntactically-Annotated Corpus of Vietnamese
phong3112
0
130
Smoothing: Add-1
phong3112
0
180
B3勉強会 第2回 N-gramの紹介
phong3112
0
130
Featured
See All Featured
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
200
A Soul's Torment
seathinner
5
2.5k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Side Projects
sachag
455
43k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
290
Ethics towards AI in product and experience design
skipperchong
2
230
Scaling GitHub
holman
464
140k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
Building Applications with DynamoDB
mza
96
7k
How GitHub (no longer) Works
holman
316
150k
Git: the NoSQL Database
bkeepers
PRO
432
66k
Transcript
言語モデルの評価 第9回 B3勉強会 2016/03/01 自然言語処理研究室 学部3年 LY NAM PHONG
参考文献 SPEECH AND LANGUAGE PROCESSING – Daniel Jurafsky &
James H. Martin Pearson International Edition, 2nd Edition, pp. 129 – 131 Natural Language Processing online course by Dan Jurafsky, Christopher Manning, Stanford University https://class.coursera.org/nlp/lecture/129
評価:このモデルは良いモデルか? AモデルとBモデルはどちらが良い? 良いモデルは他のモデルより良い文を挙げる。 言語モデルはトレーニングセットで実習され、テストセットで試される。 だから、テストセットとトレーニングセットは異ならないければならない。 モデルの評価はテストセットに対してモデルの実行のは良いかどうか知ら せる
外部評価 外部評価とは? 英語で Extrinsic evaluationである。 AとBモデルの比較するため、一番良い方法はAとBモデルは一緒の タスクを実行し、結果から評価する。 外部評価の問題点:時間がかかる。
だから、固有評価(Intrinsic evaluation)が必要である。 → Perplexityという評価方法が固有評価の代表的な方法である。
Perplexityの直感的 Shannonのゲーム:文の次の言葉を予測する I always order pizza with cheese
and ….. I saw a …. 良いモデルなら、このゲームはいい言葉が予測できる。 → 高い確率値をあげる。
Perplexity Perplexityとはテストセットの確率値を文の長さで正規化する。 = (1 2 3 … )− 1
= =1 1 ( |1 … −1 ) Bigram: = =1 1 ( |−1 ) 以上の式で、一番良いモデルは、Perplexity PPが一番低い値であることが分 かった。
Perplexityの例算 数字列の長さはNで、一つの数字を見出すのタスクを考えられる。 数字を見出す確率は1/10と考えられて、以上の式で = (1 2 3 … )−
1 = ( 1 10 ) − 1 = 10