B3勉強会　第9回　言語モデルの評価

言語モデルの評価第9回 B3勉強会 2016/03/01 自然言語処理研究室学部3年 LY NAM PHONG

参考文献  SPEECH AND LANGUAGE PROCESSING – Daniel Jurafsky &
James H. Martin Pearson International Edition, 2nd Edition, pp. 129 – 131  Natural Language Processing online course by Dan Jurafsky, Christopher Manning, Stanford University https://class.coursera.org/nlp/lecture/129

評価：このモデルは良いモデルか？  ＡモデルとＢモデルはどちらが良い？良いモデルは他のモデルより良い文を挙げる。  言語モデルはトレーニングセットで実習され、テストセットで試される。だから、テストセットとトレーニングセットは異ならないければならない。  モデルの評価はテストセットに対してモデルの実行のは良いかどうか知らせる

外部評価  外部評価とは？英語で Extrinsic evaluationである。ＡとＢモデルの比較するため、一番良い方法はＡとＢモデルは一緒のタスクを実行し、結果から評価する。  外部評価の問題点：時間がかかる。
 だから、固有評価（Intrinsic evaluation）が必要である。 → Perplexityという評価方法が固有評価の代表的な方法である。

Perplexityの直感的  Shannonのゲーム：文の次の言葉を予測する  I always order pizza with cheese
and …..  I saw a ….  良いモデルなら、このゲームはいい言葉が予測できる。 → 高い確率値をあげる。

Perplexity  Perplexityとはテストセットの確率値を文の長さで正規化する。 = (1 2 3 … )− 1
= =1 1 ( |1 … −1 )  Bigram: = =1 1 ( |−1 )  以上の式で、一番良いモデルは、Perplexity PPが一番低い値であることが分かった。

Perplexityの例算  数字列の長さはＮで、一つの数字を見出すのタスクを考えられる。数字を見出す確率は1/10と考えられて、以上の式で = (1 2 3 … )−
1 = ( 1 10 ) − 1 = 10

B3勉強会　第9回　言語モデルの評価

B3勉強会　第9回　言語モデルの評価

phong3112

More Decks by phong3112

Featured

Transcript

言語モデルの評価第9回 B3勉強会 2016/03/01 自然言語処理研究室学部3年 LY NAM PHONG

参考文献  SPEECH AND LANGUAGE PROCESSING – Daniel Jurafsky &

外部評価  外部評価とは？英語で Extrinsic evaluationである。ＡとＢモデルの比較するため、一番良い方法はＡとＢモデルは一緒のタスクを実行し、結果から評価する。  外部評価の問題点：時間がかかる。

Perplexityの直感的  Shannonのゲーム：文の次の言葉を予測する  I always order pizza with cheese

Perplexity  Perplexityとはテストセットの確率値を文の長さで正規化する。 = (1 2 3 … )− 1

Perplexityの例算  数字列の長さはＮで、一つの数字を見出すのタスクを考えられる。数字を見出す確率は1/10と考えられて、以上の式で = (1 2 3 … )−

B3勉強会 第9回 言語モデルの評価

B3勉強会 第9回 言語モデルの評価

More Decks by phong3112

Featured

Transcript

B3勉強会　第9回　言語モデルの評価

B3勉強会　第9回　言語モデルの評価