Slide 34
Slide 34 text
Unigram
● 大きなボキャブラリーから始めて指定のサイズになるまで
ボキャブラリーを削っていきます
● 単語を削った際の損失を求めて損失が少なくなるように削っていきます
hug
hugs
単語
頻度
10
5
ボキャブラリー (可能なすべての部分文字列)
["h", "u", "g", "hu", "ug", "s", "hug", "gs", "ugs"]
hug
s
このようにトークナイズした場合に
各分割の尤度を掛け算して全体の損失を計算します
● loss = 10(-log(P(“hug”)) + 5(-log(P(“hug”,”s”)))
ここで”hug”をボキャブラリーから削除した場合は
● loss = 10(-log(P(“hu”, “g”)) + 5(-log(P(“hu”,”gs”)))
hug