hug
hugs
単語
頻度
10
5
ボキャブラリー (可能なすべての部分文字列)
["h", "u", "g", "hu", "ug", "s", "hug", "gs", "ugs"]
hug
s
このようにトークナイズした場合に
各分割の尤度を掛け算して全体の損失を計算します
• loss = 10(-log(P(“hug”)) + 5(-log(P(“hug”,”s”)))
ここで”hug”をボキャブラリーから削除した場合は
• loss = 10(-log(P(“hu”, “g”)) + 5(-log(P(“hu”,”gs”)))
hug