Slide 5
Slide 5 text
教師なし単語分割
• 中国語などの⾔語の単語分割を教師なしで求める
• ⽂字列の尤もらしい分割argmax | を⾒つける
• : a character sequence (a, n, a, p, p, l, e)
• : a segment sequence (an, ap, ple)
• 分割の尤もらしさを⾔語モデルで計算
• その分割に含まれる単語の確率
= +
,∈
~
argmax |
2019/9/28 最先端NLP2019 5
• ⾔語モデルの性能が良いほど,分割性能が良い
• 教師なし単語分割が⾔語モデルに求める性質
• ありうる全ての⽂字列に確率を与えることができる