Slide 19
Slide 19 text
タイプとトークンの区別を踏まえて……
埋め込み空間の補正
19
タイプとして単語を⾒る トークンとして単語を⾒る
期待値の気持ちに戻って実際にサンプリングしてみる
𝔼!∼%(!) 𝒘 = $
!
𝑝 𝑤 𝒘
𝑤 ~ ⼀様分布 𝑤 ~ 経験頻度
‘scintillation’, ‘fanon’, ‘rubato’,
‘upstanding’, ‘collard’, ‘creeks’,
‘skookum’, ‘unbelievers’,
‘monocyte’, ‘nishikawa’, ‘crusher’,
‘gerwen’, ‘abrah’, ‘silverchair’,
‘hangman’, ‘unitary’, ‘klausen’,
‘arousal’, ‘heat’, ‘bridgnorth’,
‘mildred’, ……
‘nine’, ‘ranked’, ‘zero’, ‘the’,
‘garcia’, ‘rank’, ‘station’, ‘the’,
‘for’, ‘four’, ‘williams’, ‘drunken’,
‘a’, ‘one’, ‘eight’, ‘of’, ‘were’,
‘zero’, ‘debate’, ‘orchestra’, ……
⾔語それ⾃体を
⾃然に表していそう
なのはこちら