を上で得られた training data 3 𝐷 のソース側で学習 Ø この訓練された分割機を⽤いて単⾔語⽂ (test data) をトークナイズ • Character-based BiLSTM segmenter は n ⽂字の⽂ 𝐜 = (𝑐#, 𝑐$, . . . , 𝑐%) の サブワード境 界を決定するもの 8 𝐳 ∈ ℝ,×., 𝐡: hidden states, 𝑊 ∈ ℝ.×{0,!}: parameter matrix, 𝐛3 = (𝑏3,0 , 𝑏3,! ): t 番⽬の⽂字がサブワードの始点 (𝑏3,0 )か そうでないか (𝑏3,! ) を表す,確率分布 … そ の 計 測 法 で … (0.8, 0.2) (0.3, 0.7) (0.7, 0.3) (0.9 0.1) (0.4, 0.6) (0.65, 0.35) Beginning point