Slide 7
Slide 7 text
7
入力文の各文字境界について単語境界か否かを二値線形分
類問題として判定
固定長窓に含まれる文字列素性を利用してモデルを学習
❏ 文字 n-gram 素性(e.g., 世界, 界の, の国民)
❏ 文字種 n-gram 素性(e.g., ひらがな, カタカナ, 漢字)
❏ 辞書単語素性(e.g., UniDic, IPADIC)
以下の3ステップで単語分割
1. 入力文に含まれる素性を列挙
2. 素性に紐づくスコアを加算
3. 合計スコアから各文字境界が単語境界かを判別
点予測に基づく単語分割 [森ら, 2011] 単語の境界か?
Step1. 素性列挙
Step2. スコア加算
Vaporettoでは各ステップを高速に設計
参考文献: 森 信介, 中田 陽介, Neubig Graham, 河原 達也, 点予測による形態素解析, 自然言語処理, 2011