Slide 20
Slide 20 text
Step 4
日本語判定器を学習してより正確に日本語テキストを残す 20
● 日本語は記号のみで十分に判定できる(意味埋め込みは不要)
● 文字n-gramを特徴量に用いて,SVMをWikipediaで学習
○ 全言語の学習データから上位400,000件
○ 日本語の学習データから上位400,000件
○ 中国語の学習データから上位100,000件
○ その他各言語の学習データから上位10,000件
Step 2 迅速な日本語テキスト判定
テキスト抽出(Trafilatura)
Step 3
精密な日本語テキスト判定
lang属性とタイトル文のみを活用
HTMLからテキスト部分を抽出
線形分類器で正確に日本語を識別