Slide 7
Slide 7 text
6
〜2012年までの特徴
✔ 単語への分割や正規化が重要 (日本語はどのような形態素解析(分割)をするかが結果を大きく左右される)
✔ 頻度情報に変換するという特徴から文脈の考慮は不可能(フレーズへの拡張などで対応していた)
✔ スパースなデータであることから,モデルの学習には大量のデータが必要
✔ 次元圧縮したベクトルを用いた類似文検索や教師無しクラスタリングが主流
✔ 単語の共起に着目した分析も主流
✔ 教師あり学習による文の分類はSVMなどを用いることが大半
日銀のワーキングペーパーより抜粋
景気ウォッチャーのテキスト分析
https://www.boj.or.jp/research/wps_rev/lab/lab21j02.htm