Slide 11
Slide 11 text
3 FEATURE ENGINEERING
Text features
- 文字単位のnグラム
- 文: …to_be_or_not_to_be…
- unigram: …, t, o, _, b, e, _, o, r, _, n, o, t, _, t, o, _, b, e, …
- 単語単位のnグラム
- 文… to be or not to be …
- unigram…, to, be, or, not, to, be, …
- “文字”単位の方が性能は良かったが、組み合わせて使うとより良い
- この手の報告はいまいち信用しき
r…
- Fucebookでの検索対象(人、グループ、イベントページ)には
embedding単体でも有用
- Fuzzy text match: kacis creations -> Kasie’s creations
- Optionalization “mini cooper nw” -> “Mini cooper owner/drivers club”
- nwを勝手に削る