Slide 7
Slide 7 text
7
我々の解法は?
Sampler
TfidfVectorizer
TruncatedSVD
LightGBMClassifier
● 10 万件以下になるように無作為に抽出
● 全角英数字を半角英数字に変換,大文字を小文字に変換,不要な記号を削除
● 中国語を jieba-fast で分かち書き
● ストップワードを削除(https://github.com/stopwords-iso/stopwords-zh)
● max_features=100_000, max_df=0.95, min_df=2
● n_components=100
● class_weight='balanced', feature_fraction=0.1, n_estimators=1_000
● early_stopping_rounds=10
● ハイパパラメータ探索は未実施