Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up
for free
自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019
Kon
October 25, 2019
Science
0
510
自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019
https://netadashi.connpass.com/event/149600/
https://mlforbiginners.connpass.com/event/149041/
Kon
October 25, 2019
Tweet
Share
More Decks by Kon
See All by Kon
yohrn
0
440
yohrn
1
2.4k
yohrn
0
200
yohrn
1
3k
yohrn
9
2.4k
yohrn
0
3.2k
yohrn
0
1.6k
yohrn
6
2.1k
yohrn
0
550
Other Decks in Science
See All in Science
shuntaros
0
290
shel
0
170
hoxomaxwell
2
110
shuntaros
0
330
agritof80
0
260
utaka233
0
290
ianozsvald
0
290
takay88
0
240
shiftpn
0
2.4k
dwhgg
0
460
scrummasudar
2
480
shuntaros
0
290
Featured
See All Featured
sugarenia
233
850k
mza
80
4.1k
62gerente
587
200k
skipperchong
8
710
kneath
295
39k
jmmastey
10
600
addyosmani
311
21k
eileencodes
113
25k
trallard
13
710
brad_frost
157
6.4k
afnizarnur
176
14k
cromwellryan
103
6.1k
Transcript
自然言語処理初心者が AutoNLP に挑戦したお話 LT,分野初心者大歓迎!! ML for Beginners! MeetUp #1 LT会
Oct 27, 2019
Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 -
) • Researcher • Data Science & Infrastructure Technologies • System Research & Development Center • Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps
約 2 週間,同僚 3 名と以下の大会に参加した 3 自然言語処理に関する AutoML の大会 Aug
3, 2019 - Aug 31, 2019 https://www.4paradigm.com/competition/autoNLP2019
本大会の内容は? 入力 • 5 つの自然言語データセット(英語・中国語) • 言語等が記載されたファイル(右図) 提出物 • 学習,予測を行うコード
制約 • 計算資源:1 GPU & 4 vCPUs (26 GB Memory) • 計算時間:40 分 評価指標 • Area under the Learning Curve (ALC) 4
本大会の課題は? 様々な言語の扱い • 英語・中国語を適切に処理する方法は? 長文・短文の扱い • 素早く特徴を抽出する方法は? pre-trained model の扱い
• 最適な pre-trained model を選択する方法は? 5
結果は? 6 66 チーム中 8 位
7 我々の解法は? Sampler TfidfVectorizer TruncatedSVD LightGBMClassifier • 10 万件以下になるように無作為に抽出 •
全角英数字を半角英数字に変換,大文字を小文字に変換,不要な記号を削除 • 中国語を jieba-fast で分かち書き • ストップワードを削除(https://github.com/stopwords-iso/stopwords-zh) • max_features=100_000, max_df=0.95, min_df=2 • n_components=100 • class_weight='balanced', feature_fraction=0.1, n_estimators=1_000 • early_stopping_rounds=10 • ハイパパラメータ探索は未実施
上位解法は? 8 Rank Team name Models URL 1 DeepBlueAI CNN,
RNN https://github.com/DeepB lueAI/AutoNLP 2 upwind_flys LinearSVM, CNN https://github.com/upwin dflys/AutoNlp 3 txta LinearSVM https://github.com/qingb onlp/AutoNLP