自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019

Slide 1

Slide 1 text

自然言語処理初心者が AutoNLP に挑戦したお話 LT,分野初心者大歓迎!! ML for Beginners! MeetUp #1 LT会 Oct 27, 2019

Slide 2

Slide 2 text

Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 - ) ● Researcher ● Data Science & Infrastructure Technologies ● System Research & Development Center ● Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps

Slide 3

Slide 3 text

約 2 週間，同僚 3 名と以下の大会に参加した 3 自然言語処理に関する AutoML の大会 Aug 3, 2019 - Aug 31, 2019 https://www.4paradigm.com/competition/autoNLP2019

Slide 4

Slide 4 text

本大会の内容は？入力 ● 5 つの自然言語データセット（英語・中国語） ● 言語等が記載されたファイル（右図）提出物 ● 学習，予測を行うコード制約 ● 計算資源：1 GPU & 4 vCPUs (26 GB Memory) ● 計算時間：40 分評価指標 ● Area under the Learning Curve (ALC) 4

Slide 5

Slide 5 text

本大会の課題は？様々な言語の扱い ● 英語・中国語を適切に処理する方法は？長文・短文の扱い ● 素早く特徴を抽出する方法は？ pre-trained model の扱い ● 最適な pre-trained model を選択する方法は？ 5

Slide 6

Slide 6 text

結果は？ 6 66 チーム中 8 位

Slide 7

Slide 7 text

7 我々の解法は？ Sampler TﬁdfVectorizer TruncatedSVD LightGBMClassiﬁer ● 10 万件以下になるように無作為に抽出 ● 全角英数字を半角英数字に変換，大文字を小文字に変換，不要な記号を削除 ● 中国語を jieba-fast で分かち書き ● ストップワードを削除（https://github.com/stopwords-iso/stopwords-zh） ● max_features=100_000, max_df=0.95, min_df=2 ● n_components=100 ● class_weight='balanced', feature_fraction=0.1, n_estimators=1_000 ● early_stopping_rounds=10 ● ハイパパラメータ探索は未実施

Slide 8

Slide 8 text

上位解法は？ 8 Rank Team name Models URL 1 DeepBlueAI CNN, RNN https://github.com/DeepB lueAI/AutoNLP 2 upwind_ﬂys LinearSVM, CNN https://github.com/upwin dﬂys/AutoNlp 3 txta LinearSVM https://github.com/qingb onlp/AutoNLP