Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019

Kon
October 25, 2019

自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019

Kon

October 25, 2019
Tweet

More Decks by Kon

Other Decks in Science

Transcript

  1. Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 -

    ) • Researcher • Data Science & Infrastructure Technologies • System Research & Development Center • Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps
  2. 本大会の内容は? 入力 • 5 つの自然言語データセット(英語・中国語) • 言語等が記載されたファイル(右図) 提出物 • 学習,予測を行うコード

    制約 • 計算資源:1 GPU & 4 vCPUs (26 GB Memory) • 計算時間:40 分 評価指標 • Area under the Learning Curve (ALC) 4
  3. 7 我々の解法は? Sampler TfidfVectorizer TruncatedSVD LightGBMClassifier • 10 万件以下になるように無作為に抽出 •

    全角英数字を半角英数字に変換,大文字を小文字に変換,不要な記号を削除 • 中国語を jieba-fast で分かち書き • ストップワードを削除(https://github.com/stopwords-iso/stopwords-zh) • max_features=100_000, max_df=0.95, min_df=2 • n_components=100 • class_weight='balanced', feature_fraction=0.1, n_estimators=1_000 • early_stopping_rounds=10 • ハイパパラメータ探索は未実施
  4. 上位解法は? 8 Rank Team name Models URL 1 DeepBlueAI CNN,

    RNN https://github.com/DeepB lueAI/AutoNLP 2 upwind_flys LinearSVM, CNN https://github.com/upwin dflys/AutoNlp 3 txta LinearSVM https://github.com/qingb onlp/AutoNLP