Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019

Kon
October 25, 2019

自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019

Kon

October 25, 2019
Tweet

More Decks by Kon

Other Decks in Science

Transcript

  1. 自然言語処理初心者が AutoNLP に挑戦したお話
    LT,分野初心者大歓迎!! ML for Beginners! MeetUp #1 LT会
    Oct 27, 2019

    View full-size slide

  2. Yu Ohori (a.k.a. Kon)
    NS Solutions Corporation (Apr 2017 - )
    ● Researcher
    ● Data Science & Infrastructure Technologies
    ● System Research & Development Center
    ● Technology Bureau
    @Y_oHr_N
    @Y-oHr-N
    #SemiSupervisedLearning #AnomalyDetection #DataOps

    View full-size slide

  3. 約 2 週間,同僚 3 名と以下の大会に参加した
    3
    自然言語処理に関する
    AutoML の大会
    Aug 3, 2019 - Aug 31, 2019
    https://www.4paradigm.com/competition/autoNLP2019

    View full-size slide

  4. 本大会の内容は?
    入力
    ● 5 つの自然言語データセット(英語・中国語)
    ● 言語等が記載されたファイル(右図)
    提出物
    ● 学習,予測を行うコード
    制約
    ● 計算資源:1 GPU & 4 vCPUs (26 GB Memory)
    ● 計算時間:40 分
    評価指標
    ● Area under the Learning Curve (ALC)
    4

    View full-size slide

  5. 本大会の課題は?
    様々な言語の扱い
    ● 英語・中国語を適切に処理する方法は?
    長文・短文の扱い
    ● 素早く特徴を抽出する方法は?
    pre-trained model の扱い
    ● 最適な pre-trained model を選択する方法は?
    5

    View full-size slide

  6. 結果は?
    6
    66 チーム中 8 位

    View full-size slide

  7. 7
    我々の解法は?
    Sampler
    TfidfVectorizer
    TruncatedSVD
    LightGBMClassifier
    ● 10 万件以下になるように無作為に抽出
    ● 全角英数字を半角英数字に変換,大文字を小文字に変換,不要な記号を削除
    ● 中国語を jieba-fast で分かち書き
    ● ストップワードを削除(https://github.com/stopwords-iso/stopwords-zh)
    ● max_features=100_000, max_df=0.95, min_df=2
    ● n_components=100
    ● class_weight='balanced', feature_fraction=0.1, n_estimators=1_000
    ● early_stopping_rounds=10
    ● ハイパパラメータ探索は未実施

    View full-size slide

  8. 上位解法は?
    8
    Rank Team name Models URL
    1 DeepBlueAI CNN, RNN
    https://github.com/DeepB
    lueAI/AutoNLP
    2 upwind_flys LinearSVM, CNN
    https://github.com/upwin
    dflys/AutoNlp
    3 txta LinearSVM
    https://github.com/qingb
    onlp/AutoNLP

    View full-size slide