Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Kaggle Feedback Prizeコンペ 反省会

shimacos
April 05, 2022

Kaggle Feedback Prizeコンペ 反省会

社内の勉強会で発表した資料になります。
Kaggleの「Feedback Prize - Evaluating Student Writing」コンペについての資料です。
工夫できる点や勉強になる点が多く、面白いコンペだったと思います。
コンペについての概要、自身の解法、上位解法のまとめ、加えてKaggleで使えるTIPSについて紹介しています!

shimacos

April 05, 2022
Tweet

More Decks by shimacos

Other Decks in Science

Transcript

  1. 2 自己紹介 島越 直人 • 経歴 • 奈良県出身 • 京都大学

    機械理工学専攻 卒業 • 2019/04 ~ DeNA新卒入社 • 2020/04 ~ MoT出向 • 2022/04 ~ 帰任、AI技術開発部第三G (New!) • Kaggle • 色々なドメインのデータに触れるのが好きです。 よくトリゴエと間違えられますがシマコシです @nt_4o54
 @shimacos

  2. 5 はじめに 1 スライド中の用語を整理しておきます • Word:単語 ( I am a

    Kaggle Grandmaster.) ◦ 大体 sentence.split()で出てくるものと同義。 • Character:文字 ( I a m a K a g g l e G r a n d m a s t e r . ) • Token: tokenizerで文字を分割した単位。モデルによって様々。 ◦ Robertaの場合:'I', 'Ġam', 'Ġa', 'ĠK', 'agg', 'le', 'ĠGrand', 'master', '.'
  3. 6 データ 1 アメリカの6年生から12年生までのレポートに対して要素毎に以下の分類を行う。 • Lead: 序論 • Position: 主題

    • Claim: 主張 • Counterclaim: 主張に対する反論 • Rebuttal: 反論に対する主張 • Evidence: Claim, Counterclaim, Rebuttalに対する証拠 • Concluding Statement: 結論
  4. 9 評価指標 1 • 特殊なmacro F1 score ◦ 文章の中からラベルの単語開始indexと単語終了indexを予測する ◦

    予測と正解の被りが0.5以上あればTP, 被りが発生していない予測はFP, 被りが 発生していない正解はFN ▪ 複数の被りがある場合は、一番被りが大きいもののみ採用される ◦ クラス毎のTP / ( TP + 0.5(FP + FN))の平均 TP TP FN TP TP TP FP FP FP TP FP TP FP FP
  5. 10 めんどくさいところ 1 • モデルで学習させる時は、Token単位の入力 -> Token単位の出力になる。 • 予測するのは単語単位なので、単語単位の予測値に直す必要がある。 ◦

    ラベルも同じで、Word単位のlabelをToken単位に直す必要がある。 ◦ transformersを使っている場合は、offset_mappingを使うことで可能 • アンサンブルする際にTokenizerが違う場合は、tokenが違うので注意 ◦ CharacterベースでアンサンブルするかWordベースでアンサンブルするか ◦ Characterベースでやる場合は、Notebookのメモリ管理に注意 • 評価指標の計算やモデルの予測から提出の形にするのに時間がかかるので、 アンサンブルの重みとかを考えるだけでも計算コストがかかる
  6. 11 めんどくさいところ 1 元のデータセットのラベル (discourse_text)とKaggleのつけたラベルが一致しない。 • 評価はKaggleのつけたラベル (predictioinstring)で行われる • コンペ序盤でリバースエンジニアリングされた。

    • discourse_start, end -> predictionstringはできるが、 predictionstring -> discourse_start, end, textはできない • 元データから個人情報などをmaskした際にズレが生じた (らしい) (例) ‘John Doe’ -> GENERIC_NAME 不一致 再現しない Characterベースの値 Wordベースの値
  7. 12 めんどくさいところ 1 ラベルのつけ方もいろいろ考えられる • 評価はpredictionstringでやられるので、predictionstringで作成 ◦ 正規表現などで、Word -> Characterのmapping

    (discourse_start, end)が必要 • 文章として成り立ってないと学習のノイズになるのでdiscourse_textで作成 ◦ 正規表現などで、discourse_text -> Characterのmapping が必要 • 不一致が発生するのは少数なので、無視してdiscourse_start, endでラベルを作成 不一致 再現しない Characterベースの値 Wordベースの値
  8. 13 データを見た感じのまとめ 1 • Long Document + Token Classificationのタスク •

    評価指標 ◦ macro F1なので、少数クラスも大事 ◦ 予測値をみながらTPを増やしながら、FP, FNを減らすことが重要 • モデルの目的変数や、出力をどう扱うかに工夫ポイントがありそう
  9. 15 Overview (1/2) ラベルのつけ方 • discourse_textからdiscourse_start, endを修正 -> BIOラベル 1st

    モデル (Teamメンバーと合同作業) • Relative Positional Attention系 ◦ DeBERTa (large, x-large), DeBERTaV2 (x-large), Funnel Transformer (large) • Sinusoidal Positional Encoder系 ◦ Longformer (large), Roberta (large) • 入力:1536 token, 出力 1536 token • 損失関数:Cross Entropy + (一部)SAM Optimizer 2
  10. 16 Overview (2/2) 1st モデルの予測 -> 文章を分割 • ‘B-’ラベル以外の予測でも、クラスが違えば要素の開始点とする ◦

    例) B-Lead, I-Lead, I-Position, I-Position の様な時にI-Positionでも分割 2nd モデル • 分割した要素毎にTP or FPかを判定するLightGBMモデル • 特徴量 ◦ 文字数や文章の位置など ◦ 分割単位でクラス毎のmin, max, mean, std, first, last ◦ 上記aggregation特徴量のレポート全体で見たときのlag, lead, cumsum, rolling meanなど 2
  11. 17 BIO ラベル • NERでよく使われるラベル • ラベルのつけ方 ◦ クラスの開始点のToken’を’B-{Class}’ (Begin)

    クラスとする。 ◦ 開始点以外のTokenを’I-{Class}’ (Internal) クラスとする。 ◦ どのクラスにも属さない要素を’O’ (Other) クラスとする。 • Decodeの仕方 (一般的なやり方は知らない ◦ ‘B-’クラスを開始点として、次に’O’ or ‘B-’が始まるまでを そのクラスに所属する予測とする ◦ (今回の場合は) 違うクラスの‘I-’の場合も開始点とした。 2
  12. 18 1st Model / DeBERTa • Relative Positionを使ったAttention Moduleなので、max_lengthは512で 事前学習しているが、512以上のtoken

    lengthを扱うことができる。 ◦ i番目のpositionとj番目のpositionの間の相対位置を要素にもつ 行列 P を用いたAttention計算を行う (詳しくは論文で 2 https://arxiv.org/pdf/2006.03654.pdf
  13. 19 1st Model / DeBERTa • Relative Positionを使ったAttention Moduleなので、max_lengthは512で 事前学習しているが、512以上のtoken

    lengthを扱うことができる。 ◦ 実装だと単純に端を0, 512に押し込めているだけっぽい? (roundした方が良さそうな気がする) ◦ これくらいならSinusoidal Positional Encoderのモデルにも応用できそう。 2
  14. 20 1st Model / Funnel Transformer • UNet的なアーキテクチャにして、Attention中に全長を保持しなくて済むので 効率的なアーキテクチャになっている •

    絶対位置のEncodingだとPoolingによって情報が死んでしまうのか、 Relative Attentionに比べて結構GLUEスコアが落ちてる ◦ Transformer-XLのRelative Attentionを用いている (論文のA-2に実装 ◦ (多分)各LayerのAttentionに同様に絶対位置情報を与えたら改善するはず 2 https://arxiv.org/pdf/2006.03236.pdf
  15. 21 1st Model / LongFormer • Attentionモジュールを工夫することで、4096のtoken lengthで事前学習すること に成功。 ◦

    [CLS] tokenは全部にAttentionするなど重要なものだけ重みをもつ Global Attention と Sliding Window Attentionの組み合わせ ◦ 特に気にせずそのままinputできるので序盤から人気 2 https://arxiv.org/pdf/2004.05150.pdf
  16. 22 1st Model / Roberta • そのままだとmax_length=512で事前学習されているので、 文章全体を入力にできない。 • 以下の様に、Slideさせて推論しTokenごとに平均を取った

    ◦ LongFormerと遜色ないくらいの精度は出る (が、実装はめんどくさい ◦ 予測の仕方が他のものと異なるのでアンサンブルに役立った ◦ 1位も同じことをしたRobertaをアンサンブルに組み込んでいた 2 https://www.kaggle.com/competitions/feedback-prize-2021/discussion/313177
  17. 24 2nd Model / LightGBM (LB + 0.03 - 0.05)

    • 前述のsplit_id単位で予測値をgroupbyして統計量を算出 • 出した統計量をさらに文章全体を時系列として時系列系の特徴を算出 ◦ lag, lead, rolling, cumsum • class分類よりTP/FPの分類の方が良かった。 ◦ ここの閾値はクラス毎にNelder-Meadで決定 2 特徴量重要度上位
  18. 25 効かなかったこと • BILOUラベル (若干は改善したが、再学習に時間がかかるので断念 • サンプル数やラベルの長さに対して重みをつけたCross Entropy / Focal

    Lossなど • ビームサーチで候補を出して元の予測との被りが0.5より少なかった場合にLGBMの 入力候補に加える (若干良くなるが、微改善) • 分割は合ってるがクラス判定ミスしているような予測なども LGBMの入力候補に加えてTP/FP分類でなく、クラス分類を行う • 2nd ModelをLSTMにしたり、Bertにしたり、Word2Vec的な特徴加えたり • HeadにCRF、LSTMなど • BARTはシングルはあまり強くないが、アンサンブルには効いた • この辺りのFinetuningテクニック • etc, etc... 2
  19. 28 Single Modelの精度向上 (1/2) • Adversarial Weight Perturbation (1st) •

    Copy and Paste Augmentation (3rd) • B, I, Oの3クラスのSegmentation LossとNERのLossのMulti Task (5th) • Cross-Entropy with dynamic cosine-based class weights (5th) • 連続でClassが登場しないものの’B-’ラベルを無くして10クラス分類 (5th) 3
  20. 29 Single Modelの精度向上 (2/2) • B + 各クラス + Oのラベルで学習し、TokenをDropout

    (7th, 9th) • Shorter Model ◦ 単純にModelを時間方向にconcatして対応 (7th) ◦ SlideさせてMean (1st) ◦ Slideさせて時間方向にconcatさせてGRU (3rd) • Mean Teacher (8th) • SWA (8th) • Deberta V2(3)のTokenizerに’\n’を加える (4th, 9th) • torch.scatter_addを使い、TransformerのheadにWord単位のLSTMをつける。 後段の処理も楽になるし賢い!(9th) 3
  21. 30 Ensemble • Weighted Box Fusion (2nd, 5th) • Optunaで重み調整

    (7th) • 近くのTokenも合わせて(恐らくwindow幅を持たせて) Ensembleする (11th) 3
  22. 31 Postprocess (1/2) • 予測した’B-’タグから一つずつ長さを増やしていって、LGBMの入力候補を複数出す (1st, 3rd) ◦ この候補でRecall 90%くらい出るらしい

    ◦ 推論時に同様に全ての候補を出すのは大変なので、 予測の確率値で(恐らく)65%くらいのRecallが出る様に閾値を決めている。 ◦ 自分と同じ統計量に加えてテキスト系の特徴などたくさん作っている ◦ 同じB-に対する予測は基本的にsortして予測確率が高いものを選択 3 B-Lead 正解 候補1 候補2 候補N
  23. 32 Postprocess (2/2) • Lead, Position, Concluding Statementなどは大体1文章に1つなので、予測値が 最大のもののみを選択 (2nd)

    • 予測したクラスの長さによっては、後ろにいくらかずらす (2nd) • Beam Searchで候補を複数出した後に、予測範囲が50%以上被っているものを同 じグループとして扱い、その中で予測値を平均する (4th) • 自分と同様にLightGBMなどで最後のTP / FPの部分のみ最適化 (10th, 11th) 3
  24. 33 その他 (6th Place) • YOLOの問題として定式化し、以下のラベルを作成 ◦ foregroundかbackgroundかのbinary label ◦

    クラスの開始点と終了点までの距離のRegressionラベル ◦ クラス分類のラベル • Token単位の予測をWord単位に変換するためにRoIAlignを使用 • Object Detectionでは、物体の真ん中をforegroundとするが、今回はクラスの 開始点をforegroundとした • NMSで予測を絞り、WBFでアンサンブル 3
  25. 34 まとめ + 反省 • 珍しいほどコードが公開されているので、今後もめちゃくちゃ参考になりそう • アンサンブルはNLPにおいて大事だが、 それにかまけてSingle Modelの改善を怠ると負ける

    • Object Detectionなどの他分野の知識も持っておくと有利なことも往々にしてあ る。 • Do Everything ◦ Notebookで1stのアイデアは出てたが、コードが汚い + データセット作成 に数時間かかるみたいな感じで諦めてしまった ◦ 1stはコードも綺麗にしてjitなどで高速化していた 3
  26. 36 コンペ中に使ったちょっとしたTIPS 4 • Notebookコンペで複数種類のモデルをEnsembleしようとすると 特にNLPコンペだとすぐにメモリエラーになってしまう。 ◦ %%python で1modelずつ実行することで、毎回メモリを解放してくれる ◦

    util系も毎回呼び出さなきゃいけないので、Notebookが長くなりがち。 datasetにコードをあげておくと便利。 ◦ /tmp ディレクトリを活用して、中間出力などを保存する • Deberta-xlargeなどの大きいモデルで長いシーケンスを学習させたい ◦ Longformerと違って最適化されていないので、メモリ使用量が高い ◦ DeepSpeedがいい感じになっていて、メモリ消費量を抑えられる。 ▪ pytorch-lightningやtransformersでも提供されている