Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggle - Linking Writing Processes to Writing Q...

Falcon
March 02, 2024
760

Kaggle - Linking Writing Processes to Writing Quality の振り返り

関西kaggler会2024春の発表資料

Falcon

March 02, 2024
Tweet

Transcript

  1. トークン化した場合のトークン数の分布 概要 Lightgbm, xgboost, catboost, denselight(MLP)のアンサンブル 特徴量は2パターン用意 ・公開ノートブックや自作で追加した特徴量 1504種類 ・165個の特徴+distil-robertaで学習した予測値

    4つのモデル ×2種類の特徴量= 8通りの予測値の重みづけ平均 10Fold×5 seed Average 前処理 再構成した文章を連続する文字数に変換した文章でdistil-robertaを学習 qqqqqq qq qqq qqqq. → 6 2 3 4. Tokenizerに含まれる語彙はq, qq, _q, q_などで3文字以上はトークン化できないことが理由 Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog モデルの選択 コンペ終了間際に右の記事をコンペ終了間際に見つけたことが理由 このコンペでも軽量のモデルの方が良い傾向が見られた (レイトサブではdeberta-v3-xsmallの方が少し良かった) 前処理なし CV:0.7638 前処理あり CV:0.6050 (max_token = 512)
  2. 過去コンペの予測対象を特徴量として活用する(1st) The third wave was… Content:0.2056 例) CommonLit - Evaluate

    Student Summariesのデータの例 (要約文の出来栄えを評価する過去のコンペ) Qqq qqqqq qqq qqq… 匿名化 外部データの文章と予測対象のペア Qqqqqq qqq qqqq… 再構成した文章 予測モデルの学習 推論して、外部データのスコアを特徴量化 Linking Writing Processes to Writing Quality | Kaggle 外部スコアと予測対象には強い相関が見られた
  3. 2023年は金メダルにかすりもしな い状態 (4つコンペに参加して銀2銅2) 最後までやり切っていれば、メダル が降ってくることもある 継続する 自分のアイデアを信じて、上手くい くまで実験を続ける 細かいアプローチの違いが原因で 上手くいっていないことも多い

    (自分の実装力が無いだけかもしれないけど) 諦めない心 育児もあり、コンペの時間があまり 取れないので、コンペ開始直後から 取り組んでコンペ期間をフルに使う ように意識している 追い込まれないと頑張れないので、 結局、コンペ終盤しか取り組めない ことも多いけど 計画的に進める