Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」2位解法

 AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」2位解法

Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。
https://signate.jp/competitions/936

こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、2位解法の解説スライドです。

STAIR Lab

June 22, 2023
Tweet

More Decks by STAIR Lab

Other Decks in Technology

Transcript

  1. 自己紹介 © 2023 Fujitsu Limited 目的変数 … … 前処理 データ探索

    モデル構築 テーブルデータとタスク設定を入力に、 機械学習モデルを生成するコードを出力する、AutoMLの研究開発 AutoML 入力 出力 ユーザー名 富士通株式会社 人工知能研究所 所属 研究内容 2 富士通研究所 テックブログ 検索
  2. Publicスコアの時間推移 © 2023 Fujitsu Limited ②キー特徴量 の発見 0.180 0.175 0.170

    0.165 0.160 0.155 RMSE 時間 ③特徴量選択 ①モデルの改良 +副産物 3 大きく改善したポイントに絞って共有させて下さい
  3. ②キー特徴量のアイデア、その1 © 2023 Fujitsu Limited 5 文献での 測定値 目的変数 有効数字を落とした

    5段階表現 50~75% 0.625 ??? 0.600 25~50% 0.275 1~5% 0.030 ??? 0.820 … … … ◦測定値の誤差は文献ごとに異なるが、 目的変数への変換時に誤差情報が失われているのではないか ◦有効数字を落とし、似た値を似た値として学習出来る様に変換する ◦例)0.625と0.600は同じ値として扱う
  4. ②キー特徴量のアイデア、その2 © 2023 Fujitsu Limited 6 ◦学習データとテストデータで空間分布が異なる中でも、 空間を格子状に分割したTarget Encodingを使うためのサブモデル 格子A内の学習データの被度上位10%値は0.75である。

    同様に、格子A内のテストデータでも0.75であろう。 格子A内の学習データの被度上位10%値は0.75であり、 衛星データは X(*) である。 同様に、衛星データが Xであるテストデータでも0.75であろう。 よくある Target Encoding 工夫 (*) Sentinel衛星の225列データ 格子ごとにEncode サブモデルで学習 サブモデルで推論 格子ごとにEncode
  5. ②キー特徴量の計算(4/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ◦格子ごとに被度の上位10%値を取得し、各行に設定 被度

    1.0 0.0 ID その他のデータ 上位10%値 1 … … … 0.8 2 … … … 0.8 … … … … … 14000 … … … 0.2 10
  6. ②キー特徴量の計算(5/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ◦被度上位10%が5段階の閾値を超えるか否かのbooleanを計算し、 各行に設定(同じ格子内では同じbooleanが設定される)

    ID 上位 10%値 > 0.05 > 0.2 > 0.4 > 0.625 > 0.875 1 0.8 True True True True False 2 0.8 True True True True False … … … … … … … 14000 0.2 True False False False False 被度 1.0 0.0 11 有効数字を落とした表現
  7. ②キー特徴量の計算(6/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ◦booleanを目的変数、Sentinelデータを説明変数として、 5つのサブモデルを学習

    ID Sentinelデータ > 0.05 … > 0.875 1 … … … … True ... False 2 … … … … True … False … … … … … … … … 14000 … … … … False … False 被度 1.0 0.0 正解 ラベル ① 正解 ラベル ⑤ … 説明変数 12
  8. ②キー特徴量の計算(7/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ◦サブモデルの予測確率を本体モデルの特徴量に追加 被度

    1.0 0.0 ID Sentinelデータ > 0.05 … > 0.875 1 … … … … 0.752 ... 0.125 2 … … … … 0.821 … 0.084 … … … … … … … … 14000 … … … … 0.541 … 0.012 ID Sentinelデータ > 0.05 … > 0.875 14001 … … … … 0.782 ... 0.021 … … … … … … … … 18000 … … … … 0.932 … 0.076 学 習 デ | タ テ ス ト デ | タ 学習データはout of fold予測 13 キー特徴量
  9. まとめ © 2023 Fujitsu Limited ① Random seed averagingを初期に採用し、 各試行を正しく評価

    ② 有効数字を落とした表現を、 空間分布を元に予測するサブモデルを採用 その他 358回の個人最多submit 16