AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」2位解法

by STAIR Lab

Embed

Start on current slide

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

①モデルの改良 ○被度0.05以下のデータが半数以上 ○Tweedie分布を仮定した損失関数を指定 ○副産物としてコンペ初期から Random seed averagingを採用 ○Tweedie分布の最適化中に、 Publicスコアのブレが大きいことを発見 ○乱数値を変えた５モデル平均によりブレが抑えられたので採用。試行の効果を正しく評価可能にした © 2023 Fujitsu Limited 学習データでの被度のヒストグラム 0.05以下にデータが集中 4

Slide 5

Slide 5 text

②キー特徴量のアイデア、その１ © 2023 Fujitsu Limited 5 文献での測定値目的変数有効数字を落とした５段階表現 50～75% 0.625 ？？？ 0.600 25～50% 0.275 1～5% 0.030 ？？？ 0.820 … … … ○測定値の誤差は文献ごとに異なるが、目的変数への変換時に誤差情報が失われているのではないか ○有効数字を落とし、似た値を似た値として学習出来る様に変換する ○例）0.625と0.600は同じ値として扱う

Slide 6

Slide 6 text

②キー特徴量のアイデア、その２ © 2023 Fujitsu Limited 6 ○学習データとテストデータで空間分布が異なる中でも、空間を格子状に分割したTarget Encodingを使うためのサブモデル格子A内の学習データの被度上位10%値は0.75である。同様に、格子A内のテストデータでも0.75であろう。格子A内の学習データの被度上位10%値は0.75であり、衛星データは X(*) である。同様に、衛星データが Xであるテストデータでも0.75であろう。よくある Target Encoding 工夫 (*) Sentinel衛星の225列データ格子ごとにEncode サブモデルで学習サブモデルで推論格子ごとにEncode

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

②キー特徴量の計算(5/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ○被度上位10%が５段階の閾値を超えるか否かのbooleanを計算し、各行に設定（同じ格子内では同じbooleanが設定される） ID 上位 10%値 > 0.05 > 0.2 > 0.4 > 0.625 > 0.875 1 0.8 True True True True False 2 0.8 True True True True False … … … … … … … 14000 0.2 True False False False False 被度 1.0 0.0 11 有効数字を落とした表現

Slide 12

Slide 12 text

②キー特徴量の計算(6/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ○booleanを目的変数、Sentinelデータを説明変数として、５つのサブモデルを学習 ID Sentinelデータ > 0.05 … > 0.875 1 … … … … True ... False 2 … … … … True … False … … … … … … … … 14000 … … … … False … False 被度 1.0 0.0 正解ラベル ① 正解ラベル ⑤ … 説明変数 12

Slide 13

Slide 13 text

②キー特徴量の計算(7/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ○サブモデルの予測確率を本体モデルの特徴量に追加被度 1.0 0.0 ID Sentinelデータ > 0.05 … > 0.875 1 … … … … 0.752 ... 0.125 2 … … … … 0.821 … 0.084 … … … … … … … … 14000 … … … … 0.541 … 0.012 ID Sentinelデータ > 0.05 … > 0.875 14001 … … … … 0.782 ... 0.021 … … … … … … … … 18000 … … … … 0.932 … 0.076 学習デ｜タテストデ｜タ学習データはout of fold予測 13 キー特徴量

Slide 14

Slide 14 text

Slide 15

Slide 15 text

難しかったこと ○Cross ValidationとPublicスコアが相関しなかった ○主催者の意図を外さないように、特徴量改善に集中キックオフ動画より、 ○Landsatは変動を使うと良い ○Sentinelデータは使った方が良い ○年ごとの急変予測は難しい © 2023 Fujitsu Limited 0.15 0.16 0.17 0.18 0.15 0.16 0.17 0.18 Publicスコア Cross Validation 15