Slide 1

Slide 1 text

ブルーカーボン・ダイナミクスを 可視化せよ! 2位解法 2023年6月9日 © 2023 Fujitsu Limited

Slide 2

Slide 2 text

自己紹介 © 2023 Fujitsu Limited 目的変数 … … 前処理 データ探索 モデル構築 テーブルデータとタスク設定を入力に、 機械学習モデルを生成するコードを出力する、AutoMLの研究開発 AutoML 入力 出力 ユーザー名 富士通株式会社 人工知能研究所 所属 研究内容 2 富士通研究所 テックブログ 検索

Slide 3

Slide 3 text

Publicスコアの時間推移 © 2023 Fujitsu Limited ②キー特徴量 の発見 0.180 0.175 0.170 0.165 0.160 0.155 RMSE 時間 ③特徴量選択 ①モデルの改良 +副産物 3 大きく改善したポイントに絞って共有させて下さい

Slide 4

Slide 4 text

①モデルの改良 ○被度0.05以下のデータが半数以上 ○Tweedie分布を仮定した損失関数を指定 ○副産物としてコンペ初期から Random seed averagingを採用 ○Tweedie分布の最適化中に、 Publicスコアのブレが大きいことを発見 ○乱数値を変えた5モデル平均により ブレが抑えられたので採用。 試行の効果を正しく評価可能にした © 2023 Fujitsu Limited 学習データでの 被度のヒストグラム 0.05以下にデータが集中 4

Slide 5

Slide 5 text

②キー特徴量のアイデア、その1 © 2023 Fujitsu Limited 5 文献での 測定値 目的変数 有効数字を落とした 5段階表現 50~75% 0.625 ??? 0.600 25~50% 0.275 1~5% 0.030 ??? 0.820 … … … ○測定値の誤差は文献ごとに異なるが、 目的変数への変換時に誤差情報が失われているのではないか ○有効数字を落とし、似た値を似た値として学習出来る様に変換する ○例)0.625と0.600は同じ値として扱う

Slide 6

Slide 6 text

②キー特徴量のアイデア、その2 © 2023 Fujitsu Limited 6 ○学習データとテストデータで空間分布が異なる中でも、 空間を格子状に分割したTarget Encodingを使うためのサブモデル 格子A内の学習データの被度上位10%値は0.75である。 同様に、格子A内のテストデータでも0.75であろう。 格子A内の学習データの被度上位10%値は0.75であり、 衛星データは X(*) である。 同様に、衛星データが Xであるテストデータでも0.75であろう。 よくある Target Encoding 工夫 (*) Sentinel衛星の225列データ 格子ごとにEncode サブモデルで学習 サブモデルで推論 格子ごとにEncode

Slide 7

Slide 7 text

②キー特徴量の計算(1/7) © 2023 Fujitsu Limited 被度 1.0 0.0 ○各点を測定地点とし、その被度を色味で可視化 7

Slide 8

Slide 8 text

②キー特徴量の計算(2/7) © 2023 Fujitsu Limited ○緯度と経度で200×200の格子にデータを分割 被度 1.0 0.0 8

Slide 9

Slide 9 text

②キー特徴量の計算(3/7) © 2023 Fujitsu Limited ○格子内のデータ数が5未満の格子を計算対象から除外 被度 1.0 0.0 9

Slide 10

Slide 10 text

②キー特徴量の計算(4/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ○格子ごとに被度の上位10%値を取得し、各行に設定 被度 1.0 0.0 ID その他のデータ 上位10%値 1 … … … 0.8 2 … … … 0.8 … … … … … 14000 … … … 0.2 10

Slide 11

Slide 11 text

②キー特徴量の計算(5/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ○被度上位10%が5段階の閾値を超えるか否かのbooleanを計算し、 各行に設定(同じ格子内では同じbooleanが設定される) ID 上位 10%値 > 0.05 > 0.2 > 0.4 > 0.625 > 0.875 1 0.8 True True True True False 2 0.8 True True True True False … … … … … … … 14000 0.2 True False False False False 被度 1.0 0.0 11 有効数字を落とした表現

Slide 12

Slide 12 text

②キー特徴量の計算(6/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ○booleanを目的変数、Sentinelデータを説明変数として、 5つのサブモデルを学習 ID Sentinelデータ > 0.05 … > 0.875 1 … … … … True ... False 2 … … … … True … False … … … … … … … … 14000 … … … … False … False 被度 1.0 0.0 正解 ラベル ① 正解 ラベル ⑤ … 説明変数 12

Slide 13

Slide 13 text

②キー特徴量の計算(7/7) © 2023 Fujitsu Limited 0.8 0.35 0.2 ○サブモデルの予測確率を本体モデルの特徴量に追加 被度 1.0 0.0 ID Sentinelデータ > 0.05 … > 0.875 1 … … … … 0.752 ... 0.125 2 … … … … 0.821 … 0.084 … … … … … … … … 14000 … … … … 0.541 … 0.012 ID Sentinelデータ > 0.05 … > 0.875 14001 … … … … 0.782 ... 0.021 … … … … … … … … 18000 … … … … 0.932 … 0.076 学 習 デ | タ テ ス ト デ | タ 学習データはout of fold予測 13 キー特徴量

Slide 14

Slide 14 text

Feature Importanceでの評価 © 2023 Fujitsu Limited ○82個の特徴量の内、 キー特徴量が上位を占める 14

Slide 15

Slide 15 text

難しかったこと ○Cross ValidationとPublicスコアが 相関しなかった ○主催者の意図を外さないように、 特徴量改善に集中 キックオフ動画より、 ○Landsatは変動を使うと良い ○Sentinelデータは使った方が良い ○年ごとの急変予測は難しい © 2023 Fujitsu Limited 0.15 0.16 0.17 0.18 0.15 0.16 0.17 0.18 Publicスコア Cross Validation 15

Slide 16

Slide 16 text

まとめ © 2023 Fujitsu Limited ① Random seed averagingを初期に採用し、 各試行を正しく評価 ② 有効数字を落とした表現を、 空間分布を元に予測するサブモデルを採用 その他 358回の個人最多submit 16

Slide 17

Slide 17 text

Thank you © 2023 Fujitsu Limited