Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。 https://signate.jp/competitions/936
こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、2位解法の解説スライドです。
ブルーカーボン・ダイナミクスを可視化せよ!2位解法2023年6月9日© 2023 Fujitsu Limited
View Slide
自己紹介© 2023 Fujitsu Limited目的変数……前処理データ探索モデル構築テーブルデータとタスク設定を入力に、機械学習モデルを生成するコードを出力する、AutoMLの研究開発AutoML入力 出力ユーザー名富士通株式会社 人工知能研究所所属研究内容2富士通研究所 テックブログ 検索
Publicスコアの時間推移© 2023 Fujitsu Limited②キー特徴量の発見0.1800.1750.1700.1650.1600.155RMSE時間③特徴量選択①モデルの改良+副産物3大きく改善したポイントに絞って共有させて下さい
①モデルの改良○被度0.05以下のデータが半数以上○Tweedie分布を仮定した損失関数を指定○副産物としてコンペ初期からRandom seed averagingを採用○Tweedie分布の最適化中に、Publicスコアのブレが大きいことを発見○乱数値を変えた5モデル平均によりブレが抑えられたので採用。試行の効果を正しく評価可能にした© 2023 Fujitsu Limited学習データでの被度のヒストグラム0.05以下にデータが集中4
②キー特徴量のアイデア、その1© 2023 Fujitsu Limited5文献での測定値目的変数有効数字を落とした5段階表現50~75% 0.625??? 0.60025~50% 0.2751~5% 0.030??? 0.820… … …○測定値の誤差は文献ごとに異なるが、目的変数への変換時に誤差情報が失われているのではないか○有効数字を落とし、似た値を似た値として学習出来る様に変換する○例)0.625と0.600は同じ値として扱う
②キー特徴量のアイデア、その2© 2023 Fujitsu Limited6○学習データとテストデータで空間分布が異なる中でも、空間を格子状に分割したTarget Encodingを使うためのサブモデル格子A内の学習データの被度上位10%値は0.75である。同様に、格子A内のテストデータでも0.75であろう。格子A内の学習データの被度上位10%値は0.75であり、衛星データは X(*)である。同様に、衛星データが Xであるテストデータでも0.75であろう。よくあるTargetEncoding工夫(*) Sentinel衛星の225列データ格子ごとにEncodeサブモデルで学習サブモデルで推論格子ごとにEncode
②キー特徴量の計算(1/7)© 2023 Fujitsu Limited被度1.00.0○各点を測定地点とし、その被度を色味で可視化7
②キー特徴量の計算(2/7)© 2023 Fujitsu Limited○緯度と経度で200×200の格子にデータを分割被度1.00.08
②キー特徴量の計算(3/7)© 2023 Fujitsu Limited○格子内のデータ数が5未満の格子を計算対象から除外被度1.00.09
②キー特徴量の計算(4/7)© 2023 Fujitsu Limited0.80.350.2○格子ごとに被度の上位10%値を取得し、各行に設定被度1.00.0ID その他のデータ 上位10%値1 … … … 0.82 … … … 0.8… … … … …14000 … … … 0.210
②キー特徴量の計算(5/7)© 2023 Fujitsu Limited0.80.350.2○被度上位10%が5段階の閾値を超えるか否かのbooleanを計算し、各行に設定(同じ格子内では同じbooleanが設定される)ID上位10%値> 0.05 > 0.2 > 0.4 > 0.625 > 0.8751 0.8 True True True True False2 0.8 True True True True False… … … … … … …14000 0.2 True False False False False被度1.00.011有効数字を落とした表現
②キー特徴量の計算(6/7)© 2023 Fujitsu Limited0.80.350.2○booleanを目的変数、Sentinelデータを説明変数として、5つのサブモデルを学習ID Sentinelデータ > 0.05 … > 0.8751 … … … … True ... False2 … … … … True … False… … … … … … … …14000 … … … … False … False被度1.00.0正解ラベル①正解ラベル⑤…説明変数12
②キー特徴量の計算(7/7)© 2023 Fujitsu Limited0.80.350.2○サブモデルの予測確率を本体モデルの特徴量に追加被度1.00.0ID Sentinelデータ > 0.05 … > 0.8751 … … … … 0.752 ... 0.1252 … … … … 0.821 … 0.084… … … … … … … …14000 … … … … 0.541 … 0.012ID Sentinelデータ > 0.05 … > 0.87514001 … … … … 0.782 ... 0.021… … … … … … … …18000 … … … … 0.932 … 0.076学習デ|タテストデ|タ学習データはout of fold予測13キー特徴量
Feature Importanceでの評価© 2023 Fujitsu Limited○82個の特徴量の内、キー特徴量が上位を占める14
難しかったこと○Cross ValidationとPublicスコアが相関しなかった○主催者の意図を外さないように、特徴量改善に集中キックオフ動画より、○Landsatは変動を使うと良い○Sentinelデータは使った方が良い○年ごとの急変予測は難しい© 2023 Fujitsu Limited0.150.160.170.180.15 0.16 0.17 0.18PublicスコアCross Validation15
まとめ© 2023 Fujitsu Limited① Random seed averagingを初期に採用し、各試行を正しく評価② 有効数字を落とした表現を、空間分布を元に予測するサブモデルを採用その他 358回の個人最多submit16
Thank you© 2023 Fujitsu Limited