$30 off During Our Annual Pro Sale. View Details »

AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」2位解法

 AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」2位解法

Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。
https://signate.jp/competitions/936

こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、2位解法の解説スライドです。

STAIR Lab

June 22, 2023
Tweet

More Decks by STAIR Lab

Other Decks in Technology

Transcript

  1. ブルーカーボン・ダイナミクスを
    可視化せよ!
    2位解法
    2023年6月9日
    © 2023 Fujitsu Limited

    View Slide

  2. 自己紹介
    © 2023 Fujitsu Limited
    目的変数


    前処理
    データ探索
    モデル構築
    テーブルデータとタスク設定を入力に、
    機械学習モデルを生成するコードを出力する、AutoMLの研究開発
    AutoML
    入力 出力
    ユーザー名
    富士通株式会社 人工知能研究所
    所属
    研究内容
    2
    富士通研究所 テックブログ 検索

    View Slide

  3. Publicスコアの時間推移
    © 2023 Fujitsu Limited
    ②キー特徴量
    の発見
    0.180
    0.175
    0.170
    0.165
    0.160
    0.155
    RMSE
    時間
    ③特徴量選択
    ①モデルの改良
    +副産物
    3
    大きく改善したポイントに絞って共有させて下さい

    View Slide

  4. ①モデルの改良
    ○被度0.05以下のデータが半数以上
    ○Tweedie分布を仮定した損失関数を指定
    ○副産物としてコンペ初期から
    Random seed averagingを採用
    ○Tweedie分布の最適化中に、
    Publicスコアのブレが大きいことを発見
    ○乱数値を変えた5モデル平均により
    ブレが抑えられたので採用。
    試行の効果を正しく評価可能にした
    © 2023 Fujitsu Limited
    学習データでの
    被度のヒストグラム
    0.05以下にデータが集中
    4

    View Slide

  5. ②キー特徴量のアイデア、その1
    © 2023 Fujitsu Limited
    5
    文献での
    測定値
    目的変数
    有効数字を落とした
    5段階表現
    50~75% 0.625
    ??? 0.600
    25~50% 0.275
    1~5% 0.030
    ??? 0.820
    … … …
    ○測定値の誤差は文献ごとに異なるが、
    目的変数への変換時に誤差情報が失われているのではないか
    ○有効数字を落とし、似た値を似た値として学習出来る様に変換する
    ○例)0.625と0.600は同じ値として扱う

    View Slide

  6. ②キー特徴量のアイデア、その2
    © 2023 Fujitsu Limited
    6
    ○学習データとテストデータで空間分布が異なる中でも、
    空間を格子状に分割したTarget Encodingを使うためのサブモデル
    格子A内の学習データの被度上位10%値は0.75である。
    同様に、格子A内のテストデータでも0.75であろう。
    格子A内の学習データの被度上位10%値は0.75であり、
    衛星データは X(*)
    である。
    同様に、衛星データが Xであるテストデータでも0.75であろう。
    よくある
    Target
    Encoding
    工夫
    (*) Sentinel衛星の225列データ
    格子ごとにEncode
    サブモデルで学習
    サブモデルで推論
    格子ごとにEncode

    View Slide

  7. ②キー特徴量の計算(1/7)
    © 2023 Fujitsu Limited
    被度
    1.0
    0.0
    ○各点を測定地点とし、その被度を色味で可視化
    7

    View Slide

  8. ②キー特徴量の計算(2/7)
    © 2023 Fujitsu Limited
    ○緯度と経度で200×200の格子にデータを分割
    被度
    1.0
    0.0
    8

    View Slide

  9. ②キー特徴量の計算(3/7)
    © 2023 Fujitsu Limited
    ○格子内のデータ数が5未満の格子を計算対象から除外
    被度
    1.0
    0.0
    9

    View Slide

  10. ②キー特徴量の計算(4/7)
    © 2023 Fujitsu Limited
    0.8
    0.35
    0.2
    ○格子ごとに被度の上位10%値を取得し、各行に設定
    被度
    1.0
    0.0
    ID その他のデータ 上位10%値
    1 … … … 0.8
    2 … … … 0.8
    … … … … …
    14000 … … … 0.2
    10

    View Slide

  11. ②キー特徴量の計算(5/7)
    © 2023 Fujitsu Limited
    0.8
    0.35
    0.2
    ○被度上位10%が5段階の閾値を超えるか否かのbooleanを計算し、
    各行に設定(同じ格子内では同じbooleanが設定される)
    ID
    上位
    10%値
    > 0.05 > 0.2 > 0.4 > 0.625 > 0.875
    1 0.8 True True True True False
    2 0.8 True True True True False
    … … … … … … …
    14000 0.2 True False False False False
    被度
    1.0
    0.0
    11
    有効数字を落とした表現

    View Slide

  12. ②キー特徴量の計算(6/7)
    © 2023 Fujitsu Limited
    0.8
    0.35
    0.2
    ○booleanを目的変数、Sentinelデータを説明変数として、
    5つのサブモデルを学習
    ID Sentinelデータ > 0.05 … > 0.875
    1 … … … … True ... False
    2 … … … … True … False
    … … … … … … … …
    14000 … … … … False … False
    被度
    1.0
    0.0
    正解
    ラベル

    正解
    ラベル


    説明変数
    12

    View Slide

  13. ②キー特徴量の計算(7/7)
    © 2023 Fujitsu Limited
    0.8
    0.35
    0.2
    ○サブモデルの予測確率を本体モデルの特徴量に追加
    被度
    1.0
    0.0
    ID Sentinelデータ > 0.05 … > 0.875
    1 … … … … 0.752 ... 0.125
    2 … … … … 0.821 … 0.084
    … … … … … … … …
    14000 … … … … 0.541 … 0.012
    ID Sentinelデータ > 0.05 … > 0.875
    14001 … … … … 0.782 ... 0.021
    … … … … … … … …
    18000 … … … … 0.932 … 0.076











    学習データはout of fold予測
    13
    キー特徴量

    View Slide

  14. Feature Importanceでの評価
    © 2023 Fujitsu Limited
    ○82個の特徴量の内、
    キー特徴量が上位を占める
    14

    View Slide

  15. 難しかったこと
    ○Cross ValidationとPublicスコアが
    相関しなかった
    ○主催者の意図を外さないように、
    特徴量改善に集中
    キックオフ動画より、
    ○Landsatは変動を使うと良い
    ○Sentinelデータは使った方が良い
    ○年ごとの急変予測は難しい
    © 2023 Fujitsu Limited
    0.15
    0.16
    0.17
    0.18
    0.15 0.16 0.17 0.18
    Publicスコア
    Cross Validation
    15

    View Slide

  16. まとめ
    © 2023 Fujitsu Limited
    ① Random seed averagingを初期に採用し、
    各試行を正しく評価
    ② 有効数字を落とした表現を、
    空間分布を元に予測するサブモデルを採用
    その他 358回の個人最多submit
    16

    View Slide

  17. Thank you
    © 2023 Fujitsu Limited

    View Slide