$30 off During Our Annual Pro Sale. View Details »

AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」3位解法

 AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」3位解法

Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。
https://signate.jp/competitions/936

こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、3位解法の解説スライドです。

STAIR Lab

June 22, 2023
Tweet

More Decks by STAIR Lab

Other Decks in Technology

Transcript

  1. UnsplashのShifaaz shamoonが撮影した写真
    ブルーカーボン・ダイナミクスを可視化せよ!
    3位解法 と 検討結果・課題共有
    1

    View Slide

  2. UnsplashのShifaaz shamoonが撮影した写真
    アジェンダ:
    1.⾃⼰紹介
    どういう観点での考察か、発表の⼤枠
    2.モデルの概要
    3.モデル改善の試⾏錯誤
    4.モデル検討プロセスの課題
    5.まとめとお礼
    2

    View Slide

  3. 1.⾃⼰紹介
    どういう観点での考察か、本発表の⼤枠
    ユーザ名:TH 20190725192550
    経歴:機械設計と強度,熱流体シミュレーション
    その後、製品開発業務のデジタル化⽀援
    → 機械学習について素⼈(独学)。ユーザとしての観点でも考察
    発表の⼤枠:
    ① 偶然うまくいったこと、試⾏錯誤したこと
    正しく評価できてなかった可能性
    ② 検討のプロセス上の課題
    3

    View Slide

  4. UnsplashのShifaaz shamoonが撮影した写真
    アジェンダ:
    1.⾃⼰紹介
    どういう観点での考察か、発表の⼤枠
    2.モデルの概要
    3.モデル改善の試⾏錯誤
    4.モデル検討プロセスの課題
    5.まとめとお礼
    4

    View Slide

  5. 5
    2.モデルの概要
    Keras NN × 0.7
    ・Optimizer=Adabelief
    ・活性化関数=ReLU
    ・KFold:6分割のBestモデル
    ・5層
    ⼊⼒層 :128ユニット
    第2,3層:128ユニット
    第4層 : 64ユニット
    出⼒層 : 1ユニット
    LGBM × 0.3
    ・学習率:0.01
    ・ブースティングアルゴリズム:gbdt
    ・groupKFold:6分割のBestモデル
    group=mesh20
    ※1.他にXGBoostも試したが、LGBMにスコアが劣ったため不採⽤
    初期に同じ変数を使⽤し、LGBM : 0.198 vs XGBoost : 0.208
    ※2.NNのOptimizerはAdam,Adamax,Adadelta,Adagrad,Nadamなどと⽐較
    下記のようなアンサンブルを採⽤
    !
    ⼀般的に避けるはず。分割した意味もなくなる。
    しかし、今回のお題では平均よりもベストモデル
    のみの⽅が結果が良かったため採⽤
    → 良い解法のモデルと⽐較すると新たな知⾒?

    View Slide

  6. UnsplashのShifaaz shamoonが撮影した写真
    アジェンダ:
    1.⾃⼰紹介
    どういう観点での考察か、発表の⼤枠
    2.モデルの概要
    3.モデル改善の試⾏錯誤
    4.モデル検討プロセスの課題
    5.まとめとお礼
    6

    View Slide

  7. ドメイン知識的観点
    ドメイン知識的観点
    7
    3.モデル改善の試⾏錯誤
    3.1 変数の特徴と効果の出た特徴量と偶然性
    ① 地理的
    ② 時間的
    データ分析的観点
    ⽋損値
    22%
    ⽋損値の補完⽅法
    →地理的に ある区画内の
    平均値で補完
    mesh20,cluster175個,500個
    ⽋損値を変数化
    ⽋損値のあるカラムに別名付与
    ⽋損 =1
    数値あり=0
    ハイパーパラメータ
    特にNNについて
    ・初期化
    ・バッチ処理
    ・ドロップアウト etc.
    偶然良い値が得られたが
    左記パラメータのランダム性や
    その結果の⼤きな不安定性
    について今回初めて認識
    様々な試⾏錯誤が
    正しく⽐較できて
    いなかった懸念

    View Slide

  8. 投稿時暫定スコア
    投稿回数 [回]
    投稿時44回の時系列記録
    8
    3.モデル改善の試⾏錯誤
    3.2 その他試したこと、まずかった点
    0.165
    0.17
    0.175
    0.18
    0.185
    0.19
    0.195
    0.2
    0.205
    0.21
    0 5 10 15 20 25 30 35 40 45 50
    ⽋損値補完にCluster平均値
    Clusterは地理的条件で
    175個になるよう設定
    Cluster500個
    3年移動平均
    予測結果に負値
    LGBM_Kfold平均
    LGBM,XGBoost
    LGBM,NNのアンサンブル検討 ⽋損値の重要性に
    気づいた
    Depth_originalの
    補完を模索 etc
    Best!
    前述のNNの不安定性を
    未考慮であり妥当な評価
    ができたか疑問

    View Slide

  9. UnsplashのShifaaz shamoonが撮影した写真
    アジェンダ:
    1.⾃⼰紹介
    どういう観点での考察か、発表の⼤枠
    2.モデルの概要
    3.モデル改善の試⾏錯誤
    4.モデル検討プロセスの課題
    5.まとめとお礼
    9

    View Slide

  10. 残す情報の定義 :再現性確認 & 成果物
    分析⽤の情報 :進⾏状況で変化
    10
    4.モデル検討プロセスの課題
    アイディア
    実⾏ 考察
    データベース
    思考(フロー状態)を
    切りたくない
    残すべき情報を
    しっかり残したい
    VS
    思考の切断なく残す仕組みの検討と構築 = 今後の課題

    View Slide

  11. UnsplashのShifaaz shamoonが撮影した写真
    アジェンダ:
    1.⾃⼰紹介
    どういう観点での考察か、発表の⼤枠
    2.モデルの概要
    3.モデル改善の試⾏錯誤
    4.モデル検討プロセスの課題
    5.まとめとお礼
    11

    View Slide

  12. 5.まとめとお礼
    • モデルの安定性の確認が必要
    • ドメイン知識や機械学習の理論の裏付けがないと
    ⼿当たり次第に試すだけになる
    → 終了後でも参加者の議論が盛り上がるとよいかもしれない
    • コードについてはGithubでの管理も試そうと思う
    ※⼀⽅で試⾏を切らずに試して記録を残す仕組みも欲しい
    たくさんの学びを得ることができたと思います
    本コンペ関係者の皆様にお礼申し上げます
    12

    View Slide