Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。 https://signate.jp/competitions/936
こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、3位解法の解説スライドです。
UnsplashのShifaaz shamoonが撮影した写真ブルーカーボン・ダイナミクスを可視化せよ!3位解法 と 検討結果・課題共有1
View Slide
UnsplashのShifaaz shamoonが撮影した写真アジェンダ:1.⾃⼰紹介どういう観点での考察か、発表の⼤枠2.モデルの概要3.モデル改善の試⾏錯誤4.モデル検討プロセスの課題5.まとめとお礼2
1.⾃⼰紹介どういう観点での考察か、本発表の⼤枠ユーザ名:TH 20190725192550経歴:機械設計と強度,熱流体シミュレーションその後、製品開発業務のデジタル化⽀援→ 機械学習について素⼈(独学)。ユーザとしての観点でも考察発表の⼤枠:① 偶然うまくいったこと、試⾏錯誤したこと正しく評価できてなかった可能性② 検討のプロセス上の課題3
UnsplashのShifaaz shamoonが撮影した写真アジェンダ:1.⾃⼰紹介どういう観点での考察か、発表の⼤枠2.モデルの概要3.モデル改善の試⾏錯誤4.モデル検討プロセスの課題5.まとめとお礼4
52.モデルの概要Keras NN × 0.7・Optimizer=Adabelief・活性化関数=ReLU・KFold:6分割のBestモデル・5層⼊⼒層 :128ユニット第2,3層:128ユニット第4層 : 64ユニット出⼒層 : 1ユニットLGBM × 0.3・学習率:0.01・ブースティングアルゴリズム:gbdt・groupKFold:6分割のBestモデルgroup=mesh20※1.他にXGBoostも試したが、LGBMにスコアが劣ったため不採⽤初期に同じ変数を使⽤し、LGBM : 0.198 vs XGBoost : 0.208※2.NNのOptimizerはAdam,Adamax,Adadelta,Adagrad,Nadamなどと⽐較下記のようなアンサンブルを採⽤!⼀般的に避けるはず。分割した意味もなくなる。しかし、今回のお題では平均よりもベストモデルのみの⽅が結果が良かったため採⽤→ 良い解法のモデルと⽐較すると新たな知⾒?
UnsplashのShifaaz shamoonが撮影した写真アジェンダ:1.⾃⼰紹介どういう観点での考察か、発表の⼤枠2.モデルの概要3.モデル改善の試⾏錯誤4.モデル検討プロセスの課題5.まとめとお礼6
ドメイン知識的観点ドメイン知識的観点73.モデル改善の試⾏錯誤3.1 変数の特徴と効果の出た特徴量と偶然性① 地理的② 時間的データ分析的観点⽋損値22%⽋損値の補完⽅法→地理的に ある区画内の平均値で補完mesh20,cluster175個,500個⽋損値を変数化⽋損値のあるカラムに別名付与⽋損 =1数値あり=0ハイパーパラメータ特にNNについて・初期化・バッチ処理・ドロップアウト etc.偶然良い値が得られたが左記パラメータのランダム性やその結果の⼤きな不安定性について今回初めて認識様々な試⾏錯誤が正しく⽐較できていなかった懸念
投稿時暫定スコア投稿回数 [回]投稿時44回の時系列記録83.モデル改善の試⾏錯誤3.2 その他試したこと、まずかった点0.1650.170.1750.180.1850.190.1950.20.2050.210 5 10 15 20 25 30 35 40 45 50⽋損値補完にCluster平均値Clusterは地理的条件で175個になるよう設定Cluster500個3年移動平均予測結果に負値LGBM_Kfold平均LGBM,XGBoostLGBM,NNのアンサンブル検討 ⽋損値の重要性に気づいたDepth_originalの補完を模索 etcBest!前述のNNの不安定性を未考慮であり妥当な評価ができたか疑問
UnsplashのShifaaz shamoonが撮影した写真アジェンダ:1.⾃⼰紹介どういう観点での考察か、発表の⼤枠2.モデルの概要3.モデル改善の試⾏錯誤4.モデル検討プロセスの課題5.まとめとお礼9
残す情報の定義 :再現性確認 & 成果物分析⽤の情報 :進⾏状況で変化104.モデル検討プロセスの課題アイディア実⾏ 考察データベース思考(フロー状態)を切りたくない残すべき情報をしっかり残したいVS思考の切断なく残す仕組みの検討と構築 = 今後の課題
UnsplashのShifaaz shamoonが撮影した写真アジェンダ:1.⾃⼰紹介どういう観点での考察か、発表の⼤枠2.モデルの概要3.モデル改善の試⾏錯誤4.モデル検討プロセスの課題5.まとめとお礼11
5.まとめとお礼• モデルの安定性の確認が必要• ドメイン知識や機械学習の理論の裏付けがないと⼿当たり次第に試すだけになる→ 終了後でも参加者の議論が盛り上がるとよいかもしれない• コードについてはGithubでの管理も試そうと思う※⼀⽅で試⾏を切らずに試して記録を残す仕組みも欲しいたくさんの学びを得ることができたと思います本コンペ関係者の皆様にお礼申し上げます12