Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」3位解法

 AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」3位解法

Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。
https://signate.jp/competitions/936

こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、3位解法の解説スライドです。

STAIR Lab

June 22, 2023
Tweet

More Decks by STAIR Lab

Other Decks in Technology

Transcript

  1. 5 2.モデルの概要 Keras NN × 0.7 ・Optimizer=Adabelief ・活性化関数=ReLU ・KFold:6分割のBestモデル ・5層

    ⼊⼒層 :128ユニット 第2,3層:128ユニット 第4層 : 64ユニット 出⼒層 : 1ユニット LGBM × 0.3 ・学習率:0.01 ・ブースティングアルゴリズム:gbdt ・groupKFold:6分割のBestモデル group=mesh20 ※1.他にXGBoostも試したが、LGBMにスコアが劣ったため不採⽤ 初期に同じ変数を使⽤し、LGBM : 0.198 vs XGBoost : 0.208 ※2.NNのOptimizerはAdam,Adamax,Adadelta,Adagrad,Nadamなどと⽐較 下記のようなアンサンブルを採⽤ ! ⼀般的に避けるはず。分割した意味もなくなる。 しかし、今回のお題では平均よりもベストモデル のみの⽅が結果が良かったため採⽤ → 良い解法のモデルと⽐較すると新たな知⾒?
  2. ドメイン知識的観点 ドメイン知識的観点 7 3.モデル改善の試⾏錯誤 3.1 変数の特徴と効果の出た特徴量と偶然性 ① 地理的 ② 時間的

    データ分析的観点 ⽋損値 22% ⽋損値の補完⽅法 →地理的に ある区画内の 平均値で補完 mesh20,cluster175個,500個 ⽋損値を変数化 ⽋損値のあるカラムに別名付与 ⽋損 =1 数値あり=0 ハイパーパラメータ 特にNNについて ・初期化 ・バッチ処理 ・ドロップアウト etc. 偶然良い値が得られたが 左記パラメータのランダム性や その結果の⼤きな不安定性 について今回初めて認識 様々な試⾏錯誤が 正しく⽐較できて いなかった懸念
  3. 投稿時暫定スコア 投稿回数 [回] 投稿時44回の時系列記録 8 3.モデル改善の試⾏錯誤 3.2 その他試したこと、まずかった点 0.165 0.17

    0.175 0.18 0.185 0.19 0.195 0.2 0.205 0.21 0 5 10 15 20 25 30 35 40 45 50 ⽋損値補完にCluster平均値 Clusterは地理的条件で 175個になるよう設定 Cluster500個 3年移動平均 予測結果に負値 LGBM_Kfold平均 LGBM,XGBoost LGBM,NNのアンサンブル検討 ⽋損値の重要性に 気づいた Depth_originalの 補完を模索 etc Best! 前述のNNの不安定性を 未考慮であり妥当な評価 ができたか疑問
  4. 残す情報の定義 :再現性確認 & 成果物 分析⽤の情報 :進⾏状況で変化 10 4.モデル検討プロセスの課題 アイディア 実⾏

    考察 データベース 思考(フロー状態)を 切りたくない 残すべき情報を しっかり残したい VS 思考の切断なく残す仕組みの検討と構築 = 今後の課題