Slide 1

Slide 1 text

UnsplashのShifaaz shamoonが撮影した写真 ブルーカーボン・ダイナミクスを可視化せよ! 3位解法 と 検討結果・課題共有 1

Slide 2

Slide 2 text

UnsplashのShifaaz shamoonが撮影した写真 アジェンダ: 1.⾃⼰紹介 どういう観点での考察か、発表の⼤枠 2.モデルの概要 3.モデル改善の試⾏錯誤 4.モデル検討プロセスの課題 5.まとめとお礼 2

Slide 3

Slide 3 text

1.⾃⼰紹介 どういう観点での考察か、本発表の⼤枠 ユーザ名:TH 20190725192550 経歴:機械設計と強度,熱流体シミュレーション その後、製品開発業務のデジタル化⽀援 → 機械学習について素⼈(独学)。ユーザとしての観点でも考察 発表の⼤枠: ① 偶然うまくいったこと、試⾏錯誤したこと 正しく評価できてなかった可能性 ② 検討のプロセス上の課題 3

Slide 4

Slide 4 text

UnsplashのShifaaz shamoonが撮影した写真 アジェンダ: 1.⾃⼰紹介 どういう観点での考察か、発表の⼤枠 2.モデルの概要 3.モデル改善の試⾏錯誤 4.モデル検討プロセスの課題 5.まとめとお礼 4

Slide 5

Slide 5 text

5 2.モデルの概要 Keras NN × 0.7 ・Optimizer=Adabelief ・活性化関数=ReLU ・KFold:6分割のBestモデル ・5層 ⼊⼒層 :128ユニット 第2,3層:128ユニット 第4層 : 64ユニット 出⼒層 : 1ユニット LGBM × 0.3 ・学習率:0.01 ・ブースティングアルゴリズム:gbdt ・groupKFold:6分割のBestモデル group=mesh20 ※1.他にXGBoostも試したが、LGBMにスコアが劣ったため不採⽤ 初期に同じ変数を使⽤し、LGBM : 0.198 vs XGBoost : 0.208 ※2.NNのOptimizerはAdam,Adamax,Adadelta,Adagrad,Nadamなどと⽐較 下記のようなアンサンブルを採⽤ ! ⼀般的に避けるはず。分割した意味もなくなる。 しかし、今回のお題では平均よりもベストモデル のみの⽅が結果が良かったため採⽤ → 良い解法のモデルと⽐較すると新たな知⾒?

Slide 6

Slide 6 text

UnsplashのShifaaz shamoonが撮影した写真 アジェンダ: 1.⾃⼰紹介 どういう観点での考察か、発表の⼤枠 2.モデルの概要 3.モデル改善の試⾏錯誤 4.モデル検討プロセスの課題 5.まとめとお礼 6

Slide 7

Slide 7 text

ドメイン知識的観点 ドメイン知識的観点 7 3.モデル改善の試⾏錯誤 3.1 変数の特徴と効果の出た特徴量と偶然性 ① 地理的 ② 時間的 データ分析的観点 ⽋損値 22% ⽋損値の補完⽅法 →地理的に ある区画内の 平均値で補完 mesh20,cluster175個,500個 ⽋損値を変数化 ⽋損値のあるカラムに別名付与 ⽋損 =1 数値あり=0 ハイパーパラメータ 特にNNについて ・初期化 ・バッチ処理 ・ドロップアウト etc. 偶然良い値が得られたが 左記パラメータのランダム性や その結果の⼤きな不安定性 について今回初めて認識 様々な試⾏錯誤が 正しく⽐較できて いなかった懸念

Slide 8

Slide 8 text

投稿時暫定スコア 投稿回数 [回] 投稿時44回の時系列記録 8 3.モデル改善の試⾏錯誤 3.2 その他試したこと、まずかった点 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.2 0.205 0.21 0 5 10 15 20 25 30 35 40 45 50 ⽋損値補完にCluster平均値 Clusterは地理的条件で 175個になるよう設定 Cluster500個 3年移動平均 予測結果に負値 LGBM_Kfold平均 LGBM,XGBoost LGBM,NNのアンサンブル検討 ⽋損値の重要性に 気づいた Depth_originalの 補完を模索 etc Best! 前述のNNの不安定性を 未考慮であり妥当な評価 ができたか疑問

Slide 9

Slide 9 text

UnsplashのShifaaz shamoonが撮影した写真 アジェンダ: 1.⾃⼰紹介 どういう観点での考察か、発表の⼤枠 2.モデルの概要 3.モデル改善の試⾏錯誤 4.モデル検討プロセスの課題 5.まとめとお礼 9

Slide 10

Slide 10 text

残す情報の定義 :再現性確認 & 成果物 分析⽤の情報 :進⾏状況で変化 10 4.モデル検討プロセスの課題 アイディア 実⾏ 考察 データベース 思考(フロー状態)を 切りたくない 残すべき情報を しっかり残したい VS 思考の切断なく残す仕組みの検討と構築 = 今後の課題

Slide 11

Slide 11 text

UnsplashのShifaaz shamoonが撮影した写真 アジェンダ: 1.⾃⼰紹介 どういう観点での考察か、発表の⼤枠 2.モデルの概要 3.モデル改善の試⾏錯誤 4.モデル検討プロセスの課題 5.まとめとお礼 11

Slide 12

Slide 12 text

5.まとめとお礼 • モデルの安定性の確認が必要 • ドメイン知識や機械学習の理論の裏付けがないと ⼿当たり次第に試すだけになる → 終了後でも参加者の議論が盛り上がるとよいかもしれない • コードについてはGithubでの管理も試そうと思う ※⼀⽅で試⾏を切らずに試して記録を残す仕組みも欲しい たくさんの学びを得ることができたと思います 本コンペ関係者の皆様にお礼申し上げます 12