Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。 https://signate.jp/competitions/936
こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、1位解法の解説スライドです。
AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」成果報告会2023年度 人工知能学会全国大会2023年6月9日株式会社NRIデジタルデータサイエンス DS1グループ小川 和広 ( kazuhiro.O )
View Slide
1Copyright(C) NRI Digital, Ltd. All rights reserved.GISで多くの特徴量を生成⇒機械学習でモデル化特徴GIS 機械学習⚫ QGIS、PostGISをフル活用して約500個の新しい特徴量を生成⚫ LightGBMで手軽にモデル構築&チューニング
2Copyright(C) NRI Digital, Ltd. All rights reserved.注目点 海底地形の可視化・数値化特徴◼海藻の生育には、調査地点のピンポイント情報の他、周辺の海底地形も影響していると推測。⇒水深ラスタデータより周辺地形を可視化・数値化し、新たな特徴量を生成。調査地点被度0%~5%~10%~15%~20%~250%~30%~35%~40%~45%~50%~陸地(水深ラスタより作成)調査地点+水深ラスタ(depth)データ
3Copyright(C) NRI Digital, Ltd. All rights reserved.具体的な工夫点(一部のみご紹介)特徴◼モデル特徴量⚫水深境界からの距離⚫海底の傾斜方位⚫陸地連結図形からの距離◼モデル作成⚫調査地点同士の位置関係でモデルを分割⚫同一調査グループでGroupKFold◼後処理⚫パターン別予測結果より、最小の値を採用GISGISGISGISGIS
4Copyright(C) NRI Digital, Ltd. All rights reserved.モデル特徴量① 水深境界からの距離解法◼水深が深い範囲の被度は低い傾向。深い海では太陽光や栄養分が不足するためと想定。⇒水深が浅い範囲を抽出。境界線と調査地点の距離を特徴量に追加。調査地点被度0%~5%~10%~15%~20%~250%~30%~35%~40%~45%~50%~陸地(水深ラスタデータより作成)水深4m境界調査地点+水深4m以下
5Copyright(C) NRI Digital, Ltd. All rights reserved.モデル特徴量② 海底の傾斜方位解法◼海底の傾斜方位により被度の偏りが見られる。海流や太陽光による影響などと想定。⇒調査地点付近の海底の傾斜方位を算出し、特徴量に追加。60%53%45%42%43%55%65%60%70%56%66%73%0%20%40%60%80%0°30°60°90°120°150°180°210°240°270°300°330°傾斜方位別の被度平均東西北南東西北南
6Copyright(C) NRI Digital, Ltd. All rights reserved.モデル特徴量③ 陸地連結図形からの距離解法◼湾内や島の間などは比較的 被度が高い傾向。激しい海流による育成阻害が小さいためと想定。⇒一定距離内の陸地を連結した図形を生成。図形と調査地点との距離を特徴量に追加。調査地点被度0%~5%~10%~15%~20%~250%~30%~35%~40%~45%~50%~陸地(水深ラスタデータより作成)陸地連結図形調査地点+陸地連結境界
7Copyright(C) NRI Digital, Ltd. All rights reserved.モデル作成の工夫① モデル分割解法◼調査地点の周辺環境が異なれば、藻場の被度に影響する要素も変わると想定。⇒周辺環境のパターン毎にモデルを構築。調査地点同士の位置関係より学習データを3パターン分割。⚫ パターン①:集中的に調査がされている地点⚫ パターン②:上記①以外で外洋に近い地点⚫ パターン③:上記①以外で外洋から遠い地点※ パターン①:調査年月が同一、かつ、調査地点同士が60m以内にある調査地点をグルーピングし、同一グループが5地点以上ある地点群※ パターン②:上記①になく、調査地点と陸地を囲む範囲の境界から500m以内にある地点群※ パターン③:上記①になく、調査地点と陸地を囲む範囲の境界から500mより内側にある地点群陸地(水深ラスタデータより作成)外洋との境界(陸地+調査地点より作成)調査地点同士の位置関係よりデータ分割
8Copyright(C) NRI Digital, Ltd. All rights reserved.モデル作成の工夫② データセット分割解法◼調査年月が同一で距離が近い=一連の調査と想定される地点同士は、被度が近い傾向。⇒調査年月×地点間距離で、同一調査グループを作成し、GroupKFoldでデータセット分割。調査地点を調査年月×距離毎にグループ化※ 調査年月が同一、かつ、調査地点同士が2km以内にある調査地点をグルーピング。
9Copyright(C) NRI Digital, Ltd. All rights reserved.モデル全体構成解法◼パターン別に算出した各予測結果より、最小の値を最終予測結果として採用。⇒生育しない条件を予測するモデルとなっており、最も生育に厳しい条件の予測が実態に近いと想定。パターン③パターン②パターン①モデル①_5モデル①_4モデル①_3モデル①_2モデル①_1モデル②_1学習データテストデータ予測結果①_1予測結果①_2予測結果①_3予測結果①_4予測結果①_5予測結果②_1~5予測結果③_1~5予測結果all_1~5予測結果①予測結果②予測結果③予測結果all最終予測結果平均平均平均平均最小予測予測予測予測学習データ全体でのモデルも構築テストデータは分割せず、全データを対象に各モデルで予測GroupKFold:5分割LightGBMでモデル作成モデルイメージ図モデル③_1モデルall_1
10Copyright(C) NRI Digital, Ltd. All rights reserved.コンペティションを終えて感想◼GISを活用した可視化・数値化により、イメージがし易い特徴量を生成。⇒比較的解釈性が高く、他の方への説明がしやすいモデル作りを実現。◼大変 興味深い課題をご提供いただいた主催者の皆様に感謝いたします。ありがとうございました。