Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」1位解法

 AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」1位解法

Ocean180プロジェクトと千葉工業大学 人工知能・ソフトウェア技術研究センターが主催で、AIコンペティション「ブルーカーボン・ダイナミクスを可視化せよ!」を行いました。
https://signate.jp/competitions/936

こちらのスライドは、2023年度人工知能学会全国大会 (JSAI2023)で開催した成果報告会で発表された、1位解法の解説スライドです。

STAIR Lab

June 22, 2023
Tweet

More Decks by STAIR Lab

Other Decks in Technology

Transcript

  1. 1 Copyright(C) NRI Digital, Ltd. All rights reserved. GISで多くの特徴量を生成⇒機械学習でモデル化 特徴

    GIS 機械学習 ⚫ QGIS、PostGISをフル活用して 約500個の新しい特徴量を生成 ⚫ LightGBMで手軽にモデル構築 &チューニング
  2. 2 Copyright(C) NRI Digital, Ltd. All rights reserved. 注目点 海底地形の可視化・数値化

    特徴 ◼海藻の生育には、調査地点のピンポイント情報の他、周辺の海底地形も影響していると推測。 ⇒水深ラスタデータより周辺地形を可視化・数値化し、新たな特徴量を生成。 調査地点被度 0%~ 5%~ 10%~ 15%~ 20%~ 250%~ 30%~ 35%~ 40%~ 45%~ 50%~ 陸地(水深ラスタより作成) 調査地点+水深ラスタ(depth)データ
  3. 3 Copyright(C) NRI Digital, Ltd. All rights reserved. 具体的な工夫点(一部のみご紹介) 特徴

    ◼モデル特徴量 ⚫水深境界からの距離 ⚫海底の傾斜方位 ⚫陸地連結図形からの距離 ◼モデル作成 ⚫調査地点同士の位置関係でモデルを分割 ⚫同一調査グループでGroupKFold ◼後処理 ⚫パターン別予測結果より、最小の値を採用 GIS GIS GIS GIS GIS
  4. 4 Copyright(C) NRI Digital, Ltd. All rights reserved. モデル特徴量① 水深境界からの距離

    解法 ◼水深が深い範囲の被度は低い傾向。深い海では太陽光や栄養分が不足するためと想定。 ⇒水深が浅い範囲を抽出。境界線と調査地点の距離を特徴量に追加。 調査地点被度 0%~ 5%~ 10%~ 15%~ 20%~ 250%~ 30%~ 35%~ 40%~ 45%~ 50%~ 陸地(水深ラスタデータより作成) 水深4m境界 調査地点+水深4m以下
  5. 5 Copyright(C) NRI Digital, Ltd. All rights reserved. モデル特徴量② 海底の傾斜方位

    解法 ◼海底の傾斜方位により被度の偏りが見られる。海流や太陽光による影響などと想定。 ⇒調査地点付近の海底の傾斜方位を算出し、特徴量に追加。 60% 53% 45% 42% 43% 55% 65% 60% 70% 56% 66% 73% 0% 20% 40% 60% 80% 0° 30° 60° 90° 120° 150° 180° 210° 240° 270° 300° 330° 傾斜方位別の被度平均 東 西 北 南 東 西 北 南
  6. 6 Copyright(C) NRI Digital, Ltd. All rights reserved. モデル特徴量③ 陸地連結図形からの距離

    解法 ◼湾内や島の間などは比較的 被度が高い傾向。激しい海流による育成阻害が小さいためと想定。 ⇒一定距離内の陸地を連結した図形を生成。図形と調査地点との距離を特徴量に追加。 調査地点被度 0%~ 5%~ 10%~ 15%~ 20%~ 250%~ 30%~ 35%~ 40%~ 45%~ 50%~ 陸地(水深ラスタデータより作成) 陸地連結図形 調査地点+陸地連結境界
  7. 7 Copyright(C) NRI Digital, Ltd. All rights reserved. モデル作成の工夫① モデル分割

    解法 ◼調査地点の周辺環境が異なれば、藻場の被度に影響する要素も変わると想定。 ⇒周辺環境のパターン毎にモデルを構築。調査地点同士の位置関係より学習データを3パターン分割。 ⚫ パターン①:集中的に調査がされている地点 ⚫ パターン②:上記①以外で外洋に近い地点 ⚫ パターン③:上記①以外で外洋から遠い地点 ※ パターン①:調査年月が同一、かつ、調査地点同士が 60m以内にある調査地点をグルーピングし、 同一グループが5地点以上ある地点群 ※ パターン②:上記①になく、調査地点と陸地を囲む範囲の 境界から500m以内にある地点群 ※ パターン③:上記①になく、調査地点と陸地を囲む範囲の 境界から500mより内側にある地点群 陸地(水深ラスタデータより作成) 外洋との境界(陸地+調査地点より作成) 調査地点同士の位置関係よりデータ分割
  8. 8 Copyright(C) NRI Digital, Ltd. All rights reserved. モデル作成の工夫② データセット分割

    解法 ◼調査年月が同一で距離が近い=一連の調査と想定される地点同士は、被度が近い傾向。 ⇒調査年月×地点間距離で、同一調査グループを作成し、GroupKFoldでデータセット分割。 調査地点を調査年月×距離毎にグループ化 ※ 調査年月が同一、かつ、調査地点同士が2km以内にある調査地点をグルーピング。
  9. 9 Copyright(C) NRI Digital, Ltd. All rights reserved. モデル全体構成 解法

    ◼パターン別に算出した各予測結果より、最小の値を最終予測結果として採用。 ⇒生育しない条件を予測するモデルとなっており、最も生育に厳しい条件の予測が実態に近いと想定。 パターン③ パターン② パターン① モデル①_5 モデル①_4 モデル①_3 モデル①_2 モデル①_1 モデル②_1 学習データ テストデータ 予測結果①_1 予測結果①_2 予測結果①_3 予測結果①_4 予測結果①_5 予測結果②_1~5 予測結果③_1~5 予測結果all_1~5 予測結果 ① 予測結果 ② 予測結果 ③ 予測結果 all 最終 予測結果 平均 平均 平均 平均 最小 予測 予測 予測 予測 学習データ全体でのモデルも構築 テストデータは分割せず、 全データを対象に各モデルで予測 GroupKFold:5分割 LightGBMでモデル作成 モデルイメージ図 モデル③_1 モデルall_1
  10. 10 Copyright(C) NRI Digital, Ltd. All rights reserved. コンペティションを終えて 感想

    ◼GISを活用した可視化・数値化により、 イメージがし易い特徴量を生成。 ⇒比較的解釈性が高く、他の方への説明が しやすいモデル作りを実現。 ◼大変 興味深い課題をご提供いただいた 主催者の皆様に感謝いたします。 ありがとうございました。