Upgrade to Pro — share decks privately, control downloads, hide ads and more …

未踏ブースト会議資料

 未踏ブースト会議資料

Yuiga Wada (和田唯我)

November 09, 2024
Tweet

More Decks by Yuiga Wada (和田唯我)

Other Decks in Technology

Transcript

  1. 3 自己しょーかい 有⽥朋樹 (M1) 慶應義塾⼤学 理⼯学部 SD ドローン,マルチエージェント制御 和⽥唯我 (M2)

    慶應義塾⼤学 理⼯学部 情報 機械学習,画像認識 福島県⼤熊町を復興するため,かつての特産品だったキウイの栽培を始めた → ドローン × AI でキウイの受粉作業を⾃動化できないか?
  2. 室内受粉ドローン (⽇本⼯業⼤学) 現状のソリューションと小型ドローンの可能性 8 ⾃動⾛⾏型 アームロボット ⼤型散布ドローン 整備されたハウス内で モーションキャプチャを ⽤いることを前提

    積載効率 不整地における 機動性 狭路(果樹棚下など) における機動性 Excellent 👍 Poor Good Very Poor 👎 Poor Good Poor Good ? Very Poor 👎 ⾃動⾛⾏型 アームロボット https://scienceportal.jst.go.jp/gateway/clip/20230728_g01/ ・安定したビニールハウス ・⼤型カメラによるドローンの位置推定 → 完全に整備された環境
  3. 9 現状のソリューションと小型ドローンの可能性 ⾃動⾛⾏型 アームロボット ⼤型散布ドローン 室内受粉ドローン (⽇本⼯業⼤学) 整備されたハウス内で モーションキャプチャを ⽤いることを前提

    積載効率 不整地における 機動性 狭路(果樹棚下など) における機動性 Excellent 👍 Poor Good Very Poor 👎 Poor Good Poor Good ? Very Poor 👎 Agriswarm Fair Excellent 👍 Excellent 👍
  4. 10 本PJで何をやるか: ドローン群 X 機械学習 2.近づく (MAPF) Multiagent path finding

    4.受粉 (電動吹付) Shoot!! 1.飛ぶ (SLAM) Simultaneous localization and mapping 緑:制御⼯学による制御 ⻘:機械学習による認知 3.花の向きは? (HPE) Head pose estimation
  5. 11 本PJで何をやるか: ドローン群 X 機械学習 2.近づく (MAPF) Multiagent path finding

    4.受粉 (電動吹付) Shoot!! 1.飛ぶ (SLAM) Simultaneous localization and mapping 緑:制御⼯学による制御 ⻘:機械学習による認知 3.花の向きは? (HPE) Head pose estimation
  6. 12 5. 受粉タイムアタック (Coverage Control) Starlink WiFi ルータ 実証フィールド: 福島県⼤熊町にあるキウイの國

    (⾃称, 2.5haの借地) 本PJで何をやるか: ドローン群 X 機械学習 ※ Starlinkなどの通信環境は整備済み
  7. 13 しんちょく: 実機の開発を開始!! 重さ: 311g 飛行時間(推定): 10分弱 FCU: Kakute H7

    Mini 計算資源: Jetson Xavier NX 受粉機構: かいはつちゅー 名前: だっきー(仮)
  8. Multi Agent Path Finding Multi Agent SLAM (Simultaneous Localization and

    Mapping) [Zhou+, Science Robotics22] に よって障害物×不整地の ドローン⾶⾏が初めて実現 → 当該環境におけるドローンの 社会応⽤は難易度が⾼い! ROS上でのマルチエージェント経路計画のシミュレーション 〜制御ぱーと〜 だっきー(仮)の群制御技術
  9. 18 花の姿勢推定: 花粉を適切に散布するには花の姿勢情報が重要 ⼈間の頭部の向きを推定するHead Pose Estimationから着想を得て, 花の姿勢 (オイラー⾓)を推定 → TokenHPE

    [Zhang+, CVPR23]をベースに 花の物体検出 デファクトスタンダードのモデル (e.g., YOLO) により物体検出を実⾏ 〜機械学習ぱーと〜 花粉を適切に散布するために花の姿勢を推定
  10. 19 姿勢推定モデルの汎化には⼤量のデータが必要 → ⾮常に⾼コストな作業 花が 𝑵 輪,撮影⾓度が 𝑴 個必要だとする. 𝑴

    個の⾓度から花の写真を撮影 (𝑵 × 𝑴 回) 𝑵 枚全ての花の写真に対して,姿勢をアノテーション(𝑵 × 𝑴 回) > 𝑵 × 𝑴 =10万も⼈間がアノテーションするの?? 効率的なアノテーション収集がひつよう!! ① N = 3 M = 4 ② ④ ⑤ ⑫ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ③
  11. 〜機械学習ぱーと〜 20 機械学習のフロー 花の動画 を撮る 3D上でアノテーション 姿勢推定モデルを学習 はたけで推論 NeRF/Gaussian Splatting

    により花の3Dモデルを作成 → アノテーションコストを20分の1に削減 ⼈間の頭部の向きを 推定するHPE技術を元に 花の姿勢 (オイラー⾓)を学習 YOLOv8で花検出 HPEで姿勢推論 三次元空間上でたった⼀回だけ アノテーション
  12. 〜機械学習ぱーと〜 21 花の動画 を撮る 3D上でアノテーション 姿勢推定モデルを学習 はたけで推論 NeRF/Gaussian Splatting により花の3Dモデルを作成

    → アノテーションコストを20分の1に削減 ⼈間の頭部の向きを 推定するHPE技術を元に 花の姿勢 (オイラー⾓)を学習 YOLOv8で花検出 HPEで姿勢推論 機械学習のフロー
  13. 22 受粉機構の制作 吹付機構は受粉に限らず広く存在するため従来の機構を電気制御可能に改造することで 実現可能であると考えられるが,ドローンの⾶⾏可能推⼒との兼ね合いについては未確 定→ 前例のある筆などでの接触受粉機構をプランBとして⾒据えるべき 上位プランナのシステム設計 1. 広域における花の識別管理 既に受粉した花の識別などのために,広域における花の管理システムが必要.開放環

    境では推定した花の位置の不確定性が⾼いため,どのようにシステムを設計するかが 課題である.→ GPSを⽤いて⼤域の位置管理を⾏うことや,散布する受粉溶液に⾊を つけるなど,局所における問題解決に緩和することも視野に⼊れている. 2. ⾶⾏可能時間のマネジメント 現時点でのドローンの⾶⾏時間は約10分ほどであると想定されるため,バッテリーの 残量を考慮した上位プランナの設計が必要である. 現状の課題
  14. ⽇本における中⼭間地域の割合 38% 耕地⾯積 44% 総農家数 40% 農業産出額 92% 60歳以上の 就業者割合

    ※⺟数は⽇本国内の農業経営体および研究団体 ※農研機構資料より https://shingi.jst.go.jp/pdf/2021/2021_jst-3_003.pdf 機械化の必要性
  15. 5% 作業プロセスの 機械化 1% 中⼭間地域における機械化の遅れ&我々がやるべきこと ※⺟数は⽇本国内の農業法⼈経営体および研究団体 中⼭間地域・ 不整地 受粉作業の 機械化

    5~10例 ※独⾃調べ 全体 (整備環境) ※農研機構スマート推進フォーラム資料 https://www.maff.go.jp/kinki/seisan/s mart/event/attach/pdf/smart_2023- 5.pdf ? ≫
  16. 詳細: 受粉における群制御技術 Multi Agent Path Finding Multi Agent SLAM (Simultaneous

    Localization and Mapping) Agriswarm [Zhou+, Science Robotics 2022] によって障害物×不整地の ドローン⾶⾏が初めて実現 → 当該環境におけるドローンの 社会応⽤は未踏性が⾼い ROS上でのマルチエージェント 経路計画のシミュレーション
  17. Flower Detection & Pose Estimation 詳細: 花認識における機械学習技術 • 花の姿勢推定: 花粉を適切に散布するには花の姿勢情報が重要

    • ⼈間の頭部の向きを推定するHead Pose Estimationから着想を得て, 花の姿勢 (オイラー⾓)を推定 → TokenHPE [Zhang+, CVPR23]をベースに • 花の物体検出 • デファクトスタンダードのモデル (e.g., YOLO) により物体検出を実⾏ TokenHPE [Zhang+, CVPR23]
  18. • 姿勢推定モデルの汎化には⼤量のデータが必要 → ⾮常に⾼コストな作業 • 花が 𝑵 輪,撮影⾓度が 𝑴 個必要だとする.

    • 𝑴 個の⾓度から花の写真を撮影 (𝑵 × 𝑴 回) • 𝑵 枚全ての花の写真に対して,姿勢をアノテーション(𝑵 × 𝑴 回) > 𝑵 × 𝑴 =10万も⼈間がアノテーションするの?? Q. 花のアノテーションを効率的に収集するには? ① N = 3 M = 4 ② ④ ⑤ ⑫ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ③ 詳細: 花認識における機械学習技術
  19. Flower Detection & Pose Estimation Q. 花のアノテーションを効率的に収集するには? A. 花の動画を撮影し,動画から3Dモデルを作成 (NeRF)

    →三次元空間上でたった⼀回だけアノテーション • 𝑵 × 𝑴 → 𝑵 回にまで⼯数を削減 • 𝑵回のアノテーションで, 𝑵 × 𝑴 枚のGTを取得 ① ② ③ N = 3 M = 4 詳細: 花認識における機械学習技術
  20. 50% 80% 80% 80% 改良した実機を製作 受粉機構と 制御システムの開発 上位プランナ の開発 未着⼿

    未着⼿ 対象の花に 対する⾼い 汎化性能が 必要 →改善の余地 圃場全体における 花の管理・⾏動計画 未着⼿ システム構成 &役割分担 機械学習 システム統合 ドローン群制御 実機実装 有⽥ 和⽥
  21. Agriswarmの展望 未踏プロジェクト開始 未踏プロジェクト終了 受粉に限らない 汎⽤型の中⼭間地域向け ドローンとして改良 中⼭間地域向け 農業ソリューションとして ビジネス展開 2024/6

    2025/2 3年後の果樹数:500本 想定される花の数:10,000本 耕地⾯積:2.8ha 導⼊確定農園(実証フィールド) その他協⼒農園(⾒込) : 2 福島県⼤熊町キウイ農園 (東京ドームの半分以上)
  22. キウイの國圃場に関する主なメトリクス 1反(10a) キウイ16本 25反(10年計画) せん定: 60時間 受粉: 40時間 防除: 14時間

    収かく: 35時間 約3トン(2万個) のキウイを 100円/個 で売る キウイの国 受粉: ~1000時間 5千万円 (内費用2千万)
  23. WiFi環境(実証フィールド) ⾮WiFi環境 想定する通信⽅式 Peer to peer ad-hoc network , PCIe

    Starlink アンテナ WiFi ルータ サーバ機 プロトタイプ Linux Laptop 画像伝送 システム, 2.4Ghz帯無線
  24. 想定するビジネス展開と収益性 約200万円 農業⽤⼤型ドローン Agriswarm ~20万円 Agriswarm10台で⼤型ド ローン1台の性能を上回 れば収益性有り 価格 整地環境

    における収益性 不整地環境 における収益性 受粉ドローン 受粉需要は特定の時期に集中するた め,買い切りではなくレンタルでの 展開を想定 汎⽤農業ドローン 年間需要に対応できるようになった 段階で買い切り⽤の製品化を⽬指す ※現在の⼤型ドローンの多く は不整地で適⽤できないため
  25. Agriswarmの展望 9% 8,450億円 国内農業算出額に占める 果樹の割合 https://www.maff.go.jp/j/cou ncil/seisaku/kazyu/r01_1_kajy u/attach/pdf/index-19.pdf 全体 92,742億円

    ⼭間農業地域, 9,441ha 中間農業地域, 48,555ha 都市的地域, 22,929ha 平地農業地域, 53,950ha 果樹全体に占める 中⼭間地域の割合 https://www.maff.go.jp/kanto/seisan/ engei/kaju/attach/pdf/190709-4.pdf 本プロジェクトが持つ 潜在経済規模 (全作業の1%を代替できた場合) 受粉の代替 農作業全体の代替 3,718億円 > 37億円
  26. Nvidia Xavier NX Realsense d435 Holybro Pixhawk 4 Hardware Main

    Processer Flight Controller Unit Sensor/Camera Software Ardupilot フライトコントローラ ⾃⼰位置推定 VINS-Mono (Visual Inertial Odometry) Protype Crazyflie 2.1 経路計画 EGO-Planner (Multi Agent Path Finding) 画像認識 NeRF(3d Reconstruction) & HPE(Pose Estimation)
  27. 姿勢推定モデルの学習に必要なデータセット数 • ⼀般的なHead Pose Estimation (HPE) • 300W-LP consists of

    66,225 face samples collected from multiple databases that are further enhanced to 122,450 samples by image flipping. It is based on around 4000 real images. The ground truth is provided in the Euler angle format. For training, we convert them into the matrix form. • → ⼀般的なHPEにおいては12万枚の画像を要する • 今回の系においてはどうか? • 「⼈間の顔写真」という複雑性の⾼い⼊⼒と⽐較して,「花の画像」の複雑 性は低い • → 汎化させるのに10万枚の画像はtoo muchだと思われる • しかし,実際に学習させてみないと分からないというのが実情
  28. アノテーションツールによって期待される削減⼯数の期待値 • 前⾴より,今回の系において 1,000枚程度のGround Truthが必要だと仮定 • 1 instance (1輪)で学習に使える画像が10枚取れるとすると,100 instance

    あれば,1,000枚のGTが取得可能 • 逆に何instanceあれば汎化するのか? • 経験則的に,⼀つの花の種類に 50 instance程度だと推測 • 1instanceにつき 1,000 / 50 = 20枚取る • 我々のソリューションだと 50回 のアノテーション • ⼀般的な⽅法論であれば1,000回 のアノテーション • → 20倍ものアノテーション数削減が⾒込める • → プロジェクトを円滑に進める上で必要不可⽋