Slide 1

Slide 1 text

⽣成AIと物体検知 (YOLO)の活⽤例につ いて ⼤野 育海 クラウド事業本部 運⽤イノベーション部

Slide 2

Slide 2 text

⾃⼰紹介 2 ● 名前:⼤野 育海 ● ロール:プラットフォームエンジニア ● 趣味:カメラ、野⿃撮影、バイク

Slide 3

Slide 3 text

そもそも⽣成AIとは? 3 ● ⽣成AI(Generative AI)は、学習したデータをもとに⽂章や画像、⾳声、 コードなど「新しいコンテンツを⽣み出すAI」のこと ● OpenAI の ChatGPT は ⾃然⾔語処理に特化した⼤規模⾔語モデル(LLM: Large Language Model) の代表例で、⼊⼒プロンプトに応じて⼈間のように ⾃然な⽂章を⽣成できる

Slide 4

Slide 4 text

物体検知とは?YOLOとは? 4 ● 物体検知(object detection)とは、画像や動画の中から「どの場所に何が あるか」を⾒つける技術のこと ● YOLO (You Only Look Once)は物体検知を⾼速かつ⾼精度に⾏うための ディープラーニング(深層学習)モデルの⼀つ ● 例)⽝、猫、⼈、⾃動⾞、信号機 などを囲んで「これは⽝、これは⼈」と認 識できる ● YOLO は「ディープラーニングを使った画像認識AI」 ● したがって AIの⼀種(機械学習モデルの⼀種)に分類される ● ただし YOLO ⾃体は「⽣成するAI」ではなく「認識するAI」

Slide 5

Slide 5 text

両者の違いまとめ 5 観点 物体検知( YOLOなど) 生成AI(ChatGPTなど) 主な役割 画像の中の物体を検出・分類 入力から新しい文章や画像な どを生成 AIの種類 認識系AI 生成系AI 技術要素 画像認識用のCNNベースのモデ ル 大規模言語モデル(LLM)や拡 散モデル 出力 バウンディングボックス+ラベル テキスト・画像・音声などのコン テンツ

Slide 6

Slide 6 text

アプリを作りました 6 ● ⽣成AIと物体検知を組み合わせたアプリを作成しました ● まずはデモをご覧ください

Slide 7

Slide 7 text

アプリデモ動画 7

Slide 8

Slide 8 text

使⽤技術の概要 8 名称 概要 目的 備考 YOLO11(yolo11n.pt) 物体検出 インプット画像から鳥を検 出 OpenCV 画像処理 鳥の部分のみ切り出し Gemini 2.5 Pro 回答生成 鳥の名前などのテキスト を生成 Google AI StudioのFree プラン React + Electron フロントエンド デスクトップアプリの UIを 作成 SQLite データベース 鳥のデータを保持

Slide 9

Slide 9 text

組み合わせの利点 9 単体使⽤の限界 【YOLO単体の場合‧‧‧】 ● 「⿃がいる」ことはわかるが、種類は不明 ● 検出精度:95% → でも「何の⿃?」は答えられない 【Gemini単体の場合‧‧‧】 ● 背景、枝、葉っぱなど不要情報が多すぎる ● ノイズ情報に惑わされて判定ミス

Slide 10

Slide 10 text

組み合わせの利点 10 組み合わせた場合 【YOLO → Gemini】 ● YOLO(+OpenCV)で画像から⿃の部分のみ切り出し、リサイズ ● 1枚の画像に複数⽻の⿃がいる場合でもYOLOで個別に検出 ● ノイズ情報を除去した画像をGeminiで分析することで回答精度向上 ● リサイズにより消費トークン量も削減

Slide 11

Slide 11 text

YOLOの検出例 11

Slide 12

Slide 12 text

⿃部分の切り出しとリサイズ 12

Slide 13

Slide 13 text

Geminiの回答⽐較 13 元画像のまま⼊⼒

Slide 14

Slide 14 text

Geminiの回答⽐較 14 ⿃部分のみ切り抜いて⼊⼒

Slide 15

Slide 15 text

Geminiの回答⽐較 15 ⽐較まとめ Geminiへの入力方法 回答の正確さ トークン消費量 元画像のまま 低い: ● 東京に生息しない鳥を回答とし て生成 ● ハルシネーション発生 高い: ● トークン消費量:359 ● 回答の正確性の低さ(不確実な推論)に より出力テキストが長くなり、トークン量 が多くなった 鳥部分だけ切り抜き 高い: ● 正確に鳥の名前を同定 低い: ● トークン消費量:338 ● 結論+短い説明だけのため出力テキスト が簡潔で、トークン量が少ない

Slide 16

Slide 16 text

落とし⽳ 16 YOLOを挟まない⽅が回答精度が⾼い場合も‧‧‧? ● Gemini 2.5 Proがかなり優秀 ● 未学習のデフォルトモデルでは⿃検出に特化していない

Slide 17

Slide 17 text

この画像、どこに⿃がいるかわかりますか? 17

Slide 18

Slide 18 text

YOLOの検出結果 18

Slide 19

Slide 19 text

Gemini 2.5 Pro の回答 19

Slide 20

Slide 20 text

いた‧‧‧!! 20

Slide 21

Slide 21 text

今後の展望 21 ● ⽣成AIでYOLOモデルを強化 ● ⽣成させた画像でYOLOの学習を実施する ● 学習データの調達が容易 ● YOLOの検出精度向上 + 独⾃ラベルの設定 ● ⽣成AIへのプロンプト簡易化=トークン節約 :「ラベル名の⿃について解説お願い」 ● オフライン環境で使⽤可能 「YOLO → ⽣成AI」を「⽣成AI → YOLO」へ

Slide 22

Slide 22 text

おわりに 22 ● 物体検出はオワコンではない(⾃戒) ● 実際に多くの分野で活躍: ○ CCTV映像の要約システム ■ YOLOにより映像内の物体(⼈‧⾞など)を検出し、⽣成AIにて検出 結果から⽂脈付きのテキスト要約を⽣成する研究が報告されている 参考:https://arxiv.org/html/2501.04764v1?utm_source=chatgpt.com ○ 洪⽔災害対応システムの構築 ■ マレーシアの洪⽔災害対応研究では、⽣成AIで合成した洪⽔画像を YOLOモデルの学習に使⽤。実際のドローン撮影映像でも⾼い検出性 能を⽰している。 参考:https://x.gd/1SFTC

Slide 23

Slide 23 text

23 ご清聴ありがとうご ざいました!! これからもYOLOを ヨロシク😀💦

Slide 24

Slide 24 text

No content