Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMの可能性を拡張する! 物体検出 × AIエージェントによる 図面認識・解釈

120

LLMの可能性を拡張する! 物体検出 × AIエージェントによる 図面認識・解釈

AI Agent勉強会 Vol.8での福谷さん(https://x.com/fukuro_hoho)の登壇資料

▼イベントリンク
https://almondo.connpass.com/event/369822/

Avatar for Almondoイベント担当

Almondoイベント担当

October 15, 2025
Tweet

Transcript

  1. 目次 1. 自己紹介 2. LLMの図表読み取り能力 3. 物体検出技術について 4. 物体検出 ×

    LLM 5. 今までの流れをAI Agentへ 6. まとめ 2025/10/14 AI Agent 勉強会 vol.8 2 LLMの図表読み取りタスクを アシストする技術について 紹介します!
  2. 自己紹介 2025/10/14 AI Agent 勉強会 vol.8 3 現X: @fukuro_hoho ◼

    所属 ◼ 株式会社 Almondo (AIエンジニア・EM) ◼ 経歴 ◼ 神戸市立工業高等専門学校 電子工学科 (2018~2023) ◼ 課外活動でパワーエレクトロニクスを研究 ◼ 情報科学の達人(NIIの研究者育成プログラム) 修了 ◼ 卒業研究で物体検出(YOLOv5)×医療の研究 ◼ 株式会社 Almondo ジョイン(2023/5~) ◼ 京都大学 工学部 情報学科 在学中 (2023~2026) ◼ 京都大学 情報学研究科 (2026/4~, 予定) AlmondoでのPJで表彰をいただきました! ◼ 大学では数理工学を中心に勉強・研究
  3. LLMの図表解釈能力 最近のLLMも完璧ではない(表の場合) 2025/10/14 AI Agent 勉強会 vol.8 4 Q.20時台にどの区分の電車が何分に 発車するかを全てまとめてください

    … 01分がない 22本ではなく20本 GPT-5での生成結果 最新モデルでも、複雑な 図や表の読み解きは課題 出典: 東急東横線HP 社会実装の大きな壁
  4. 物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 8 出典:

    おもしろ記事 そもそも物体があることを きちんと認識できていない かも 前の回路図の例から、文字を認識しているだけで 物体の存在自体は検出が 得意なモデルに任せたらどうか というアイデア
  5. 物体検出 × LLM 〜実験の流れ〜 2025/10/14 AI Agent 勉強会 vol.8 9

    1. 物体検出技術(YOLOv7)による検出結果をLLMに 与えることによって、LLMの回答がどう変化するかを検証 2. 1. の実験を AI Agent を用いて行わせてみる
  6. 物体検出技術について 2025/10/14 AI Agent 勉強会 vol.8 10 YOLO: CNNを用いた物体検出フレームワーク 出典:

    Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi: You Only Look Once: Unified, Real-Time Object Detection, 2016 出典: https://github.com/WongKinYiu/yolov7
  7. 物体検出技術について 2025/10/14 AI Agent 勉強会 vol.8 11 データセット出典: Nadim Ahmed,Mirza

    Fuad Adnan,Ahmad Shafiullah,Hayder Jahan Parash,Md. Saifur Rahman,Irfan Chowdhury Akib,Golam Sarowar: Digitize-HCD: A Dataset for Digitization of Handwritten Circuit Diagrams, 2024 手書き回路図のデータセットを用いて、YOLOv7をFT
  8. 物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 13 検出結果はテキストとしても出せる

    物体のラベルid,x座標,y座標,横幅,高さ の形式 バウンディングボックスの左上の座標(比率) 素子Zener Diodeが、横83%かつ縦20%のところから、長さ2%、高さ3%の場所に存在しています。 素子Zener Diodeが、横80%かつ縦31%のところから、長さ2%、高さ3%の場所に存在しています。 素子Capacitorが、横51%かつ縦76%のところから、長さ2%、高さ4%の場所に存在しています。 つまり、検出結果からこういうことがわかる!LLMの情報源に
  9. GPT-4.1の回答 〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 14 7箇所正解 6箇所正解

    下側がつながっていると答えられた →バウンディングボックスなので向きは課題か? →縦のコンデンサ・横のコンデンサでラベル分けて学習した方がいいかも
  10. 今までの流れをAI Agentへ 今回は、物体検出までを自分でやって、残りの解釈をAI Agentに丸投げしてやってもらってみる テキストファイルは、概要をテキストで与えるだけであとはAgentにコードを書いて解釈してもらう 2025/10/14 AI Agent 勉強会 vol.8

    15 必要に応じて、以下の情報を用いてください。これらの情報を活用して、問題の最終的な答えを出してく ださい。 1. コンテナ内に、画像を物体検出した結果があります。(画像と、labels/には検出結果のテキストファ イルがあります。) 検出結果のテキストファイルは、「検出オブジェクトのラベルID,馬雲ディグボックスの左上のx座標,y座 標,バウンディングボックスの横幅,高さ」の形になっています。 2. オブジェクトのラベルIDは、以下のリストのインデックス(0始まり)になっています。 [ 'BJT-NPN', 'BJT-PNP', 'Capacitor', 'Diode', 'GND', 'I-AC', 'I-DC', 'Inductor', 'MOSFET-N', 'MOSFET-P', 'Op-Amp', 'Resistor', 'V-AC', 'V-DC', 'V-DC (one port)', 'Wire Crossover', 'Zener Diode' ] 問題を説明したプロンプトに、以下を追加してからAgent実行 1. 検出結果のディレクトリを圧縮して、Containers APIを用いて作成されたコンテナに格納 2. Response APIを呼び出す(一応Code Interpreterにしておいた) ※結果は前述の取り組みの結果と大差なく、 モデルによって性能が大きく揺れる印象
  11. 今までの流れをAI Agentへ GPT4.1 2025/10/14 AI Agent 勉強会 vol.8 17 エージェントの出力結果

    検出数 8つ(正解 4つ、不正解 4つ) 物体検出を全く使わないLLM only 検出数 3つ(正解1つ、不正解2つ) ※解釈の部分を雑にAgentに投げたので、 手で検出結果を整形した時より少し悪い
  12. まとめ ◼ 物体検出を使うことで、LLMの画像解釈において 2025/10/14 AI Agent 勉強会 vol.8 18 オブジェクトの見逃しが大幅に減少

    ◼ 物体検出の部分をFTして工夫することで、一般的な図以外にも応用可能 LLMの知識としてなさそうなマニアックな記号も、 座標と記号の知識をLLMに与えることで認識可 応用の幅が大幅に広がる! ◼ ある程度人力でいろいろしたら、エージェントに託す→応用・試行錯誤がしやすい ただし、物体検出結果とLLMの画像解釈を どのように結びつけるかはまだまだ工夫の余地あり (今回は座標を数字で渡しているがベストじゃなさそう) ちなみに、今回のYOLOの学習はGoogle Colabの無料範囲内で 可能でした!手軽なのも良い(検出だけならCPUでもOK)
  13. もっと工夫するなら ◼ オブジェクトの縦横も学習することで、 検出結果をもっと活用できそう! 2025/10/14 AI Agent 勉強会 vol.8 19

    ◼ 座標情報の与え方をもっと工夫したい! ◼ 今回は簡易エージェントだが、Code Interpreterを活用して 検出結果のさらに高度な解釈をさせることもできる ◼ 線の検出を行うことで、さらに接続をわかりやすくできる アイデア いろいろ
  14. GPT-5の回答 〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 23 4箇所間違え 他モデルと比べてGPT5は

    列挙に強く、Recallは1 (GPT4.1とかはあまり 得意じゃなさそうだった) 下側がつながっていると答えられた →コンデンサであることはわかっているが向きがわかっていない? 下側がつながっていると答えられた →下の素子がわかっていない?
  15. GPT-5の回答 〜GNDに繋がった素子の列挙・YOLO×LLM〜 2025/10/14 AI Agent 勉強会 vol.8 24 3箇所間違え また下側がつながっていると答えられた

    →バウンディングボックスなので向きは課題か →縦のコンデンサ・横のコンデンサでラベル分けて学習した方がいいかも 分岐がGNDに見えているのかも?
  16. ちなみに……GND記法の違い 〜ものは試し・追加実験〜 2025/10/14 AI Agent 勉強会 vol.8 25 今回の回路図 のGND

    学習データ のGND (厳密には違う記号だが……) 無理やり置き換えて再チャレンジ