Slide 1

Slide 1 text

LLMの可能性を拡張する! 物体検出 × AIエージェントによる 図面認識・解釈 株式会社 Almondo 福谷帆香

Slide 2

Slide 2 text

目次 1. 自己紹介 2. LLMの図表読み取り能力 3. 物体検出技術について 4. 物体検出 × LLM 5. 今までの流れをAI Agentへ 6. まとめ 2025/10/14 AI Agent 勉強会 vol.8 2 LLMの図表読み取りタスクを アシストする技術について 紹介します!

Slide 3

Slide 3 text

自己紹介 2025/10/14 AI Agent 勉強会 vol.8 3 現X: @fukuro_hoho ◼ 所属 ◼ 株式会社 Almondo (AIエンジニア・EM) ◼ 経歴 ◼ 神戸市立工業高等専門学校 電子工学科 (2018~2023) ◼ 課外活動でパワーエレクトロニクスを研究 ◼ 情報科学の達人(NIIの研究者育成プログラム) 修了 ◼ 卒業研究で物体検出(YOLOv5)×医療の研究 ◼ 株式会社 Almondo ジョイン(2023/5~) ◼ 京都大学 工学部 情報学科 在学中 (2023~2026) ◼ 京都大学 情報学研究科 (2026/4~, 予定) AlmondoでのPJで表彰をいただきました! ◼ 大学では数理工学を中心に勉強・研究

Slide 4

Slide 4 text

LLMの図表解釈能力 最近のLLMも完璧ではない(表の場合) 2025/10/14 AI Agent 勉強会 vol.8 4 Q.20時台にどの区分の電車が何分に 発車するかを全てまとめてください … 01分がない 22本ではなく20本 GPT-5での生成結果 最新モデルでも、複雑な 図や表の読み解きは課題 出典: 東急東横線HP 社会実装の大きな壁

Slide 5

Slide 5 text

LLMの図表解釈能力 最近のLLMも完璧ではない(図の場合) 2025/10/14 AI Agent 勉強会 vol.8 5 GND Q. この図の中のGNDと直接つながっているものを全て列挙

Slide 6

Slide 6 text

模範回答 2025/10/14 AI Agent 勉強会 vol.8 6 GNDと直接つながっているのはなんと17箇所 GND

Slide 7

Slide 7 text

GPT-4.1の回答 〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 7 1箇所正解 2箇所不正解

Slide 8

Slide 8 text

物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 8 出典: おもしろ記事 そもそも物体があることを きちんと認識できていない かも 前の回路図の例から、文字を認識しているだけで 物体の存在自体は検出が 得意なモデルに任せたらどうか というアイデア

Slide 9

Slide 9 text

物体検出 × LLM 〜実験の流れ〜 2025/10/14 AI Agent 勉強会 vol.8 9 1. 物体検出技術(YOLOv7)による検出結果をLLMに 与えることによって、LLMの回答がどう変化するかを検証 2. 1. の実験を AI Agent を用いて行わせてみる

Slide 10

Slide 10 text

物体検出技術について 2025/10/14 AI Agent 勉強会 vol.8 10 YOLO: CNNを用いた物体検出フレームワーク 出典: Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi: You Only Look Once: Unified, Real-Time Object Detection, 2016 出典: https://github.com/WongKinYiu/yolov7

Slide 11

Slide 11 text

物体検出技術について 2025/10/14 AI Agent 勉強会 vol.8 11 データセット出典: Nadim Ahmed,Mirza Fuad Adnan,Ahmad Shafiullah,Hayder Jahan Parash,Md. Saifur Rahman,Irfan Chowdhury Akib,Golam Sarowar: Digitize-HCD: A Dataset for Digitization of Handwritten Circuit Diagrams, 2024 手書き回路図のデータセットを用いて、YOLOv7をFT

Slide 12

Slide 12 text

物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 12 素子が検出!

Slide 13

Slide 13 text

物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 13 検出結果はテキストとしても出せる 物体のラベルid,x座標,y座標,横幅,高さ の形式 バウンディングボックスの左上の座標(比率) 素子Zener Diodeが、横83%かつ縦20%のところから、長さ2%、高さ3%の場所に存在しています。 素子Zener Diodeが、横80%かつ縦31%のところから、長さ2%、高さ3%の場所に存在しています。 素子Capacitorが、横51%かつ縦76%のところから、長さ2%、高さ4%の場所に存在しています。 つまり、検出結果からこういうことがわかる!LLMの情報源に

Slide 14

Slide 14 text

GPT-4.1の回答 〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 14 7箇所正解 6箇所正解 下側がつながっていると答えられた →バウンディングボックスなので向きは課題か? →縦のコンデンサ・横のコンデンサでラベル分けて学習した方がいいかも

Slide 15

Slide 15 text

今までの流れをAI Agentへ 今回は、物体検出までを自分でやって、残りの解釈をAI Agentに丸投げしてやってもらってみる テキストファイルは、概要をテキストで与えるだけであとはAgentにコードを書いて解釈してもらう 2025/10/14 AI Agent 勉強会 vol.8 15 必要に応じて、以下の情報を用いてください。これらの情報を活用して、問題の最終的な答えを出してく ださい。 1. コンテナ内に、画像を物体検出した結果があります。(画像と、labels/には検出結果のテキストファ イルがあります。) 検出結果のテキストファイルは、「検出オブジェクトのラベルID,馬雲ディグボックスの左上のx座標,y座 標,バウンディングボックスの横幅,高さ」の形になっています。 2. オブジェクトのラベルIDは、以下のリストのインデックス(0始まり)になっています。 [ 'BJT-NPN', 'BJT-PNP', 'Capacitor', 'Diode', 'GND', 'I-AC', 'I-DC', 'Inductor', 'MOSFET-N', 'MOSFET-P', 'Op-Amp', 'Resistor', 'V-AC', 'V-DC', 'V-DC (one port)', 'Wire Crossover', 'Zener Diode' ] 問題を説明したプロンプトに、以下を追加してからAgent実行 1. 検出結果のディレクトリを圧縮して、Containers APIを用いて作成されたコンテナに格納 2. Response APIを呼び出す(一応Code Interpreterにしておいた) ※結果は前述の取り組みの結果と大差なく、 モデルによって性能が大きく揺れる印象

Slide 16

Slide 16 text

今までの流れをAI Agentへ GPT4.1 2025/10/14 AI Agent 勉強会 vol.8 16 出力の回答の部分

Slide 17

Slide 17 text

今までの流れをAI Agentへ GPT4.1 2025/10/14 AI Agent 勉強会 vol.8 17 エージェントの出力結果 検出数 8つ(正解 4つ、不正解 4つ) 物体検出を全く使わないLLM only 検出数 3つ(正解1つ、不正解2つ) ※解釈の部分を雑にAgentに投げたので、 手で検出結果を整形した時より少し悪い

Slide 18

Slide 18 text

まとめ ◼ 物体検出を使うことで、LLMの画像解釈において 2025/10/14 AI Agent 勉強会 vol.8 18 オブジェクトの見逃しが大幅に減少 ◼ 物体検出の部分をFTして工夫することで、一般的な図以外にも応用可能 LLMの知識としてなさそうなマニアックな記号も、 座標と記号の知識をLLMに与えることで認識可 応用の幅が大幅に広がる! ◼ ある程度人力でいろいろしたら、エージェントに託す→応用・試行錯誤がしやすい ただし、物体検出結果とLLMの画像解釈を どのように結びつけるかはまだまだ工夫の余地あり (今回は座標を数字で渡しているがベストじゃなさそう) ちなみに、今回のYOLOの学習はGoogle Colabの無料範囲内で 可能でした!手軽なのも良い(検出だけならCPUでもOK)

Slide 19

Slide 19 text

もっと工夫するなら ◼ オブジェクトの縦横も学習することで、 検出結果をもっと活用できそう! 2025/10/14 AI Agent 勉強会 vol.8 19 ◼ 座標情報の与え方をもっと工夫したい! ◼ 今回は簡易エージェントだが、Code Interpreterを活用して 検出結果のさらに高度な解釈をさせることもできる ◼ 線の検出を行うことで、さらに接続をわかりやすくできる アイデア いろいろ

Slide 20

Slide 20 text

ご清聴 ありがとうございました!

Slide 21

Slide 21 text

Appendix

Slide 22

Slide 22 text

GPT-4.1の回答 〜素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 22 Perfect (GPT4oとかで試しても完璧でした!)が……

Slide 23

Slide 23 text

GPT-5の回答 〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 23 4箇所間違え 他モデルと比べてGPT5は 列挙に強く、Recallは1 (GPT4.1とかはあまり 得意じゃなさそうだった) 下側がつながっていると答えられた →コンデンサであることはわかっているが向きがわかっていない? 下側がつながっていると答えられた →下の素子がわかっていない?

Slide 24

Slide 24 text

GPT-5の回答 〜GNDに繋がった素子の列挙・YOLO×LLM〜 2025/10/14 AI Agent 勉強会 vol.8 24 3箇所間違え また下側がつながっていると答えられた →バウンディングボックスなので向きは課題か →縦のコンデンサ・横のコンデンサでラベル分けて学習した方がいいかも 分岐がGNDに見えているのかも?

Slide 25

Slide 25 text

ちなみに……GND記法の違い 〜ものは試し・追加実験〜 2025/10/14 AI Agent 勉強会 vol.8 25 今回の回路図 のGND 学習データ のGND (厳密には違う記号だが……) 無理やり置き換えて再チャレンジ

Slide 26

Slide 26 text

ちなみに……GND記法の違い 〜ものは試し〜 2025/10/14 AI Agent 勉強会 vol.8 26 GND全検出成功

Slide 27

Slide 27 text

GPT-4.1の回答 〜GNDに繋がった素子の列挙・GND検知版〜 2025/10/14 AI Agent 勉強会 vol.8 27 7箇所正解 2箇所不正解

Slide 28

Slide 28 text

GPT-5の回答 〜GNDに繋がった素子の列挙・GND検知版〜 2025/10/14 AI Agent 勉強会 vol.8 28 2箇所間違え (元と比べると間違いは半減)

Slide 29

Slide 29 text

デモNotebook デモのNotebookはこちら 2025/10/14 AI Agent 勉強会 vol.8 29