LLMの可能性を拡張する！物体検出 × AIエージェントによる図面認識・解釈

LLMの可能性を拡張する！物体検出 × AIエージェントによる図面認識・解釈株式会社 Almondo 福谷帆香

目次 1. 自己紹介 2. LLMの図表読み取り能力 3. 物体検出技術について 4. 物体検出 ×
LLM 5. 今までの流れをAI Agentへ 6. まとめ 2025/10/14 AI Agent 勉強会 vol.8 2 LLMの図表読み取りタスクをアシストする技術について紹介します！

自己紹介 2025/10/14 AI Agent 勉強会 vol.8 3 現X: @fukuro_hoho ◼
所属 ◼ 株式会社 Almondo (AIエンジニア・EM) ◼ 経歴 ◼ 神戸市立工業高等専門学校電子工学科 (2018~2023) ◼ 課外活動でパワーエレクトロニクスを研究 ◼ 情報科学の達人(NIIの研究者育成プログラム) 修了 ◼ 卒業研究で物体検出(YOLOv5)×医療の研究 ◼ 株式会社 Almondo ジョイン(2023/5~) ◼ 京都大学工学部情報学科在学中 (2023~2026) ◼ 京都大学情報学研究科 (2026/4~, 予定) AlmondoでのPJで表彰をいただきました！ ◼ 大学では数理工学を中心に勉強・研究

LLMの図表解釈能力最近のLLMも完璧ではない(表の場合) 2025/10/14 AI Agent 勉強会 vol.8 4 Q.20時台にどの区分の電車が何分に発車するかを全てまとめてください
… 01分がない 22本ではなく20本 GPT-5での生成結果最新モデルでも、複雑な図や表の読み解きは課題出典: 東急東横線HP 社会実装の大きな壁

LLMの図表解釈能力最近のLLMも完璧ではない(図の場合) 2025/10/14 AI Agent 勉強会 vol.8 5 GND Q.
この図の中のGNDと直接つながっているものを全て列挙

模範回答 2025/10/14 AI Agent 勉強会 vol.8 6 GNDと直接つながっているのはなんと17箇所 GND

GPT-4.1の回答〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 7 1箇所正解 2箇所不正解

物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 8 出典:
おもしろ記事そもそも物体があることをきちんと認識できていないかも前の回路図の例から、文字を認識しているだけで物体の存在自体は検出が得意なモデルに任せたらどうかというアイデア

物体検出 × LLM 〜実験の流れ〜 2025/10/14 AI Agent 勉強会 vol.8 9
1. 物体検出技術(YOLOv7)による検出結果をLLMに与えることによって、LLMの回答がどう変化するかを検証 2. 1. の実験を AI Agent を用いて行わせてみる

物体検出技術について 2025/10/14 AI Agent 勉強会 vol.8 10 YOLO: CNNを用いた物体検出フレームワーク出典:
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi: You Only Look Once: Unified, Real-Time Object Detection, 2016 出典: https://github.com/WongKinYiu/yolov7

物体検出技術について 2025/10/14 AI Agent 勉強会 vol.8 11 データセット出典: Nadim Ahmed,Mirza
Fuad Adnan,Ahmad Shafiullah,Hayder Jahan Parash,Md. Saifur Rahman,Irfan Chowdhury Akib,Golam Sarowar: Digitize-HCD: A Dataset for Digitization of Handwritten Circuit Diagrams, 2024 手書き回路図のデータセットを用いて、YOLOv7をFT

物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 12 素子が検出！

物体検出 × LLM 2025/10/14 AI Agent 勉強会 vol.8 13 検出結果はテキストとしても出せる
物体のラベルid,x座標,y座標,横幅,高さの形式バウンディングボックスの左上の座標(比率) 素子Zener Diodeが、横83%かつ縦20%のところから、長さ2%、高さ3%の場所に存在しています。素子Zener Diodeが、横80%かつ縦31%のところから、長さ2%、高さ3%の場所に存在しています。素子Capacitorが、横51%かつ縦76%のところから、長さ2%、高さ4%の場所に存在しています。つまり、検出結果からこういうことがわかる！LLMの情報源に

GPT-4.1の回答〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 14 7箇所正解 6箇所正解
下側がつながっていると答えられた →バウンディングボックスなので向きは課題か？ →縦のコンデンサ・横のコンデンサでラベル分けて学習した方がいいかも

今までの流れをAI Agentへ今回は、物体検出までを自分でやって、残りの解釈をAI Agentに丸投げしてやってもらってみるテキストファイルは、概要をテキストで与えるだけであとはAgentにコードを書いて解釈してもらう 2025/10/14 AI Agent 勉強会 vol.8
15 必要に応じて、以下の情報を用いてください。これらの情報を活用して、問題の最終的な答えを出してください。 1. コンテナ内に、画像を物体検出した結果があります。(画像と、labels/には検出結果のテキストファイルがあります。) 検出結果のテキストファイルは、「検出オブジェクトのラベルID,馬雲ディグボックスの左上のx座標,y座標,バウンディングボックスの横幅,高さ」の形になっています。 2. オブジェクトのラベルIDは、以下のリストのインデックス(0始まり)になっています。 [ 'BJT-NPN', 'BJT-PNP', 'Capacitor', 'Diode', 'GND', 'I-AC', 'I-DC', 'Inductor', 'MOSFET-N', 'MOSFET-P', 'Op-Amp', 'Resistor', 'V-AC', 'V-DC', 'V-DC (one port)', 'Wire Crossover', 'Zener Diode' ] 問題を説明したプロンプトに、以下を追加してからAgent実行 1. 検出結果のディレクトリを圧縮して、Containers APIを用いて作成されたコンテナに格納 2. Response APIを呼び出す(一応Code Interpreterにしておいた) ※結果は前述の取り組みの結果と大差なく、モデルによって性能が大きく揺れる印象

今までの流れをAI Agentへ GPT4.1 2025/10/14 AI Agent 勉強会 vol.8 16 出力の回答の部分

今までの流れをAI Agentへ GPT4.1 2025/10/14 AI Agent 勉強会 vol.8 17 エージェントの出力結果
検出数 8つ(正解 4つ、不正解 4つ) 物体検出を全く使わないLLM only 検出数 3つ(正解1つ、不正解2つ) ※解釈の部分を雑にAgentに投げたので、手で検出結果を整形した時より少し悪い

まとめ ◼ 物体検出を使うことで、LLMの画像解釈において 2025/10/14 AI Agent 勉強会 vol.8 18 オブジェクトの見逃しが大幅に減少
◼ 物体検出の部分をFTして工夫することで、一般的な図以外にも応用可能 LLMの知識としてなさそうなマニアックな記号も、座標と記号の知識をLLMに与えることで認識可応用の幅が大幅に広がる！ ◼ ある程度人力でいろいろしたら、エージェントに託す→応用・試行錯誤がしやすいただし、物体検出結果とLLMの画像解釈をどのように結びつけるかはまだまだ工夫の余地あり (今回は座標を数字で渡しているがベストじゃなさそう) ちなみに、今回のYOLOの学習はGoogle Colabの無料範囲内で可能でした！手軽なのも良い(検出だけならCPUでもOK)

もっと工夫するなら ◼ オブジェクトの縦横も学習することで、検出結果をもっと活用できそう！ 2025/10/14 AI Agent 勉強会 vol.8 19
◼ 座標情報の与え方をもっと工夫したい！ ◼ 今回は簡易エージェントだが、Code Interpreterを活用して検出結果のさらに高度な解釈をさせることもできる ◼ 線の検出を行うことで、さらに接続をわかりやすくできるアイデアいろいろ

ご清聴ありがとうございました！

Appendix

GPT-4.1の回答〜素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 22 Perfect (GPT4oとかで試しても完璧でした！)が……

GPT-5の回答〜GNDに繋がった素子の列挙〜 2025/10/14 AI Agent 勉強会 vol.8 23 4箇所間違え他モデルと比べてGPT5は
列挙に強く、Recallは1 (GPT4.1とかはあまり得意じゃなさそうだった) 下側がつながっていると答えられた →コンデンサであることはわかっているが向きがわかっていない？下側がつながっていると答えられた →下の素子がわかっていない？

GPT-5の回答〜GNDに繋がった素子の列挙・YOLO×LLM〜 2025/10/14 AI Agent 勉強会 vol.8 24 3箇所間違えまた下側がつながっていると答えられた
→バウンディングボックスなので向きは課題か →縦のコンデンサ・横のコンデンサでラベル分けて学習した方がいいかも分岐がGNDに見えているのかも？

ちなみに……GND記法の違い〜ものは試し・追加実験〜 2025/10/14 AI Agent 勉強会 vol.8 25 今回の回路図のGND
学習データのGND (厳密には違う記号だが……) 無理やり置き換えて再チャレンジ

ちなみに……GND記法の違い〜ものは試し〜 2025/10/14 AI Agent 勉強会 vol.8 26 GND全検出成功

GPT-4.1の回答〜GNDに繋がった素子の列挙・GND検知版〜 2025/10/14 AI Agent 勉強会 vol.8 27 7箇所正解 2箇所不正解

GPT-5の回答〜GNDに繋がった素子の列挙・GND検知版〜 2025/10/14 AI Agent 勉強会 vol.8 28 2箇所間違え (元と比べると間違いは半減)

デモNotebook デモのNotebookはこちら 2025/10/14 AI Agent 勉強会 vol.8 29

LLMの可能性を拡張する！物体検出 × AIエージェントによる図面認識・解釈

LLMの可能性を拡張する！物体検出 × AIエージェントによる図面認識・解釈

Almondoイベント担当

More Decks by Almondoイベント担当

Featured

Transcript