速習 AIエージェント入門

速習 AI エージェント入門社外公開版 Nov 2025 株式会社LegalOn Technologies 浅野卓也

はじめにターゲット・背景・本日のゴール

ターゲットエージェント開発に関わることになったプロダクトマネージャー、デザイナーエージェント技術に興味を持ったバックオフィス系職種などの非エンジニアエージェント開発に興味はあるが、実践経験の少ないエンジニア

💥 背景 AI エージェントはこの1 年の間で急速に進化用語が混乱しており、認識のズレが発生しやすいプラクティスが固まっていない新しい情報がどんどん出てくるどこから学べば良いかわからないキャッチアップにかかる労力が非常に大きい
🎯 ゴール基礎知識や用語を整理し、共通理解を得る AI エージェントやその開発に関連する、これまでの大きな流れをキャッチアップする ⏩ 知識の土台を作り、AI エージェント開発を効率化する

本日のハイライト 🤔 「エージェント」という用語の誤解 🔄 ワークフローとエージェントの違いと両立 💬 エージェントとのインタラクション（HITL とGenerative UI ）

AI エージェントとは何かエージェントの定義と特性

🤔 エージェントと、そうでないAI との違いは？

AI 研究の4 つのアプローチ人間のように合理的に思考 🧠 認知科学的アプローチ人間の思考を模倣 ⚙️
論理学的アプローチ記号的・形式的推論行動 🤖 チューリングテストアプローチ人間らしく振る舞う 🎯 合理的エージェントアプローチ目標達成のため合理的に行動現在のAI 研究の主流は「合理的エージェント」アプローチエージェントは人間らしさより目標達成を重視内部処理は人間と異なってもOK

エージェントアプリケーションの例 Computer Use （OpenAI Operator 、Claude ） Browser Use （Browser
Use 、Browserbase ） Gemini Deep Research ChatGPT Deep Research Open Deep Research (OSS) Claude Code Cursor Devin OpenHands (OSS) ChatGPT （agent mode ） Claude Gemini Microsoft Copilot Manus 近年のチャットAI は、ツール実行を行う「エージェント」へと進化してきているコンピュータ・ブラウザ操作リサーチエージェントコーディングエージェント汎用エージェント

AI エージェントという用語について AI エージェント（AI Agents ） LLM を使う場合、とくにLLM エージェントと呼ぶこともある単に「エージェント」というと、ソフトウェア以外（人など）もエージェントの範疇に入りうる
以降では便宜上、AI エージェント、さらにいうとLLM エージェントを「エージェント（agents ）」と呼ぶことにするエージェントとは何かを厳密に定義することは難しく、共通の理解はまだ存在しないここではエージェントを、便宜的に以下のように捉えることにする：環境と相互作用し、与えられた目標（ゴール）を達成しようとするAI

エージェントの基本概念環境エージェント⾏動知覚環境から知覚 (percepts) を得る環境に対して行動 (actions)
を起こす

エージェントの「定義」についてエージェントの定義は数多く提案されている自律的に動作し、環境を知覚し、長期間に渡って、変化に適応し、目標を作成して追求する [AIMA] センサーで環境を知覚し、アクチュエーターで環境に働きかける存在 [AIMA] 環境を感知し、目標を追求し、環境に対して作用する [Fanklin & Graesser
1996] 「エージェント」を厳密に定義することは難しいし、生産的ではないグラデーションやグレーゾーンがあり、例外が存在する例：サーモスタットやエアコンは上記の定義に当てはまるがエージェントだろうか？また、製品マーケティングではエージェント的（＝エージェンティック）ではない実装であっても「エージェント」と喧伝されることもある

エージェントの「定義」について産業界において重要なのは、エージェントの技術を利用して役にたつシステムを開発すること定義が定まっていないので、単なるプログラムやLLM アプリケーションであるか、真にエージェントであるかを厳密に区別することはできないエージェントの定義についての議論に時間を費やすのは非生産的このあと説明するように、エージェント的な振る舞いをするAI 、すなわちエージェンティックAI （Agentic
AI ）を単に「エージェント」と呼ぶことが多い

エージェンティック（agentic ）な特性 Fanklin & Graesser 1996 による、エージェントの特性：反応的である (reactive): 環境の変化に応じてタイムリーに行動する
自律的である (autonomous) - 自身の行動を自らコントロールする目標志向である (goal-oriented, proactive) - ただ反射的な反応をするだけではない継続性がある (temporally continuous) - 1 回呼び出して終わりではなく、継続的に動作社交性がある (communicative) - 他のエージェントとコミュニケーション学習する、適応的である (learning, adaptive) - 過去の経験に基づいて行動を変える柔軟である (flexible) - 行動が固定的ではない特に最初の4 つは、全てのエージェントが持つべき特性である、としているその他の特性

ここまでのまとめエージェントの定義と特性

ここまでのまとめエージェントの定義と特性（1 ）「エージェント」という用語の定義はまだ業界内で固まっていないどの意味で使われているのか注意するエージェント的な特性反応的、自律的、目標志向、継続性などこれらの特性を備えたAI をエージェント、あるいはエージェンティックAI
と呼ぶことが多い

ここまでのまとめエージェントの定義と特性（2 ）ひとまずは曖昧に「環境と相互作用し、与えられた目標（ゴール）を達成しようとするAI 」としよう行動：ツールを利用して環境に影響を与える知覚：ツールを利用して環境からフィードバックを得る

エージェントの概要

エージェントがもつべき能力能力概要ツール利用 (tool use) 外部環境と相互作用するツールを呼び出し、知覚・行動するプロファイル (profile) エージェントに役割・ユーザーの好みなどを与え、振る舞いを最適化する
計画 (planning) 目標（ゴール）を立て、それを分解して実行可能なサブタスクに落とし込む内省 (reflection) 自らの出力やフィードバックを受けて方針を見直す記憶 (memory) 短期や長期の情報を保持し、活用する

エージェントによるツール利用環境エージェントツール ? ツール知覚⾏動エージェントが環境と相互作用するために「ツール (tool)
」を利用するセンサー：環境から知覚を受ける（例：Web 検索）

ツールの例 Web 検索 (web search) Web ページ取得 (fetch) センサー情報の検知 (sensing)
ブラウザ利用 (browser use) ファイル操作 (file I/O) メッセージ送信 (messaging) メール・チャット等数値計算 (calculation) コード実行 (code run) 現状、ツールはMCP サーバー、もしくはPython 関数として実装されることが多い

エージェントの推論ループ環境エージェントツールエージェントプログラムツール知覚⾏動 LLM
停⽌エージェントは、目標（ゴール）を与えられたとき、その目標を自律的に追求しようとする LLM を使って反復的・段階的・自律的にタスクをこなす

エージェントの推論ループ環境エージェントツールエージェントプログラムツール知覚⾏動 LLM
停⽌エージェントプログラムは、停止するまで以下のステップを繰り返し実行する：思考（reason ）：LLM でツール選択、停止判定行動（act ）：ツールを呼び出し、環境に影響を与える知覚（perceive ）：環境からのフィードバックを受け取る

基本的なエージェントの内部構造環境エージェントツールエージェントプログラムツール知覚⾏動 LLM
プロファイル計画内省記憶エージェントは、必要に応じて以下のようなモジュールを持つ：モジュール概要プロファイル（profile ） LLM に役割を指示するプロンプト計画（planner ）サブタスクの生成や、生成した計画の取得内省（reflection ）ツール実行結果を元に計画を修正記憶（memory ）コンテキストの永続化を行い、必要になったら想起

ここまでのまとめエージェントの概要

ここまでのまとめエージェントの概要エージェントプログラムは、内部で推論ループを実行する思考→行動→知覚エージェントはツール、プロファイル、計画、内省、記憶などのモジュールを使って自律的に目標を達成しようとする環境エージェントツールエージェント
プログラムツール知覚⾏動 LLM プロファイル計画内省記憶

エージェントシステムの設計と実装

エージェントの設計パターン実用的なエージェントは、いくつかのエージェントの設計パターンを組み合わせて作られるここでは最も基本的なReAct エージェントのみ紹介エージェントの設計に「正解」はまだないこの分野は急速に発展しているので、変化を柔軟に取り入れていくのが大事高度な推論・計画・内省の技法について詳しく知りたい方は、Plan-and-Solve 、Least-to-Most (L2M) 、Reflexion
、Self-Consistency 、 Self-Refine 、Chain-of-Verification （CoVe ）などのキーワードで調べてみてください

ReAct エージェント：シンプルな設計パターン最も基本的なエージェントの設計パターン continue done start agent tools end ReAct
= Reasoning + Act エージェントを素直に実装している推論（Reasoning ）と行動（Act ）を交互に繰り返すどのツールを選択・どのように実行するかをLLM が決定タスクが完了したかどうかもLLM が判定する

ワークフローとエージェントの違いワークフロー（workflow ）固定のロジックと依存関係を事前に定義決められた条件で動作挙動が予測可能で一貫性がある柔軟な対応が難しい true false input
output fail Gate A B エージェント（agents ）事前に定義されたツールを利用自律的に動作して目標を達成推論ループを実行柔軟性が高いが制御しづらい continue done input agent tools output

Agentic Workflow 柔軟性と予測可能性の両立ワークフローとエージェントは相互に補完できるワークフローの中にエージェントを組み込むエージェントの中にワークフローを組み込むこのハイブリッドな方法をエージェンティックワークフロー（Agentic Workflow ）
と呼ぶワークフローとしてドメイン知識を注入できるマルチエージェントにも自然に拡張できる柔軟性と予測可能性・一貫性を両立できる

マルチエージェントシステムなぜマルチエージェントが必要か？課題 LLM はlong context を扱えるようになったが、1 回のLLM 呼び出しではうまくいかないケースもコンテキスト劣化（Context
Rot ） Lost in the Middle 、Attention Sink などたくさんのツールを1 つのエージェントに持たせると精度が下がるツールが多すぎると使いこなせないマルチエージェントによる解決複数の部分問題・ステップに分割し、それぞれのエージェントに役割を持たせて実行専門のエージェントに少数のツールを持たせる

初歩的なマルチエージェントパターン Routing パターン（Hand-off ）ルーティング先のエージェントに委譲する呼び出されたエージェントがユーザーに回答 input output output Agent
A Agent B Router Supervisor パターン（Agent as Tools ）ツール実行としてエージェントを呼び出す呼び出し側から見ると「自然言語で指示できるツール」例えば、MCP 呼び出しでも実装可能 input output Agent A Agent B Supervisor Supervisor

エージェント間の通信ー A2A とMCP エージェント間の通信にはいくつかのパターンがあるツールとして呼び出す（Agent as Tools ）関数呼び出し
MCP 専用プロトコルで呼び出す A2A ACP （A2A に統合された） A2A は、AgentCard により、エージェントのdiscovery をサポートエージェントが異なるエージェントを「発見」できる全体として非常に自律性の高いシステムにしたい場合に有効？

ここまでのまとめエージェントシステムの設計

ここまでのまとめエージェントシステムの設計 ReAct エージェントエージェントの概念をシンプルに実現する設計パターン Agentic Workflow ワークフローとエージェントを組み合わせて柔軟性と予測可能性を両立マルチエージェントシステム複数のエージェントに分割することでより複雑なタスクに対応
最も簡単なRouting パターン、Supervisor パターンを紹介関数呼び出し、MCP 、A2A などでエージェントを呼び出す

エージェントの開発フレームワーク

代表的なエージェント開発フレームワーク SDK OpenAI Agents SDK Google ADK (Agent Development Kit)
Microsoft Agent Framework AutoGen とSemantic Kernel を統合 Amazon Bedrock Bedrock Agents Strands Agents Bedrock AgentCore LangChain & LangGraph Mastra CrewAI ノーコード・ローコード n8n Dify

ツールの実装

ツールについて（復習）エージェントが環境と相互作用するために「ツール (tool) 」を利用するセンサー：環境から知覚を受ける（例：Web 検索）アクチュエーター：行動を起こして環境に影響を与える（例：メール送信）ツールの例 Web 検索、メッセージ送信など
ツールはMCP サーバー、もしくはPython 関数として実装されることが多い

MCP （Model Context Protocol ）の概要ツール利用のための汎用的なプロトコル「AI アプリケーションにとってのUSB-C 」外部システム・DB
を、エージェントと接続 2 種類の通信方式（Transports ） Streamable HTTP ：リモート動作OK Stdio （標準入出力）：ローカルのみ MCP Architecture. https://modelcontextprotocol.io/specification/2025-06- 18/architecture#core-components

MCP サーバーのAPI MCP サーバーはいくつかのAPI を持っている tools/list : どんなツールがあるかを提示 tools/call :
ツールを呼び出して結果を取得他にも色々あるが、基本はこの2 つを抑えておけば OK

リモートMCP サーバー簡単にいうと「インターネット上で動くMCP サーバー」のこと認証認可仕様の標準化が進行中 MCP 経由でも外部サービスの自分のリソースに安全にアクセスできるように公式のリモートMCP サーバー Atlassian
Rovo MCP Remote GitHub MCP Server Notion MCP Zapier MCP Authorization - Model Context Protocol. https://modelcontextprotocol.io/specification/draft/basic/authorization

MCP サーバーの実装 SDK を用いることで MCP サーバーを簡単に開発できる言語によって仕様のサポート状況はまちまち TypeScript とPython
の実装が比較的先行 TypeScript: MCP TypeScript SDK Python: FastMCP v2 Python での実装例（Streamable HTTP ） from fastmcp import FastMCP mcp = FastMCP(name="MyServer") @mcp.tool def greet(name: str) -> str: """Greet a user by name.""" return f"Hello, {name}!" if __name__ == "__main__": mcp.run(transport="http", host="127.0.0.1", port=9000)

ツールの粒度シンプルなツール群プリミティブな操作1 つを1 つのツールとして定義・実装 ✅ ツール選択・操作をエージェントに任せるので柔軟性が高い ⚠️
ツールがたくさんあるとコンテキスト圧迫＆ツール選択の精度が下がる複雑な単一ツールひとかたまりのワークフロー（ユースケース）を1 つのツールとして定義・実装 ✅ 挙動の一貫性が高まる ⚠️ 丁寧なツール設計が必要で、工数がかかる

ツールの粒度シンプルなツール群 vs. 複雑な単一ツール柔軟性と正確性のトレードオフリモートMCP サーバーとして外部に公開する場合シンプルなツール群を定義するのがよい挙動の一貫性を高めて最適化したい場合ひとかたまりのワークフローを1
つのツールとして定義するのがよい Writing effective tools for AI agents - Anthropic. https://www.anthropic.com/engineering/writing-tools-for-agents

ここまでのまとめツールの実装

ここまでのまとめツールの実装 MCP はエージェントとツールを接続するための汎用プロトコル MCP サーバーの重要なAPI tools/list tools/call MCP サーバーの実装には各言語のSDK
を利用するとよい TypeScript 、Python などツール粒度のトレードオフシンプルなツール群複雑な単一ツールエージェントのユースケースに応じて選択する

エージェントシステムのUI エージェントとユーザーのインタラクション

チャットUI OpenAI ChatGPT

チャットUI エージェントへの指示基本はテキストフォームとして実装される画像や文書ファイルなどを添付してコンテキストに含める場合もトークンのストリーミングトークン生成をリアルタイム表示できるとUX が
良い HTTP SSE （Server Sent Events ）やWebSocket で実装されるエージェントの状態のサマリー表示例：「考え中… 」「〜をしています」などトークン、エージェントの中間状態などの変化をイベントのストリームとして抽象化すると実装しやすい会話スレッド管理過去の会話を探したり再開したりするUI サイドバーとして実装されることが多いタイトル生成、スレッドの共有などの機能も考慮する

ヒューマンインザループ（HITL ）エージェントがアクションを実行する前後に、人間が確認・修正・承認できるようにする仕組み計画の確認・修正ツール実行の承認 Claude Code CLI
でのHITL の例

ヒューマンインザループ（HITL ）承認を求めるかどうかの判定基準実行内容の影響度・不可逆性・スコープ・機密性や、ユーザーの過去の指示内容・設定によっても変化アプリケーションやツールによって要件が異なるエージェントの安全性、ガバナンスに直結するため、慎重な設計が必要クリティカルな部分は判断をエージェント（LLM ）に任せず、バックエンドのロジックで強制的にHITL を挟むなど後述するGenerative
UI によって、ユーザーにわかりやすく状況を伝える

Generative UI エージェントがリッチなUI コンポーネントを返し、それをフロントエンドでレンダリング Markdown だけでは表現できない独自のUI 「承認ボタン」などのHITL を挟むインタラクティブなUI も表現可能 How
to implement generative user interfaces with LangGraph - Docs by LangChain

Generative UI の実装イメージ右のようなJSON をstructured output で生成サーバーでスキーマや値をバリデーションイベントに変換しフロントエンドに送信フロントエンドでデータを指定されたUI
コンポーネントにマッピングして表示 { "type": "card", "title": "経費申請 #1234", "body": [ {"type": "text", "value": "申請者: Takuya Asano"}, {"type": "text", "value": "金額: ¥12,300"}, {"type": "text", "value": "用途: 交通費"} ], "actions": [ { "type": "button", "label": "承認", "style": "primary", "action_id": "approve_expense" }, { "type": "button", "label": "却下", "style": "secondary", "action_id": "reject_expense" } ] }

アンビエントエージェント Ambient Agents 環境のイベントによってトリガーされるエージェントユーザーが能動的に指示を出すチャットUI と対照的タスクが完了したらユーザーに報告承認依頼や質問があれば一時停止してHITL を挟む毎朝9
時メールを受信するたびカレンダーの予定の30 分前 Slack でメンションされるたびトリガーの例

アンビエントエージェントのUI 例エージェントからの承認依頼や質問に回答するUI （Agent Inbox ）が必要 E メール、プッシュ通知などのような、ユーザーへの通知のシステムも必要になるだろう LangChain Agent
Inbox

代表的なエージェントUI フレームワーク Vercel AI SDK フレームワーク非依存 UI コンポーネントは提供されないため、自分たちで用意する CopilotKit
AG-UI というプロトコルでエージェント↔UI の通信を標準化ヘッドレスを選択可能 UI コンポーネントはassistant-ui と比べると少なめ assistant-ui CopilotKit と同様、React ベース CopilotKit のようなランタイムサーバー（BFF ）が不要 OpenAI ChatKit この中では最も新しい（2025 年11 月リリース） UI コンポーネントは提供されたものをカスタマイズするという考え方

UI フレームワーク選択の観点薄いフレームワークは自由度が高いが、自前で作らないといけない部分が多い厚いフレームワークは初期開発の速度は出やすいが、カスタマイズが難しいことも独自のデザインシステムを適用したければヘッドレスUI や薄いフレームワークを選択独自に定義したイベントがストリーミングできるとGenerative UI が実装しやすく、拡張性が高い

ここまでのまとめエージェントシステムのUI

ここまでのまとめエージェントシステムのUI チャットUI トークンストリーミング、会話スレッドの管理、エージェントの状態の表示などヒューマンインザループ（HITL ）エージェントのアクション前後に人間が確認・修正・承認できる仕組み Generative UI エージェントがリッチな情報を返し、フロントエンドでUI
コンポーネントをレンダリングアンビエントエージェント環境のイベントによってトリガーされるエージェント代表的なエージェントUI フレームワーク Vercel AI SDK 、CopilotKit 、assistant-ui 、OpenAI ChatKit など

エージェントシステムのセキュリティ

プロンプトインジェクションシステム側が意図していない指示をLLM に読ませる攻撃ユーザーが直接入力したプロンプトだけでなく、エージェントが読み込んだコンテンツにも注意システムによっては、攻撃者がエージェントを悪意あるコンテンツに誘導することもできる GitHub MCP サーバーのプロンプトインジェクションの事例 https://iototsecnews.jp/2025/05/27/critical-github-mcp-server-vulnerability-allows-unauthorized-access-to-private-repositories/

セキュリティ対策モデルだけに頼らず、追加のセキュリティ対策を検討する参照：OWASP Top 10 for LLM Applications LLM の出力を検証
サニタイズ、機密情報のマスク・フィルタシステム全体での対策アクセス制御、ライブラリの脆弱性対応 LLM ガードレール製品を検討 OpenAI Moderation API 、Model Armor 、Guardrails AI などレートリミットの設定大量・高頻度・過剰なリソース要求をするリクエストをブロックレッドチーミング人手により脆弱性を継続的にテスト

まとめ今日学んだこと

まとめ AI エージェントとは環境と相互作用し、目標を達成しようとするAI ツール利用、計画、内省、記憶などの能力を持つ推論ループを実行して自律的に動作エージェントシステムの設計 ReAct パターンなどの基本的な設計ワークフローとエージェントの組み合わせ（Agentic
Workflow ） MCP によるツールの実装エージェントシステムのUI チャットUI 、HITL 、Generative UI 、アンビエントエージェント代表的なエージェントUI フレームワークエージェントシステムのセキュリティプロンプトインジェクションセキュリティ対策

今日話さなかったこと記憶・計画・内省の手法コンテキストエンジニアリング高度なエージェント設計パターンエージェントの評価・オブザーバビリティ

さらに学ぶために（1 ） 📚 書籍現場で活用するためのAI エージェント実践入門 LangChain とLangGraph によるRAG ・AI
エージェント［実践］入門 LLM のプロンプトエンジニアリング 🔍 フォローすべき情報源 OpenAI ニュースリリース Anthropic 公式ブログ LangChain 公式ブログ・YouTube ・SNS Andrew Ng 氏の記事・SNS

さらに学ぶために（2 ） 🌐 ガイド・ホワイトペーパー Business guides and resources | OpenAI
AI エージェント実践ガイドブック | Google Cloud Prompt Engineering Guide 12-Factor Agents - Principles for building reliable LLM applications

Thank you

速習 AIエージェント入門

速習 AIエージェント入門

More Decks by LegalOn Technologies, Inc

Featured

Transcript