Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIと標準プロトコルの現在地 - Agentic Webの胎動 -

生成AIと標準プロトコルの現在地 - Agentic Webの胎動 -

Avatar for hiromitsusasaki

hiromitsusasaki

May 29, 2025
Tweet

More Decks by hiromitsusasaki

Other Decks in Technology

Transcript

  1. LLMのしくみ(1)– ⾔葉をつなぐ仕組み ... 予測結果: 直前までの単語から次に来る単語を予測 過去の学習データから確率的に最適な単語を選択 Attentionメカニズム 「⽂脈の中で各単語がどれだけ重要か」を計算 The cat

    sat on the cat sat on mat 低関連性 中関連性 ⾼関連性 単語同⼠の関連性を計算し、重要度を数値化 ⽂脈を理解し、関連する単語に「注意」を向ける Transformerモデル 「Attention Is All You Need」から⽣まれた⾰新的な構造。⾃⼰注意機構によ り、⽂脈中の関連性を効果的に捉える。GPT、BERT等の基礎となった技術。 ⽂脈理解と⾃然な出⼒ 数百から数千のトークンを遡って⽂脈を把握。⼈間の⾔語習得に近い仕組み で、⾃然で⼀貫性のある⽂章を⽣成する。 The ⾃⼰回帰型予測 cat sat on the mat (62%) floor (21%) chair (9%)
  2. ⽣成AIのしくみ(2)– Reasoningと思考の模倣 問題: ボブは8個のりんごを持っていました。5個を友達にあげて、2個買いました。 今、ボブは何個のりんごを持っていますか? Chain of Thought (CoT) Tree

    of Thought (ToT) 答えを出す前に理由付けを段階的に明⽰する⼿法 複数の選択肢から良い⽅向を選び取る探索⼿法 考えながら選択する能⼒ AIは単純な応答から、複雑な思考プロセスを経た意思決定へと進化。問題解決に おいて⼈間のように段階的に考え、最適解を導き出せるようになりました。 Why まず、ボブの初期状態は8個のりんごです。 Then ボブは5個をあげたので、8 - 5 = 3個になります。 Then その後、2個買ったので、3 + 2 = 5個になります。 Therefore よって、ボブは現在5個のりんごを持っています。 Reasoningの技術的発展 ChatGPT-4などの最新モデルでは、複雑な数学問題や論理的推論も可能に。プロ ンプトで「ステップバイステップで考えて」と指⽰することで、思考プロセスを引 き出せます。 初期状態 問題を分析 アプローチB シミュレーション 計算ミス ×放棄 正しい式 検討継続 図で整理 検討継続 答え: 5個 ✓ 採⽤ 誤解釈 ×放棄 アプローチA 式を⽴てる
  3. LLMの課題 ⽣成AIが直⾯する障壁 LLMが真に有用な次世代のソフトウェアになるための3つの課題 これらの障壁の先にあるもの 社会実装されたAIエージェントには、これら3つの壁を突破するための標準的な仕組みが必要です。次のスライドでは、各課題への解決策について掘り下げていきます。 幻覚∕知識の古さ 存在しない情報を事実のように提⽰ 学習データで区切られた知識の限界 最新情報へのアクセス不⾜ 正確性‧

    信頼性の問題 ⻑期記憶の弱さ コンテキスト制限による会話の忘却 過去の指⽰や設定の維持困難 ⼀貫性のある⻑期的な対話の限界 持続的な関係構築の壁 実⾏⼒の⽋如 外部システムとの連携ができない 複雑なタスクを遂⾏する能⼒が低い 物理世界への直接的なアクセスができない ⾃律的なタスク遂⾏の限界
  4. 解決アプローチ 最新情報のアクセス 外部DBから最新情報を取得し、幻覚を軽減 コンテキスト拡張 会話履歴や⻑⽂書の保存‧検索が可能に 外部システム連携 APIを通じた外部サービス、実世界への働きかけを実現 RAG 検索拡張⽣成(Retrieval-Augmented Generation)は

    、AIが回答する前に関連⽂書を検索‧参照することで、 最新かつ正確な情報を提供します。 社内⽂書、Web情報へのアクセス ユーザーの質問に関連する情報を検索 ベクトルDBでの類似度検索が基盤技術 外部ツール連携 AIが必要な時に適切な外部機能を呼び出し、情報取得 や操作を⾏うことで、実⾏能⼒を拡張します。 APIやツールの構造化された呼び出し 天気確認、予約、計算などの機能連携 AIの判断で適切なツールを選択可能 マルチエージェント 複数の専⾨AIエージェントが協調し、それぞれの得意 分野で貢献することで、複雑なタスクを効率的に解決 します。 役割分担による専⾨性の発揮 相互批評による品質向上 タスク分解による並⾏処理の実現 タスクの分担 複雑なタスクを単純なタスクに分割してそれぞれを 専⾨のエージェントが実⾏し、それらを統合する 幻覚/知識の古さ ⻑期記憶の弱さ 実⾏⼒の⽋如 RAG 検索拡張⽣成 Function Calling / Tool use 外部ツール連携 マルチエージェント 分担協調システム
  5. チャットボット ユーザーの問いかけに応答する チャットボットからエージェントを経てネットワークへ エージェントネットワーク 内部で複数の専⾨エージェントが 連携‧協調する ⽣成AIはエージェント化 単なるチャットボットから⾃律的なエージェントへと進化。外部ツールの 操作や意思決定も可能に 連携‧協調の時代へ

    複数のAIエージェントが専⾨性を持ち、互いに協⼒してタスクを達成する時代へ エージェント 単純なタスクを遂⾏する 現状のAIプロダクトはエージェント/ツール間、またはエージェント/エージェント間のやり取りをプロダクトごとに独自のやり方で実現している。 また、各AIモデルベンダーのAPI仕様やそこでのツールの使われ方も統一されておらず、複数のモデルで複数のツールに対応しようとすると、対応モデル数x対応 ツール数分のプログラムを実装しないといけない。 だが、しかし…
  6. 現状提案されている三つの標準プロトコル 各プロトコルは独⽴した価値を持ちながらも、組み合わせることで最⼤の効果を発揮します 各プロトコルはオープン標準として公開され、多くの企業が実装に着⼿しています AG-UI Agent-User Interface Protocol AIとユーザーを繋ぐの役割 MCP Model

    Context Protocol AIと外部ツール‧データソースを接続する役割 • 外部ツールへのアクセス‧操作 データベース‧API連携、ファイル操作‧情報収集 A2A Agent-to-Agent Protocol AIエージェント同⼠の連携を司る役割 • タスク分担‧協調作業 専⾨エージェント間の知識共有意思決定‧合意形成 • リアルタイム対話インターフェース • 視覚的フィードバック • マルチモーダル⼊出⼒ AG-UI A2A A2A MCP MCP インターネット ユーザー 端末
  7. ローカルMCPの事例 Model Context Protocol (MCP) のローカルサーバ ローカルMCPサーバーを使⽤すると、AIモデルはユーザー環境のファイル、データベース、開発ツールや外部APIなどに安全にアク セスできます。セキュリティとプライバシーを確保しながら、強⼒なAIアシスタント機能を実現します。 プライバシー重視:機密データをクラウドに送信せず、ローカル処理 ネットワーク依存なし:オフライン環境でも利⽤可能

    カスタマイズ性:企業固有のツールやシステムとの統合が容易 低レイテンシー:ローカル処理による⾼速レスポンス ローカルファイル データベース ウェブブラウザ チャットツール 表計算ソフト バージョン管理 ターミナル カスタムツール ローカルMCPの利点 DB MCPクライアント機能を有す るAIアプリケーション パソコン 利用する外部ツールに対応した ローカルMCPサーバ(群) インターネット
  8. リモートMCPの事例 クラウドベースのMCP連携 リモートMCPサーバーは、AIモデルをShopify、Stripe、Twilioなど様々な外部SaaSサービスと連携させます。 OpenAIのResponses APIがこれらのリモートMCPサーバーをサポートし、エン タープライズシステム統合を加速しています。 主要SaaSサービス連携事例 Shopify ECサイト⾃動管理 ユースケース:

    在庫⾃動確認‧発注顧 客問い合わせAI対応商 品情報の最適化 Stripe 決済処理⾃動化 ユースケース: 請求書⾃動作成‧送信 ⽀払い状況モニタリング 不正検知⽀援 Twilio コミュニケーション⾃動化 ユースケース: SMS/⾳声⾃動応答 マルチチャネル通知 顧客サポートの強化 Zappier AIとワークフローの統合 ユースケース: • 既存の⼿続き的なワークフローをAIが⾃律的に 利⽤できる Z Z インターネット リモート側のサービス が直接AIエージェント とやり取りする
  9. まとめ Webは「情報を読む」プラットフォームから始まり、「参 加‧共有する」Web2.0を経て、「機械が意味を理解する」セマンティックWebへ進化してきました。 そして現在、AIが⾃律的 に動き、⼈間の代わりにタスクを実⾏する「Agentic Web」の時代へと移⾏しています。 Web 1.0 静的ウェブ 閲覧のみの⼀⽅向コミュニケーション

    ウェブマスターが全コンテンツを作成 HTMLの単純な静的ページ 「読む」ウェブ Web 2.0 参加型ウェブ ユーザー⽣成コンテンツ中⼼ ソーシャルメディアの台頭 双⽅向コミュニケーション 「書く‧共有する」ウェブ セマンティックWeb 意味理解ウェブ 構造化データと意味づけ 機械可読なメタデータ 知識グラフとオントロジー 「理解する」ウェ ブ 静的 参加型 ⾃律⾏動 Agentic Webが注目される理由 AIエージェントが⼈間の意図を理解し、適切なサービスを⾒つけ、必要な⾏動を⾃律的に実⾏します。 標準プロトコル(MCP‧A2A‧AG-UI)がこの基盤となり、インターネット上のあらゆるサービスがシームレスに連携し、 ユーザーの代 わりに複雑なタスクを完遂できる世界が実現しつつあります。 1990年代 2000年代 2010年代 2020年代〜 Agentic Web ⾃律⾏動ウェブ AIエージェントによるタスク実⾏ 標準プロトコルによる連携 ⼈間の意図を汲み取る⾃律⾏動 「動く‧実⾏する」ウェブ 意味理解