運用を見据えたAIエージェント設計実践

運用を見据えた AIエージェント設計実践 AI Engineering Summit Tokyo 2026 (AIE2026) 2026年6月8日 10:30-11:00
真嘉比愛 / ちゅらデータ株式会社

真嘉比愛 (Ai Makabi) 大学院にて自然言語処理を専攻。卒業後、広告事業のデータ分析などを経験し、2016年に DATUM STUDIO に入社。翌2017年にちゅらデータを創業。会社経営のかたわらデータサイエンティストとしても
従事しており、これまで自然言語処理、画像解析、異常検知など100社を越えるAI構築のコンサルティング・開発に従事。ちゅらデータ株式会社代表取締役社長 DATUM STUDIO株式会社取締役副社長 Women In Tech 30 (2024) @Forbes JAPAN NLP2023 副実行委員長人工知能学会 SIAI 実行委員 (2023) 2

AIエージェントシステムとは（全体像）ユーザー司令塔 (置かないケースもある) シンプルなチャットボット (“質問→回答”) にとどまらず、エージェント自身が計画し、権限を持って自律的に動作します。生成AIベースのエージェントがツール利用や外部サービス連携を駆使しながら、ユーザーからの依頼に応じて様々な仕事に自律的に取り組む仕組みです。
外部サービス社内ドキュメント 3

『作れる』と『使われ続ける』は別問題 PoCではうまくいっていたけれども、本番で重大な事故を起こしてしまった事例は多数報告されています。平均して46％のAI PoCが本番化に至らず中止されているという報告*1もあります。コード凍結中にも関わらず本番DBを削除。1,206名の経営幹部記録と1,196社のデータが影響を受けた AIチャットボットが存在しない遺族割引を誤案内した結果、裁判所が航空会社に賠償を命令カスタマーサービスをAIに置き換えた結果、約67%の自動化を実現したものの、顧客体験の品質が低下して人間のサポートを再投入
Replit Air Canada Klarna 4 *1: https://www.constructiondive.com/news/AI-project-fail-data-SPGlobal/742934/

本日のテーマ：『作れる』の次は『使われ続ける』それっぽく動く”エージェントを作るのは容易ですが使われ続けるためには、安全性やブランドを守りながら高品質に運用するための設計が重要となります。 5

なぜ運用は難しいのか PoC時点運用時の考慮ポイント固定データで検証限定シナリオで評価人間が結果を確認サンドボックス環境での検証データをAI前提で更新し続ける必要があります。
古い/未整備のデータがハルシネーションの要因となります。多様かつ想定外/敵対的な入力が想定されるため、ガードレールを設けて対処する必要があります。無人 (あるいは極少人数) で品質を守る必要があるため、トレース情報を付与したうえで自動評価し、劣化を検知する必要があります。エージェントが権限をもって実データを操作するため、失敗は実害に繋がります。更に、活用が進み複数のエージェント連携が強まるほど、統制が困難となります。 6

運用を見据えた設計の5観点データ基盤精度 x コスト AgentOps 統制と権限安全・ブランド 7
1 2 3 4 5

[補足] “静かに使われなくなる” ことを防ぐ 8 仮に運用に載せることができても、適切なKGI/KPIやユーザーシナリオが設計されていなかったり、運用体制に不備があるケースでは、エージェントは “静かに使われなくなります”。ユーザーシナリオ/ 業務接続の未設計現場のフローに載らず
結局使われない (サイレント抵抗) KGI/KPI未設定価値を測れないため、費用対効果も継続/廃止判断もできなくなる運用責任者・改善体制の空白運用改善を実施する人がいないため、放置されてしまい劣化

1 2 3 4 5

データ整備の重要性整備されていないデータはエージェントの誤った行動を誘発します。高性能なAIエージェントの実現には、利用モデル以上にデータ品質が鍵となります。 10

AI Readyなデータ基盤の5層層担うこと具体例 ①コンテキストデータに「意味・出自・鮮度・前提」を付与 ※メタデータ「このカラムは税抜か税込か」「こ
の売上は会計基準か管理会計か」 ②データモデルデータの構造・粒度・関係性を定義スタースキーマで fact_ / dim_ が明確に分離されている。「売上」の粒度が一貫している ③オントロジードメインの概念とその関係を、テーブルを超えた抽象レベルで定義 (テーブル構造から独立した「意味のグラフ」として表現) “解約予兆” = “直近3ヶ月の利用頻度が前年同期比50%以下” といった定義が複数テーブル間で共有される ④ガードレール AIが「やってはいけないこと」を構造的に防御。アクセス制御、PIIマスキング、行レベル/列レベルセキュリティ等エージェントが個人を特定可能な形で集計結果を返さない (k匿名性) ⑤評価ハーネス AIの出力が「正しいか・劣化していないか」を継続的に測定・検証本番でのトレース取得と、異常な回答パターンのアラート 11

[補足] オントロジーに載る指標: Semantic Layer 12 オントロジーが「概念と関係 (e.g. 顧客・売上という概念がどう繋がるか)」を定義し、セマンティックレイヤーが「その概念をどう計
算するか (売上=SUM(order_amount)」を定義します。 metrics: monthly_revenue: label: 月次売上 description: 確定した受注金額の月次合計 (テスト・キャンセルを除く) type: sum expr: order_amount grain: month filters: [exclude_test, exclude_canceled] dimensions: order_date: type: time… 指標の「意味 (定義)」と「実装 (クエリ)」を1つの定義単位で一元管理します。別々に持つと、運用の中で定義が必ずズレていきます。(metric drift)

データ基盤の運用保守 13 AI Readyなデータ基盤は “作って終わり” のものではなく、運用を回す必要があります。定義はコードとして管理したうえで、継続監視することが重要です。データオブザーバビリティで “データの劣化” を継続的に検知します。
リネージ (=データの来歴、依存関係) と組み合わせ、原因の上流と波及する下流を特定することも重要です。データオブザーバビリティ definitions- as-code メトリクス定義をコードとして管理します。(PRレビュー、CIテスト、バージョニング、廃止ルールを整備) メトリクスオーナーを置いて、保守を特定のユーザーに集中させない (=属人化を防ぐ) ことが重要です。

1 2 3 4 5

精度とコストはトレードオフ 15 精度とコストはトレードオフです。必要な精度を、最小のコストで達成するためには、設計・検証を進める中で最適なポイントを模索する必要があります。最上位モデルを多段に並べる → 精度は高いが過剰コスト多くのモデルを安価モデルで置換 → 精度不足だがコストは低い
目標：必要な精度を、最小のコストで達成したい同じ精度で安くキャッシュ・バッチ最適点を選ぶルーティング・カスケードフロンティアを押し上げる SLM・ファインチューニング

精度とコストの最適化精度とコストの最適化をはかる際は、打ち手の着手順が重要です。多くの企業において、SLMのホスティングやファインチューニングは最後の選択肢となります。 1. コストと品質を計測 (メータリング＋評価セット／LLM- as-a-judge) 2. キャッシュ (プロンプトキャッシュ
→ セマンティックキャッシュ → 中間結果キャッシュ) 3. タスクでモデルを使い分ける (ルーティング) 4. 難所だけ上位に回す (カスケード) 5. (上級) SLM・Fine Tuning 16 Checkrでは、大多数の易しいタスクを Fine TuningしたSLM、難しい一部タスクだけ上位モデルに回す (カスケード) 構成をとりました： → コスト約1/5、約30倍の高速化を達成

ルーティングの考え方タスクの難易度とリスクに応じてモデルを使い分けます。複雑な仕組みよりも、まずはルールベースで十分です。自動ルーターに任せきりにはせず、計測しながら段階的に導入します。こういうタスクはこう考える定型・大量・低リスク軽量モデルで十分なケースが多い標準的な業務QA・ツール選択中位モデルを軸に試しながら、必要に応じて軽量/上位モデルも検討
※シナリオ分解が必要多段推論・高リスク上位＋推論モデルでどこまで解けるかまず整理難易度が読めない中位モデルを軸に試しながら、必要に応じて軽量/上位モデルも検討 ※シナリオ分解が必要低レイテンシが必須軽量＋キャッシュで必要な非機能要件が達成されるかをまず整理。ルールベースとの役割分担が必要となる 17

[注意] コストは “静かに” 暴走するエージェントシステムでは、エージェントは呼び出し回数を人が握らない設計となることが多いため、コストが気づかぬうちに膨張するリスクがあります。計測だけではなく、上限を設けましょう。 18 代表的な事例暴走したマルチエージェントAIシステムが、エージェ
ント同士で264時間やりとりを続け、11日間で $47,000のLLM API費用を発生させました。 → ステップ上限・予算上限・終了判断を行うオーケストレーターのいずれもなかった → エージェント同士の会話においていずれもAPI エラーなどは発生しなかったため、月額請求がくるまで発覚しなかった

モデル変更への備え (回帰テスト) 利用しているモデルは予告なく更新されることがあります。バージョン固定とモデル変更時の回帰テストにより、品質を維持する活動が欠かせません。 19 フォールバック先を用意定期/不定期の回帰テストを実施ゴールデンセット
の用意公開ベンチを盲信しない問題発生時にモデル切り替え (フォールバック) が可能な状態とする ※フォールバック先の品質も回帰テストで事前確認できていると吉回帰テストを実施して、モデルやプロンプト変更に伴うデグレをチェックする。コストとのバランスを考え、週次/変更時などタイミングを定義入力と正解をペアにした品質の基準となる評価用データセット (=ゴールデンセット) を用意し、定期/変更時に評価を回す公開ベンチは汎用的な能力を測る設計で、自社の実タスクの品質を必ずしも反映しない。必ず自社タスクで評価する必要がある

1 2 3 4 5

MLOps → LLMOps → AgentOps AgentOpsとは複数ステップにわたるタスク遂行やAPI連携などを行うエージェント全体のライフサイクル管理を重視し、これに伴う複雑性や非決定論性へ対応する観測性トレーサビリティ
フィードバックループエージェントの安全性/ガバナンスエージェントの内部状態や意思決定プロセスを可視化する入力から出力までのプロセスを記録するエージェントの性能評価やユーザー行動データを収集し、モデルやプロンプトを継続的に改善するエージェントが実行するアクションが安全であるかをリアルタイム判定し、リスクが高い場合はHuman-in-the-loopで確認する

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. システム全体の評価
エージェント / サブモジュール単位の評価選択や軌跡の評価

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. システム全体の評価
入力に対する出力の品質評価 (＝タスク達成度) 制約遵守状況 (e.g. レイテンシ、コスト)

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. エージェント
/ サブモジュール単位の評価エージェント単位で見た思考評価・アウトプット評価、モデル選択、エラー発生率、制約遵守状況 (e.g. レイテンシ) RAGの場合は検索性能等

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 選択や
軌跡の評価最終結果が得られるまでの経路長を評価 (e.g. 不要なツール呼び出し、余計なステップはないか) 必要に応じて人間に確認 (Human-in-the-loop)

どこまでやるか (MUST / SHOULD / NICE) 一度にすべての評価をカバーしようとするのではなく、投資対効果を見ながら最小構成 (MUST) の評価から段階的に広げていきます。 MUST（最低限・最優先で導入）
トレース収集 / 小さなデータセットでの評価 / 変更時の回帰 / HITL (人手による確認) SHOULD（あると良い）オンライン評価 / 選択や軌跡の評価 / 評価セットの拡充 NICE（先進的）シナリオの自動生成 / 評価役 (=LLM-as-a-judgeモデル自体) の検証 / マルチ評価 27

[参考] 評価タイミングごとに必要となる機能の違い 28 観点開発時の評価（検証・改善）運用時の評価（モニタリング）タイミングオフライン（リリース前）オンライン（本番中・継続）目的
精度を作り込む・回帰を防ぐドリフト・コスト急増・異常を検知使うもの正解付きデータ／LLM-as-a-judge 本番トレース／サンプリング評価・閾値アラートツール傾向評価特化が強い観測・監視が強い評価には2つのタイミングがあり、目的も使う機能も違います。通常の開発＆運用では、両方を組み合わせて使い分けます。

1 2 3 4 5

エージェントシステム統制の課題 30 エージェントに対して不必要に強い権限を与えるてしまい、誤りや乗っ取りが発生した場合の被害リスクが高くなる社内でのエージェント開発が盛んになった結果、様々なエージェントが作られ、それらが管理されず放置・残存し、攻撃面が増えてしまう過剰権限乱立エージェントシステムの統制上、代表的な課題が「過剰権限」と「乱立」です。『権限の最小化』と『乱立の管理』を適切に実施できるかが論点となります

必須でやるべき対応策「権限の最小化」と「乱立の管理」に、6つの打ち手で対応します。過剰権限乱立 ① 固有IDを与える (共有禁止) ② 最小権限＋ユーザー代理(OBO) ③
アクセス境界の判断をLLMに委ねない ④ ユーザーとAgentをどちらもトレースに記録 ⑤ Agent Registryで期限を管理 ⑥ 高リスク実行はユーザー承認を挟む ①〜③で権限を絞り (過剰権限に対応)、④〜⑥で追跡できるようにします (乱立に対応) 31

1 2 3 4 5

安全やブランド 33 ユーザーや外部と接するエージェントは、敵対的な入力やブランド毀損のリスクに常に晒されています。特にtoC向けに自由入力のチャットボットを提供するケース等でリスクが高くなります。 DPD: 配送botが誘導され、自社を罵倒・批判する投稿を生成して炎上したブランド毀損トーン・禁止トピックを出力ガードで強制。逸脱を検
知したら人へエスカレーションする。敵対的入力実例検討事項 EchoLeak: メール1通のゼロクリックで、Copilotから社内情報が外部へ流出した入力検証とプロンプトインジェクション対策。外部データは非信頼として扱い、ツール権限を分離する実例検討事項

ガードレールは多層構成が基本 34 単独のガードレールは敵対的入力で6〜7割が破られるという報告もあり、基本的には多層の仕組みで対処します。必要に応じて人手による確認 (=HITL) を組み合わせます。入力ガード入力と外部データを事前精査
※インジェクション対策/PII検出・有害分類。最小権限ツールエージェントが呼べるツール・権限を業務に必要な最小限に出力ガード出力返却の前の精査。 ※PII検出・有害分類・ブランドトーン/禁止トピック逸脱検知監査入出力、ツール呼び出し、判断を「誰の代理で・どのエージェントが」という情報付きで記録 HITL 不可逆/高影響の操作（削除・送金・公開）の前に人間承認ゲート

ブランドガバナンスを遵守する問い合わせ対応の例 35 〇〇様このたびは “やせるんです” についてお問い合わせをいただき、誠にありがとうございます。ヘルスケア製薬お客様相談室の＊＊がご回答いたします。減量の程度につきましては、効果に個人差があり、特定の数値
をお約束することはいたしかねます。本製品の効能・効果につきましては、添付文書に記載の内容をご確認いただけますようお願いいたします。今後ともヘルスケア製薬をよろしくお願い申し上げます。痩せるんですを利用すると何kgくらい痩せられますか？決まりきった定型句は LLM生成ではなくテンプレート的に差し込む応答ガイドラインを定めたうえで、プロンプトによる制御を実施 ※要AgentOps 場合によっては、メール生成前に問合せ分類を実施したうえで、テンプレート回答に倒す or HITLを導入することも検討

まとめ 36

総論: 『作れる』の次は『使われ続ける』 37 使われ続けるエージェントを作るために、安全性やブランドを守りながら高品質に運用するための設計を実践しましょう

会社紹介 38

会社概要 “ちゅらデータ株式会社” は沖縄に本社を構えるIT企業です社名ちゅらデータ株式会社代表者真嘉比愛設立
2017年8月7日所在地〒901-2134 沖縄県浦添市港川512番地55 ゆがふBizタワー浦添港川 3F 社員数 130名 ※ 2026年4月時点 ※ アルバイト含む 39

リモートワーク 40 北海道中国・四国 1% 九州 7% 関西 2%
中部 5% 東北 1% 関東 28% 2% 沖縄 54% Q. 県外リモートワークの場合、沖縄に出社することはある？ A. 業務上必須であるケースはほぼないですが、出社することは可能 (※諸条件あり) です。 Q. リモートワークの場合、コミュニケーションはどのように行いますか？ A. Slackコミュニケーションが活発で、業務会話のみならず、趣味や技術トピックなどの雑談が飛び交っています。県内在住者が最多ですが、県外からのリモートワーク社も多いです 40

プロジェクト例事例1 データ基盤構築社内に散在するファイルや業務データをデータウェアハウスに集約・整備し、データ活用を見据えたデータ基盤を構築・保守・運用しています。事例2
AIエージェント開発複数のAIエージェントが協調して動作することで、複雑なタスクを効率的かつ柔軟に遂行するシステムを構築しました。社内に散在する様々なデータ DW BI 集約整備活用情報取得実行 etc … ユーザの要望に対し計画を立案・提案し実行まで主導するちゅらデータが支援させていただく技術領域やお客様の業界に制約はなく多岐に渡りますが、昨今では「データ基盤構築」や「生成AI活用」といった領域を多く手掛けています。司令塔 41

We are Hiring！様々な職種で積極て採用中です！ご興味ある方はぜひカジュアル面談から！ https://churadata.okinawa/recruit/ • AIエンジニア • Webアプリケーションエンジニア •
システムエンジニア • データエンジニア • データサイエンティスト • データビジネスコンサルタント 42 まっちょいびんど〜 (待ってるよ〜)

運用を見据えたAIエージェント設計実践

運用を見据えたAIエージェント設計実践

amacbee

More Decks by amacbee

Other Decks in Technology

Featured

Transcript

運用を見据えた AIエージェント設計実践 AI Engineering Summit Tokyo 2026 (AIE2026) 2026年6月8日 10:30-11:00

真嘉比愛 (Ai Makabi) 大学院にて自然言語処理を専攻。卒業後、広告事業のデータ分析などを経験し、2016年に DATUM STUDIO に入社。翌2017年にちゅらデータを創業。会社経営のかたわらデータサイエンティストとしても

本日のテーマ：『作れる』の次は『使われ続ける』それっぽく動く”エージェントを作るのは容易ですが使われ続けるためには、安全性やブランドを守りながら高品質に運用するための設計が重要となります。 5

なぜ運用は難しいのか PoC時点運用時の考慮ポイント固定データで検証限定シナリオで評価人間が結果を確認サンドボックス環境での検証データをAI前提で更新し続ける必要があります。

運用を見据えた設計の5観点データ基盤精度 x コスト AgentOps 統制と権限安全・ブランド 7

運用を見据えた設計の5観点データ基盤精度 x コスト AgentOps 統制と権限安全・ブランド 9

データ整備の重要性整備されていないデータはエージェントの誤った行動を誘発します。高性能なAIエージェントの実現には、利用モデル以上にデータ品質が鍵となります。 10

AI Readyなデータ基盤の5層層担うこと具体例 ①コンテキストデータに「意味・出自・鮮度・前提」を付与 ※メタデータ「このカラムは税抜か税込か」「こ

[補足] オントロジーに載る指標: Semantic Layer 12 オントロジーが「概念と関係 (e.g. 顧客・売上という概念がどう繋がるか)」を定義し、セマンティックレイヤーが「その概念をどう計

運用を見据えた設計の5観点データ基盤精度 x コスト AgentOps 統制と権限安全・ブランド 14

運用を見据えた設計の5観点データ基盤精度 x コスト AgentOps 統制と権限安全・ブランド 20

MLOps → LLMOps → AgentOps AgentOpsとは複数ステップにわたるタスク遂行やAPI連携などを行うエージェント全体のライフサイクル管理を重視し、これに伴う複雑性や非決定論性へ対応する観測性トレーサビリティ

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. システム全体の評価

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. システム全体の評価

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. エージェント

AIエージェントシステムの評価 © 2025 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 選択や

どこまでやるか (MUST / SHOULD / NICE) 一度にすべての評価をカバーしようとするのではなく、投資対効果を見ながら最小構成 (MUST) の評価から段階的に広げていきます。 MUST（最低限・最優先で導入）

[参考] 評価タイミングごとに必要となる機能の違い 28 観点開発時の評価（検証・改善）運用時の評価（モニタリング）タイミングオフライン（リリース前）オンライン（本番中・継続）目的

運用を見据えた設計の5観点データ基盤精度 x コスト AgentOps 統制と権限安全・ブランド 29

必須でやるべき対応策「権限の最小化」と「乱立の管理」に、6つの打ち手で対応します。過剰権限乱立 ① 固有IDを与える (共有禁止) ② 最小権限＋ユーザー代理(OBO) ③

運用を見据えた設計の5観点データ基盤精度 x コスト AgentOps 統制と権限安全・ブランド 32

まとめ 36

総論: 『作れる』の次は『使われ続ける』 37 使われ続けるエージェントを作るために、安全性やブランドを守りながら高品質に運用するための設計を実践しましょう

会社紹介 38

会社概要 “ちゅらデータ株式会社” は沖縄に本社を構えるIT企業です社名ちゅらデータ株式会社代表者真嘉比愛設立

リモートワーク 40 北海道中国・四国 1% 九州 7% 関西 2%

プロジェクト例事例1 データ基盤構築社内に散在するファイルや業務データをデータウェアハウスに集約・整備し、データ活用を見据えたデータ基盤を構築・保守・運用しています。事例2

We are Hiring！様々な職種で積極て採用中です！ご興味ある方はぜひカジュアル面談から！ https://churadata.okinawa/recruit/ • AIエンジニア • Webアプリケーションエンジニア •