Deep Researchをプロダクトへ組み込むためのノウハウ

AIエージェント設計勉強会 Deep Researchをプロダクトに組み込むためのノウハウ AIエージェント / Web検索 / LLMOpsの実践知 2026年5月28日
株式会社電通総研事業開発室 Engineeringグループ袴田時生

自己紹介袴田時生 A L L I A N C
E 株式会社電通総研事業開発室 Engineeringグループ AIチーム経歴 2020 – 化学メーカー（新卒入社）化学プラントの運転計器データを用いて、トラブルの要因分析と再発防止に従事中途 – Fintech企業金融系データサイエンティストとして機械学習・深層学習モデルの構築・運用に従事 2024 – 株式会社電通総研新規事業開発のAIエンジニア。要件定義 / 技術検証 / 機能設計・開発 / 運用 / 研究開発を一気通貫で推進趣味 PCゲーム漫画技術学習 Deep Researchをプロダクトに組み込むためのノウハウ 2 / 21 | ©DENTSU SOKEN INC

本日のアジェンダ 01 Deep Researchとは Deep Researchの概要と弊チームでの取り組み（NeurIPS 2025優勝） 02 プロダクトのユースケースデューデリジェンス調査における2つの組み込み事例
03 エージェントアーキテクチャワークフロー制御 / Structured Output / 設計指針 04 Web検索におけるノウハウ検索API比較 / スクレイピング / 前処理の選定基準 05 LLMOpsの取り組み改善プロセス / KPI設計 / 昇格基準 / 監視・トレース 06 まとめ本日の学びと今後の展望 Deep Researchをプロダクトに組み込むためのノウハウ 3 / 21 | ©DENTSU SOKEN INC

Deep Researchとは D E F I N I T I
O N Deep Researchとは AIエージェントが数百のオンライン情報源を自律的に検索・分析・統合し、リサーチアナリスト相当の包括的レポートを生成する仕組み代表例 ▪ OpenAI Deep Research 2025年2月リリース / o3最適化 / 数時間の調査を数十分で ▪ Gemini Deep Research 2024年12月リリース / Gemini 2.5 Proベース / 数十〜数百URLを横断 3つの特徴自律的な探索クエリを分解し、必要に応じて検索→読込→再検索を反復マルチソース統合 Web / PDF / 画像など多様な情報源を横断構造化レポート出典付きで論点ごとに整理された長文レポートを生成 Deep Researchをプロダクトに組み込むためのノウハウ 4 / 21 | ©DENTSU SOKEN INC

事業開発室AIチームでの取り組み Text-to-Text Track / Open-Source部門優勝 NeurIPS 2025 Competition「MMU-RAG」会期:
2025年12月2-7日 @San Diego | Best Static Evaluation (Open-Source) Long-form QAにおける精度と効率を競うコンペティション Efficient-Deep-Research チーム電通総研事業開発室 / プロダクト適用東北大学言語AI研究センター鈴木潤研究室 Studio Ousia 山田育矢 Chief Scientist 他本日は、Deep Researchの中核技術を業務向けに再構成したAIエージェントの実例から、「実プロダクトで使えるDeep Research関連の技術 / 運用ノウハウ」を共有します。 Deep Researchをプロダクトに組み込むためのノウハウ 5 / 21 | ©DENTSU SOKEN INC

プロダクトのユースケース企業のDD（デューデリジェンス）調査における2つの業務にAIエージェントを組み込み社内リリース済 U S E C A S E 0
1 株主・役員情報収集 P U RP O SE 風評チェック対象の洗い出し ▪ 入力 : 企業名 ▪ 概要 : 信頼できるソースから対象企業の株主・役員を取得 ▪ 出力 : 株主名・持株比率、役員名・役職 ▪ 情報源 : 公式HPなどを優先的に判定 / 抽出 U S E C A S E 0 2 風評チェック P U RP O SE 取引判断上のリスク確認 ▪ 入力 : 対象名（個人 / 法人） ▪ 概要 : 取引リスクとなる悪い風評の有無を判定 ▪ 出力 : 判定結果 + 理由（根拠付き） ▪ 情報源 : Webサイト Deep Researchをプロダクトに組み込むためのノウハウ 6 / 21 | ©DENTSU SOKEN INC

Deep Researchと本プロダクトの位置づけ DD調査のような業務では、Deep Researchをそのまま投入することは難しい → 「自律」から「制御」への意図的な再構成が必要自律性予測可能性のトレードオフ上の位置づけ
制御重視・予測可能自律重視・網羅性本プロダクトフル機能 Deep Research 本プロダクトの位置づけ Deep Researchの中核技術（Web検索 + LLM判定・抽出 + Structured Output）を、DDの業務要件に合わせて「ワークフロー制御」で再構成したAIエージェント Deep Researchをプロダクトに組み込むためのノウハウ 7 / 21 | ©DENTSU SOKEN INC コスト・レイテンシ数百ソース巡回 / 多段LLM推論で1案件のコスト・レイテンシが膨大化。業務スケールでの運用が非現実的に。予測不能な挙動自律判断のばらつきにより、品質保証 / SLA / 障害切り分けの設計が困難。監査対応判断根拠の追跡が必要。業務SOPや法令との整合・説明責任を満たす設計が要件。

株主・役員情報収集のエージェントアーキテクチャ 03. ユースケース別のフロー設計 S TE P 1 入力企業名 S
TE P 2 Web検索企業名 + 株主/役員等のキーワード S TE P 3 スクレイピング本文抽出＆前処理 S TE P 4 AI判定公式HPか? 対象情報を含むか? S TE P 5 AI抽出株主 or 役員を structured JSON化確定的処理 AIエージェント（structured output）設計のポイント structured output を用い、後段処理が扱いやすい構造化JSONで出力自律エージェントを業務適用するため、ワークフローで明示的に制御 → 品質・コストの予測可能性を確保「公式HP判定」と「情報抽出」を別エージェントに分離 → 単一責務でデバッグしやすく Deep Researchをプロダクトに組み込むためのノウハウ 8 / 21 | ©DENTSU SOKEN INC

風評チェックのエージェントアーキテクチャ 03. ユースケース別のフロー設計 S TE P 1 入力対象名（個人/法人）
S TE P 2 Web検索対象名 + リスクキーワードセット S TE P 3 AIフィルタ無関係な記事を除外 S TE P 4 AI判定悪い風評の有無を判定 S TE P 5 出力判定結果＋根拠 (JSON) 両ユースケースに共通する設計思想ワークフロー制御自律エージェントを業務適用するため、状態遷移を明示し失敗時挙動を予測可能に。 Structured Output JSONスキーマに沿った出力で後段処理を安定化。単一責務エージェント判定・抽出・フィルタを分離し、個別評価と改善を容易に。 Deep Researchをプロダクトに組み込むためのノウハウ 9 / 21 | ©DENTSU SOKEN INC

AIエージェントによる判定方法 03. ユースケース別のAI判定設計株主・役員情報収集 ─ 3 Agents 風評チェック ─ 2
Agents 1 公式HP & 対象情報判定公式HPかどうか / 対象情報（株主構成・役員）を含むかをLLMが判定。入力: 記事タイトル + URL + HTML本文 → structured output で判定結果 2 記事の掲載日判定過去情報を区別するため、記事中から掲載日をLLMで抽出。不明の場合は unknown を返却 3 株主・役員情報の抽出入力: 記事タイトル + URL + HTML本文 → structured output で株主構成（株主名・持株比率）/ 役員（名前・役職）/ 情報ソースを出力 1 記事の関連性判定（フィルタ）対象記事に対象名称が含まれるか / 風評関連かをLLMで判定し、無関係記事を除外。入力: 記事タイトル + HTML本文 + 対象名称出力: structured output（判定結果 + 理由） 2 風評の疑義判定フィルタ後の記事について、対象に悪い風評があるかをLLMで判定。入力: 記事タイトル + HTML本文 + 対象名称出力: structured output（判定結果 + 理由） Deep Researchをプロダクトに組み込むためのノウハウ 15 / 21 | ©DENTSU SOKEN INC

Web検索エンジンの選定軸 04. Web検索のノウハウプロダクト組込時の選定軸「検索精度」「コスト」だけでなく、「サービスレベル」「利用規約」も同等に重要検索精度クエリに対する関連性 / 漏れの少なさ
/ 期待するサイトの到達度コスト・レイテンシ 1リクエスト単価 / SLA / 並列処理時のスループットサービスレベル稼働率 / レート制限 / ドキュメントの充実度 / 提供企業自体の信頼性利用規約データの永続化可否 / 商用利用 / 派生物の取り扱い Deep Researchをプロダクトに組み込むためのノウハウ 10 / 21 | ©DENTSU SOKEN INC

Web検索エンジン比較サービスコスト特徴利用規約レート制限 Google Custom Search
$5 / 1,000q （無料100/日） • Google品質の検索結果 / 安定運用 • 2027/1/1までに代替ソリューションへ移行が必要データ永続化が規約上難しい 10,000 queries/day Grounding with Bing $14 / 1,000 transactions • Bing検索でモデル応答をグラウンディングし、引用付き回答を生成 • LLM前提で使用するため融通が効きづらいデータ永続化が規約上難しい 150 TPS 100万 trans/day Tavily Search Free 1,000 credits/月 PAYG $0.008/credit (basic=1, advanced=2) • AIエージェント/RAG向けの検索API • 検索・抽出・クロール・ドメイン制御・日付制御が揃っている ◦ 永続化OK Dev 100 RPM Prod 1,000 RPM Perplexity Search API $5 / 1,000 requests • Search APIでraw results、Sonarで引用付き回答 • Search / Sonar / Agent / EmbeddingsというAPI 群がある ◦ 永続化OK 50 RPS Brave Search API $5 / 1,000 queries • 独自インデックス(300億+) / 高ベンチ評価 • 国・言語・鮮度指定が可能データ永続化が規約上難しい 50 RPS 本プロダクトでは Tavily Search を採用 ─ コスト / 永続化OK / 検索・抽出・制御機能が一括で揃う点を評価 Deep Researchをプロダクトに組み込むためのノウハウ 11 / 21 | ©DENTSU SOKEN INC 04. Web検索のノウハウ

スクレイピング・前処理の選定 04. Web検索のノウハウスクレイピングと前処理の品質は、AIエージェントの精度とコストを直接左右するスクレイピング選定の3つの観点クライアントレンダリング対応 SPA等のJS実行後コンテンツを取得できるか。 Playwrightベースなら可。抽出精度本文や本文以外のノイズ（メニュー/広告/フッ
タ）除去精度。フォーマット保持テーブル / リスト / 階層構造の崩れにくさ。 Markdown品質。本プロダクトの方針 ─ Jina × 自前Playwrightのハイブリッド通常は Jina Reader を使用 → 設定不要・低コスト・Markdown品質も高い HTMLテーブルが崩れる/特殊レンダリングは Playwrightベースの自前実装で生HTMLを解析「自前実装」は工数が大きいので、ユースケース単位で必要性を判断 Deep Researchをプロダクトに組み込むためのノウハウ 12 / 21 | ©DENTSU SOKEN INC

スクレイピングサービス比較用途・サイト特性に応じて3つの選択肢を組み合わせる。基本はJina、エージェント完結ならTavily、複雑ケースは自前Playwright Jina Reader P R I M A
R Y $50 / 1 billion token | プレフィックス利用 Strengths ◉ クライアントレンダリング対応（高精度） ◉ Markdown品質が高い（テーブル含む） ◉ URLプレフィクスのみで即利用可能 ◉ ReaderLM-v2で HTML → JSON も可能 Cautions ◦ Search APIは別途必要 ◦ サイトによってテーブル崩れもあり Tavily Extract A G E N T - F R I E N D L Y Basic 1credit / 5URL, Advanced 2credit / 5URL Strengths ◉ Search + Extract が一括で完結 ◉ JSON出力で後段処理が容易 ◉ AIエージェント向けの設計思想 ◉ クリーンな本文抽出（広告除去） Cautions ◦ 本文抽出精度はJinaに一歩譲る印象 ◦ サイトによってテーブル崩れもあり自前 Playwright実装 F O R E D G E C A S E S インフラコストのみ | 自由度最大 Strengths ◉ 完全カスタマイズ可能 ◉ 動的レンダリング対応 ◉ HTMLテーブル等の構造を細かく制御 ◉ サイト特性に合わせた本文抽出 Cautions ◦ 実装・運用工数が大きい ◦ サイト別対応で実装が増殖しがち ◦ 失敗時のフォールバック設計が必須 Deep Researchをプロダクトに組み込むためのノウハウ 13 / 21 | ©DENTSU SOKEN INC 04. Web検索のノウハウ

Web検索結果の前処理 HTML前処理でコンテキストサイズを圧縮 → 精度向上・コスト削減 1 bodyタグの取得堅牢化のためパーサーをフォールバック。BeautifulSoupで html5lib → lxml
の順に解析を試行（最も頑健な html5lib を優先 / 失敗時は次へ） 2 属性の削除 body配下のすべてのタグから属性を除去。例外として td/th の rowspan/colspan のみ残す（テーブル構造の保持） 3 タグのアンラップ（中身は残してタグだけ削除）対象: div, body, header, footer, form, main, nav, section ── レイアウト用の構造タグを除去し、コンテンツのみを残す 4 タグの完全削除（中身ごと）対象: script, link, img, input, noscript, style ── JS/CSS/メディアなど本文外の要素を除去 5 コメント除去 HTMLコメント（）を抽出して取り除く ※ ユースケースにより、どのタグを消し / 残すかは要検討 Deep Researchをプロダクトに組み込むためのノウハウ 14 / 21 | ©DENTSU SOKEN INC 04. Web検索のノウハウ

AIエージェント改善プロセス 05. LLMOpsの取り組み AIエージェント運用の鍵は「ユーザーフィードバック → 改善 → 本番反映」の継続的フィードバックループ 1 フィードバックを
受ける仕組みプロダクト/運用に組込み 2 ユーザーがフィードバック記入 UIで負荷少なく入力 3 要因調査ログ/トレースで分析 4 改善技術検証・実験オフラインで仮説検証 5 開発環境への実装実装してCI/CDへ 6 KPI・定性評価の運用実運用ベースで測定 7 本番デプロイ可否判断昇格基準で判定 8 本番実装効果測定継続へポイント ▪ プロセスは非線形（7→3,4,5へ戻ることも） ▪ 業務プロセスとUIを「フィードバックが得られる前提」で設計。業務運用負荷とのバランスが重要。 ▪ 「対症療法的な本番投入」を避けるため、事前に昇格基準を明確化 ▪ 改善サイクルのリードタイムを短く保つことで、フィードバック→反映の回転数を上げる Deep Researchをプロダクトに組み込むためのノウハウ 16 / 21 | ©DENTSU SOKEN INC

KGI / KPI / AI指標のツリー設計 05. LLMOpsの取り組み AI指標だけで判断すると「改善してもビジネス的な効果が分からない」 →
ビジネスKGI/KPIから降ろして繋ぐ K G I DD調査業務全体の運用コスト削減 K P I 1案件あたり運用時間 K P I ユーザー定性評価スコア再現率 (Recall) 適合率 (Precision) 回答理由の有用性作業負荷の大きさ Deep Researchをプロダクトに組み込むためのノウハウ 17 / 21 | ©DENTSU SOKEN INC

本番昇格基準（Must / Want） 05. LLMOpsの取り組み実運用の効果測定をもとに、AI指標 / KPI / 定性指標（アンケート）の3観点で判定
M U S T 必須要件 ─ クリアしないと本番化NG AI指標精度（混同行列・再現率・適合率）が改善前から悪化していないこと KPI 運用時間が改善前から増大していないこと定性運用負荷が改善前から増大していないこと（アンケート評価） W A N T 推奨要件 ─ 達成したい改善目標 KPI 1対象あたりの運用時間が10%以上短縮（難易度・件数を揃えて比較）定性作業負荷の評価結果が向上（負荷が小さくなる方向）定性判定理由の有用性が向上＋その他のポジティブな改善 Deep Researchをプロダクトに組み込むためのノウハウ 18 / 21 | ©DENTSU SOKEN INC

AIエージェントシステムの監視・トレース 05. LLMOpsの取り組み AIエージェントは非決定論的 → 「どこで何が起きたか」を後追いできる仕組みが不可欠ログ収集ポイントの例 Web検索クエリ /
レスポンス L O G スクレイピング URL / ステータス / 抽出後本文記事 L O G AIエージェントプロンプト / 出力 / トークン数 / レイテンシ L O G Structured Output JSON出力結果 L O G 結果保存ユーザーフィードバック L O G Microsoft AI Foundry OpenTelemetry準拠のAIエージェント可観測性プラットフォーム ◉ AIエージェントの入出力（プロンプト / レスポンス）をエンドツーエンドでトレース ◉ LangChain / LangGraph / Agents SDK 対応 ◉ Tool使用 / リトライ / レイテンシ / コストも span 単位で記録 ◉ Application Insightsに蓄積（90日保持） ◉ Agent Monitoring Dashboard で運用観測 Deep Researchをプロダクトに組み込むためのノウハウ 19 / 21 | ©DENTSU SOKEN INC

まとめアーキテクチャ Deep Researchの中核技術を業務適用するため、ワークフロー + Structured Output + 単一責務エージェントで「予測可能なAI」を構成
Web検索・前処理精度・コスト・利用規約・SLAを多軸評価。Tavily + Jina + 自前Playwrightのハイブリッド構成 + HTML前処理でコンテキストを圧縮 LLMOps フィードバック前提の業務設計 + KGI→KPI→AI指標のツリー + Must/Wantの昇格基準 + 改善サイクルのリードタイム短縮で回転数を上げる監視・トレース OpenTelemetry準拠のAI Foundryで AIエージェントの入出力をエンドツーエンドにトレースし、非決定論的挙動を後追い可能に Deep Researchをプロダクトに組み込むためのノウハウ 20 / 21 | ©DENTSU SOKEN INC

Thank You ご質問・ディスカッションをお待ちしています袴田時生 / 株式会社電通総研事業開発室 AIエージェント設計勉強会
/ 2026.05.28

Deep Researchをプロダクトへ組み込むためのノウハウ

Deep Researchをプロダクトへ組み込むためのノウハウ

Hakamada-DentsuSoken

More Decks by Hakamada-DentsuSoken

Other Decks in Technology

Featured

Transcript

AIエージェント設計勉強会 Deep Researchをプロダクトに組み込むためのノウハウ AIエージェント / Web検索 / LLMOpsの実践知 2026年5月28日

自己紹介袴田時生 A L L I A N C

本日のアジェンダ 01 Deep Researchとは Deep Researchの概要と弊チームでの取り組み（NeurIPS 2025優勝） 02 プロダクトのユースケースデューデリジェンス調査における2つの組み込み事例

Deep Researchとは D E F I N I T I

事業開発室AIチームでの取り組み Text-to-Text Track / Open-Source部門優勝 NeurIPS 2025 Competition「MMU-RAG」会期:

プロダクトのユースケース企業のDD（デューデリジェンス）調査における2つの業務にAIエージェントを組み込み社内リリース済 U S E C A S E 0

Deep Researchと本プロダクトの位置づけ DD調査のような業務では、Deep Researchをそのまま投入することは難しい → 「自律」から「制御」への意図的な再構成が必要自律性予測可能性のトレードオフ上の位置づけ

株主・役員情報収集のエージェントアーキテクチャ 03. ユースケース別のフロー設計 S TE P 1 入力企業名 S

風評チェックのエージェントアーキテクチャ 03. ユースケース別のフロー設計 S TE P 1 入力対象名（個人/法人）

AIエージェントによる判定方法 03. ユースケース別のAI判定設計株主・役員情報収集 ─ 3 Agents 風評チェック ─ 2

Web検索エンジンの選定軸 04. Web検索のノウハウプロダクト組込時の選定軸「検索精度」「コスト」だけでなく、「サービスレベル」「利用規約」も同等に重要検索精度クエリに対する関連性 / 漏れの少なさ

Web検索エンジン比較サービスコスト特徴利用規約レート制限 Google Custom Search

スクレイピングサービス比較用途・サイト特性に応じて3つの選択肢を組み合わせる。基本はJina、エージェント完結ならTavily、複雑ケースは自前Playwright Jina Reader P R I M A

Web検索結果の前処理 HTML前処理でコンテキストサイズを圧縮 → 精度向上・コスト削減 1 bodyタグの取得堅牢化のためパーサーをフォールバック。BeautifulSoupで html5lib → lxml

AIエージェント改善プロセス 05. LLMOpsの取り組み AIエージェント運用の鍵は「ユーザーフィードバック → 改善 → 本番反映」の継続的フィードバックループ 1 フィードバックを

KGI / KPI / AI指標のツリー設計 05. LLMOpsの取り組み AI指標だけで判断すると「改善してもビジネス的な効果が分からない」 →

本番昇格基準（Must / Want） 05. LLMOpsの取り組み実運用の効果測定をもとに、AI指標 / KPI / 定性指標（アンケート）の3観点で判定

AIエージェントシステムの監視・トレース 05. LLMOpsの取り組み AIエージェントは非決定論的 → 「どこで何が起きたか」を後追いできる仕組みが不可欠ログ収集ポイントの例 Web検索クエリ /

まとめアーキテクチャ Deep Researchの中核技術を業務適用するため、ワークフロー + Structured Output + 単一責務エージェントで「予測可能なAI」を構成

Thank You ご質問・ディスカッションをお待ちしています袴田時生 / 株式会社電通総研事業開発室 AIエージェント設計勉強会