Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Deep Researchをプロダクトへ組み込むためのノウハウ

Deep Researchをプロダクトへ組み込むためのノウハウ

2026/5/28 19:00 ~ 21:00
「AIエージェント設計勉強会 〜long-runningタスクの設計と実践知〜」登壇資料
https://layerx.connpass.com/event/391940/
https://engineersguildvol10.peatix.com/view

Avatar for Hakamada-DentsuSoken

Hakamada-DentsuSoken

June 01, 2026

More Decks by Hakamada-DentsuSoken

Other Decks in Technology

Transcript

  1. 自己紹介 袴田 時生 A L L I A N C

    E 株式会社電通総研 事業開発室 Engineeringグループ AIチーム 経歴 2020 – 化学メーカー(新卒入社) 化学プラントの運転計器データを用いて、トラブ ルの要因分析と再発防止に従事 中途 – Fintech企業 金融系データサイエンティストとして機械学習・深 層学習モデルの構築・運用に従事 2024 – 株式会社電通総研 新規事業開発のAIエンジニア。要件定義 / 技 術検証 / 機能設計・開発 / 運用 / 研究開発 を一気通貫で推進 趣味 PCゲーム 漫画 技術学習 Deep Researchをプロダクトに組み込むためのノウハウ 2 / 21 | ©DENTSU SOKEN INC
  2. 本日のアジェンダ 01 Deep Researchとは Deep Researchの概要と弊チームでの取り組み(NeurIPS 2025優勝) 02 プロダクトのユースケース デューデリジェンス調査における2つの組み込み事例

    03 エージェントアーキテクチャ ワークフロー制御 / Structured Output / 設計指針 04 Web検索におけるノウハウ 検索API比較 / スクレイピング / 前処理の選定基準 05 LLMOpsの取り組み 改善プロセス / KPI設計 / 昇格基準 / 監視・トレース 06 まとめ 本日の学びと今後の展望 Deep Researchをプロダクトに組み込むためのノウハウ 3 / 21 | ©DENTSU SOKEN INC
  3. Deep Researchとは D E F I N I T I

    O N Deep Researchとは AIエージェントが数百のオンライン情報源を自律的に検索・ 分析・統合し、リサーチアナリスト相当の包括的レポートを生 成する仕組み 代 表例 ▪ OpenAI Deep Research 2025年2月リリース / o3最適化 / 数時間の調査を数十分で ▪ Gemini Deep Research 2024年12月リリース / Gemini 2.5 Proベース / 数十〜数百URLを横断 3つの特徴 自律的な探索 クエリを分解し、必要に応じて検索→読込→再検索を反復 マルチソース統合 Web / PDF / 画像など多様な情報源を横断 構造化レポート 出典付きで論点ごとに整理された長文レポートを生成 Deep Researchをプロダクトに組み込むためのノウハウ 4 / 21 | ©DENTSU SOKEN INC
  4. 事業開発室AIチームでの取り組み Text-to-Text Track / Open-Source部門 優勝 NeurIPS 2025 Competition「MMU-RAG」 会期:

    2025年12月2-7日 @San Diego | Best Static Evaluation (Open-Source) Long-form QAにおける精度と効率を競うコンペティション Efficient-Deep-Research チーム 電通総研 事業開発室 / プロダクト適用 東北大学 言語AI研究センター 鈴木潤研究室 Studio Ousia 山田育矢 Chief Scientist 他 本日は、Deep Researchの中核技術を業務向けに再構成したAIエージェントの実例から、 「実プロダクトで使えるDeep Research関連の技術 / 運用ノウハウ」を共有します。 Deep Researchをプロダクトに組み込むためのノウハウ 5 / 21 | ©DENTSU SOKEN INC
  5. プロダクトのユースケース 企業のDD(デューデリジェンス)調査における2つの業務にAIエージェントを組み込み社内リリース済 U S E C A S E 0

    1 株主・役員情報収集 P U RP O SE 風評チェック対象の洗い出し ▪ 入力 : 企業名 ▪ 概要 : 信頼できるソースから対象企業の株主・役員を取得 ▪ 出力 : 株主名・持株比率、役員名・役職 ▪ 情報源 : 公式HPなどを優先的に判定 / 抽出 U S E C A S E 0 2 風評チェック P U RP O SE 取引判断上のリスク確認 ▪ 入力 : 対象名(個人 / 法人) ▪ 概要 : 取引リスクとなる悪い風評の有無を判定 ▪ 出力 : 判定結果 + 理由(根拠付き) ▪ 情報源 : Webサイト Deep Researchをプロダクトに組み込むためのノウハウ 6 / 21 | ©DENTSU SOKEN INC
  6. Deep Researchと本プロダクトの位置づけ DD調査のような業務では、Deep Researchを そのまま投入することは難しい → 「自律」から「制御」への意図的な再構成 が必要 自律性 予測可能性のトレードオフ上の位置づけ

    制御重視・予測可能 自律重視・網羅性 本プロダクト フル機能 Deep Research 本プロダクトの位置づけ Deep Researchの中核技術(Web検索 + LLM判定・抽出 + Structured Output)を、DDの業務要件に合わせて「ワークフロー制 御」で再構成したAIエージェント Deep Researchをプロダクトに組み込むためのノウハウ 7 / 21 | ©DENTSU SOKEN INC コスト・レイテンシ 数百ソース巡回 / 多段LLM推論で1案件のコ スト・レイテンシが膨大化。業務スケールでの運 用が非現実的に。 予測不能な挙動 自律判断のばらつきにより、品質保証 / SLA / 障害切り分けの設計が困難。 監査対応 判断根拠の追跡が必要。業務SOPや法令と の整合・説明責任を満たす設計が要件。
  7. 株主・役員情報収集のエージェントアーキテクチャ 03. ユースケース別のフロー設計 S TE P 1 入力 企業名 S

    TE P 2 Web検索 企業名 + 株主/役員 等のキーワード S TE P 3 スクレイピング 本文抽出 &前処理 S TE P 4 AI判定 公式HPか? 対象情報を含むか? S TE P 5 AI抽出 株主 or 役員を structured JSON化 確定的処理 AIエージェント(structured output) 設計のポイント structured output を用い、後段処理が扱いやすい構造化JSONで出力 自律エージェントを業務適用するため、ワークフローで明示的に制御 → 品質・コストの予測可能性を確保 「公式HP判定」と「情報抽出」を別エージェントに分離 → 単一責務でデバッグしやすく Deep Researchをプロダクトに組み込むためのノウハウ 8 / 21 | ©DENTSU SOKEN INC
  8. 風評チェックのエージェントアーキテクチャ 03. ユースケース別のフロー設計 S TE P 1 入力 対象名 (個人/法人)

    S TE P 2 Web検索 対象名 + リスク キーワードセット S TE P 3 AIフィルタ 無関係な記事を 除外 S TE P 4 AI判定 悪い風評の 有無を判定 S TE P 5 出力 判定結果+ 根拠 (JSON) 両ユースケースに共通する設計思想 ワークフロー制御 自律エージェントを業務適用するため、 状態遷移を明示し失敗時挙動を予測 可能に。 Structured Output JSONスキーマに沿った出力で 後段処理を安定化。 単一責務エージェント 判定・抽出・フィルタを分離し、 個別評価と改善を容易に。 Deep Researchをプロダクトに組み込むためのノウハウ 9 / 21 | ©DENTSU SOKEN INC
  9. AIエージェントによる判定方法 03. ユースケース別のAI判定設計 株主・役員情報収集 ─ 3 Agents 風評チェック ─ 2

    Agents 1 公式HP & 対象情報判定 公式HPかどうか / 対象情報(株主構成・役員)を含むかをLLMが判定。 入力: 記事タイトル + URL + HTML本文 → structured output で判定結果 2 記事の掲載日判定 過去情報を区別するため、記事中から掲載日をLLMで抽出。 不明の場合は unknown を返却 3 株主・役員情報の抽出 入力: 記事タイトル + URL + HTML本文 → structured output で 株主構成(株主名・持株比率)/ 役員(名前・役職)/ 情報ソース を出力 1 記事の関連性判定(フィルタ) 対象記事に対象名称が含まれるか / 風評関連かをLLMで判定し、無関係記事 を除外。 入力: 記事タイトル + HTML本文 + 対象名称 出力: structured output(判定結果 + 理由) 2 風評の疑義判定 フィルタ後の記事について、対象に悪い風評があるかをLLMで判定。 入力: 記事タイトル + HTML本文 + 対象名称 出力: structured output(判定結果 + 理由) Deep Researchをプロダクトに組み込むためのノウハウ 15 / 21 | ©DENTSU SOKEN INC
  10. Web検索エンジンの選定軸 04. Web検索のノウハウ プロダクト組込時の選定軸 「検索精度」「コスト」だけでなく、「サービスレベル」「利用規約」 も同等に重要 検索精度 クエリに対する関連性 / 漏れの少なさ

    / 期待する サイトの到達度 コスト・レイテンシ 1リクエスト単価 / SLA / 並列処理時のスループッ ト サービスレベル 稼働率 / レート制限 / ドキュメントの充実度 / 提 供企業自体の信頼性 利用規約 データの永続化可否 / 商用利用 / 派生物の取り 扱い Deep Researchをプロダクトに組み込むためのノウハウ 10 / 21 | ©DENTSU SOKEN INC
  11. Web検索エンジン 比較 サービス コスト 特徴 利用規約 レート制限 Google Custom Search

    $5 / 1,000q (無料100/日) • Google品質の検索結果 / 安定運用 • 2027/1/1までに代替ソリューションへ移行が必要 データ永続化が 規約上難しい 10,000 queries/day Grounding with Bing $14 / 1,000 transactions • Bing検索でモデル応答をグラウンディングし、引用付 き回答を生成 • LLM前提で使用するため融通が効きづらい データ永続化が 規約上難しい 150 TPS 100万 trans/day Tavily Search Free 1,000 credits/月 PAYG $0.008/credit (basic=1, advanced=2) • AIエージェント/RAG向けの検索API • 検索・抽出・クロール・ドメイン制御・日付制御が揃っ ている ◦ 永続化OK Dev 100 RPM Prod 1,000 RPM Perplexity Search API $5 / 1,000 requests • Search APIでraw results、Sonarで引用付き回答 • Search / Sonar / Agent / EmbeddingsというAPI 群がある ◦ 永続化OK 50 RPS Brave Search API $5 / 1,000 queries • 独自インデックス(300億+) / 高ベンチ評価 • 国・言語・鮮度指定が可能 データ永続化が 規約上難しい 50 RPS 本プロダクトでは Tavily Search を採用 ─ コスト / 永続化OK / 検索・抽出・制御機能が一括で揃う点を評価 Deep Researchをプロダクトに組み込むためのノウハウ 11 / 21 | ©DENTSU SOKEN INC 04. Web検索のノウハウ
  12. スクレイピング・前処理の選定 04. Web検索のノウハウ スクレイピングと前処理の品質は、AIエージェントの精度とコストを直接左右する スクレイピング選定の3つの観点 クライアントレンダリング対応 SPA等のJS実行後コンテンツを取得できるか。 Playwrightベースなら可。 抽出精度 本文や本文以外のノイズ(メニュー/広告/フッ

    タ)除去精度。 フォーマット保持 テーブル / リスト / 階層構造の崩れにくさ。 Markdown品質。 本プロダクトの方針 ─ Jina × 自前Playwrightのハイブリッド 通常は Jina Reader を使用 → 設定不要・低コスト・Markdown品質も高い HTMLテーブルが崩れる/特殊レンダリングは Playwrightベースの自前実装 で生HTMLを解析 「自前実装」は工数が大きいので、ユースケース単位で必要性を判断 Deep Researchをプロダクトに組み込むためのノウハウ 12 / 21 | ©DENTSU SOKEN INC
  13. スクレイピングサービス 比較 用途・サイト特性に応じて3つの選択肢を組み合わせる。基本はJina、エージェント完結ならTavily、複雑ケースは自前Playwright Jina Reader P R I M A

    R Y $50 / 1 billion token | プレフィックス利用 Strengths ◉ クライアントレンダリング対応(高精度) ◉ Markdown品質が高い(テーブル含む) ◉ URLプレフィクスのみで即利用可能 ◉ ReaderLM-v2で HTML → JSON も可能 Cautions ◦ Search APIは別途必要 ◦ サイトによってテーブル崩れもあり Tavily Extract A G E N T - F R I E N D L Y Basic 1credit / 5URL, Advanced 2credit / 5URL Strengths ◉ Search + Extract が一括で完結 ◉ JSON出力で後段処理が容易 ◉ AIエージェント向けの設計思想 ◉ クリーンな本文抽出(広告除去) Cautions ◦ 本文抽出精度はJinaに一歩譲る印象 ◦ サイトによってテーブル崩れもあり 自前 Playwright実装 F O R E D G E C A S E S インフラコストのみ | 自由度最大 Strengths ◉ 完全カスタマイズ可能 ◉ 動的レンダリング対応 ◉ HTMLテーブル等の構造を細かく制御 ◉ サイト特性に合わせた本文抽出 Cautions ◦ 実装・運用工数が大きい ◦ サイト別対応で実装が増殖しがち ◦ 失敗時のフォールバック設計が必須 Deep Researchをプロダクトに組み込むためのノウハウ 13 / 21 | ©DENTSU SOKEN INC 04. Web検索のノウハウ
  14. Web検索結果の前処理 HTML前処理でコンテキストサイズを圧縮 → 精度向上・コスト削減 1 bodyタグの取得 堅牢化のためパーサーをフォールバック。BeautifulSoupで html5lib → lxml

    の順に解析を試行(最も頑健な html5lib を優先 / 失敗時は次へ) 2 属性の削除 body配下のすべてのタグから属性を除去。例外として td/th の rowspan/colspan のみ残す(テーブル構造の保持) 3 タグのアンラップ(中身は残してタグだけ削除) 対象: div, body, header, footer, form, main, nav, section ── レイアウト用の構造タグを除去し、コンテンツのみを残す 4 タグの完全削除(中身ごと) 対象: script, link, img, input, noscript, style ── JS/CSS/メディアなど本文外の要素を除去 5 コメント除去 HTMLコメント(<!-- -->)を抽出して取り除く ※ ユースケースにより、どのタグを消し / 残すかは要検討 Deep Researchをプロダクトに組み込むためのノウハウ 14 / 21 | ©DENTSU SOKEN INC 04. Web検索のノウハウ
  15. AIエージェント改善プロセス 05. LLMOpsの取り組み AIエージェント運用の鍵は「ユーザーフィードバック → 改善 → 本番反映」の継続的フィードバックループ 1 フィードバックを

    受ける仕組み プロダクト/運用に組 込み 2 ユーザーが フィードバック記 入 UIで負荷少なく入力 3 要因調査 ログ/トレースで分析 4 改善技術検証 ・実験 オフラインで仮説検証 5 開発環境への 実装 実装してCI/CDへ 6 KPI・定性評価 の運用 実運用ベースで測定 7 本番デプロイ 可否判断 昇格基準で判定 8 本番実装 効果測定継続へ ポイント ▪ プロセスは 非線形(7→3,4,5へ戻ることも) ▪ 業務プロセスとUIを 「フィードバックが得られる前提」で設 計。業務運用負荷とのバランスが重要。 ▪ 「対症療法的な本番投入」を避けるため、事前に昇格基 準を明確化 ▪ 改善サイクルのリードタイム を短く保つことで、フィードバッ ク→反映の回転数を上げる Deep Researchをプロダクトに組み込むためのノウハウ 16 / 21 | ©DENTSU SOKEN INC
  16. KGI / KPI / AI指標のツリー設計 05. LLMOpsの取り組み AI指標だけで判断すると 「改善してもビジネス的な効果が分からない」 →

    ビジネスKGI/KPIから降ろして繋ぐ K G I DD調査業務全体の運用コスト削減 K P I 1案件あたり 運用時間 K P I ユーザー 定性評価スコア 再現率 (Recall) 適合率 (Precision) 回答理由の 有用性 作業負荷の 大きさ Deep Researchをプロダクトに組み込むためのノウハウ 17 / 21 | ©DENTSU SOKEN INC
  17. 本番昇格基準(Must / Want) 05. LLMOpsの取り組み 実運用の効果測定をもとに、AI指標 / KPI / 定性指標(アンケート)の3観点で判定

    M U S T 必須要件 ─ クリアしないと本番化NG AI指標 精度(混同行列・再現率・適合率)が改善前から悪化して いないこと KPI 運用時間が改善前から増大していないこと 定性 運用負荷が改善前から増大していないこと(アンケート評価) W A N T 推奨要件 ─ 達成したい改善目標 KPI 1対象あたりの運用時間が10%以上短縮(難易度・件数を 揃えて比較) 定性 作業負荷の評価結果が向上(負荷が小さくなる方向) 定性 判定理由の有用性が向上 + その他のポジティブな改善 Deep Researchをプロダクトに組み込むためのノウハウ 18 / 21 | ©DENTSU SOKEN INC
  18. AIエージェントシステムの監視・トレース 05. LLMOpsの取り組み AIエージェントは非決定論的 → 「どこで何が起きたか」を後追いできる仕組みが不可欠 ログ収集ポイントの例 Web検索 クエリ /

    レスポンス L O G スクレイピング URL / ステータス / 抽出後本文記事 L O G AIエージェント プロンプト / 出力 / トークン数 / レイテンシ L O G Structured Output JSON出力結果 L O G 結果保存 ユーザーフィードバック L O G Microsoft AI Foundry OpenTelemetry準拠のAIエージェント可観測性プラットフォーム ◉ AIエージェントの入出力(プロンプト / レスポンス)をエン ドツーエンドでトレース ◉ LangChain / LangGraph / Agents SDK 対応 ◉ Tool使用 / リトライ / レイテンシ / コストも span 単位で 記録 ◉ Application Insightsに蓄積(90日保持) ◉ Agent Monitoring Dashboard で運用観測 Deep Researchをプロダクトに組み込むためのノウハウ 19 / 21 | ©DENTSU SOKEN INC
  19. まとめ アーキテクチャ Deep Researchの中核技術を業務適用するため、ワークフロー + Structured Output + 単一責務エージェントで「予測可能なAI」を構 成

    Web検索・前処理 精度・コスト・利用規約・SLAを多軸評価。Tavily + Jina + 自前Playwrightのハイブリッド構成 + HTML前処理でコンテキストを圧縮 LLMOps フィードバック前提の業務設計 + KGI→KPI→AI指標のツリー + Must/Wantの昇格基準 + 改善サイクルのリードタイム短縮で回転数 を上げる 監視・トレース OpenTelemetry準拠のAI Foundryで AIエージェントの入出力をエンドツーエンドにトレースし、非決定論的挙動を後追い可能に Deep Researchをプロダクトに組み込むためのノウハウ 20 / 21 | ©DENTSU SOKEN INC