Slide 1

Slide 1 text

AIエージェントが 業務を代行するための 計画と行動 2025/02/19 W&Bミートアップ #19 Shumpei Miyawaki (@catshun_)

Slide 2

Slide 2 text

お伝えしたいことは4つです ドメインエキスパートを仲間につける 改善サイクルをとにかく回す 生成・行動結果を観測できるようにする 1. 2. 3.

Slide 3

Slide 3 text

カンパニー制のもと、さまざまなサービスを展開してます 4.

Slide 4

Slide 4 text

本日のお話は大体コレで全部 資料は公開しているので リラックスしてお聞きください

Slide 5

Slide 5 text

AIエージェントが 業務を代行するための 計画と行動 2025/02/19 W&Bミートアップ #19

Slide 6

Slide 6 text

使い手視点 作り手視点 タスク視点 細かな指示がなしに タスクを代行してくれる Agentic-/Agentive AI LLMエージェント 複合型AIシステム AIワークフロー Agenticness f– 環境の知覚・作“ ’– 行動系列の計画・実 y– 外部資源による拡張 ・目標の複雑さ ・環境の複雑さ ・適応性 ・独立性 今日お話しするAIエージェントの対象 6 『AIエージェント』は視点別によって解釈が異なる https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料

Slide 7

Slide 7 text

https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 7 詳しくは Algomatic Tech Blog をみてね 追加資料

Slide 8

Slide 8 text

8 Agentic-/Agentive- AI System (使い手からみた AI エージェント) 追加資料 https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 「細かな指示がなくても代わりにタスクを遂行してくれる」業務代行システム

Slide 9

Slide 9 text

9 LLM Agent(作り手からみた AI エージェント) 追加資料 https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents

Slide 10

Slide 10 text

10 Agenticness(タスク視点からみた AI エージェント) https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料

Slide 11

Slide 11 text

AIエージェントが 業務を代行する ための 計画と行動 2025/02/19 W&Bミートアップ #19

Slide 12

Slide 12 text

人を増やさず営業成果を上げる apodori.ai

Slide 13

Slide 13 text

13 インサイドセールス × AIエージェント 企業リストを渡すだけで自動でアポを獲得! apodori.ai

Slide 14

Slide 14 text

待ってるだけで欲しい人材に出会える ai-recruiter.jp

Slide 15

Slide 15 text

14 採用業務 × AIエージェント カレンダーをあけて待っているだけで面談機会を創出! カレンダーをあけて 待っているだけ! 転職したいタイミングで 1to1メッセージが送られてくる 人事担当は本質業務に 専念できる! ai-recruiter.jp

Slide 16

Slide 16 text

今回は リクルタAI の開発を 振り返り話を共有します

Slide 17

Slide 17 text

AIエージェントが 業務を代行するための 計画と行動 2025/02/19 W&Bミートアップ #19

Slide 18

Slide 18 text

産総研, 『機械学習品質マネジメントガイドライン 第4版』, 2023 AIプロダクト品質保証コンソーシアム (QA4AI), 『AIプロダクト品質保証ガイドライン 2024.04版』, 2024 経済産業省, 『AI事業者ガイドライン 第1.0版』, 2024 佐藤氏, 小川氏, 來間氏, 明神氏, 『AIソフトウェアのテスト -- 答えのない答え合わせ [4つの手法]』, AI/Data Science実務選書, 2021 Christopher Noessel氏, 『Designing Agentive Technology. AI That Works for People』, 2017 Akihiro Ueno氏, 『LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説』, PharmaXテックブログ, 2024 Jeffrey Ip氏, 『LLM Testing in 2025: Top Methods and Strategies』, Confident AI Blog, 2025 Ito氏, Ogawa氏, Onabuta氏 (Microsoft), 『Step-by-Step MLOps and Microsoft Products』, 2024 辻氏 (AWS), 『機械学習ソフトウェアにおけるテスト手法』, 第36回MLOps勉強会, 2023 Citadel AI, 『Eval-Centric AI: 生成AI時代の新たなフレームワーク』, Citadel AI Blog, 2025 seya氏, 『自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方』, Gaudiy Tech Blog, 2024 Susumu Tokumoto氏, 『機械学習システムのためのメタモルフィックテスティング入門』, Qiita, 2018 nogawanogawa氏, 『RAGにおけるMetrics-Driven Developmentを調べる』, (Blog) Re:ゼロから始めるML生活, 2024 https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html https://github.com/qa4ai/Guidelines/blob/main/QA4AI_Guideline.202404.pdf https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20240419_report.html https://amzn.asia/d/cs5KrW8 https://a.co/d/4Qj1ss9 https://zenn.dev/pharmax/articles/2d07bf0498e212 https://www.confident-ai.com/blog/llm-testing-in-2024-top-methods-and-strategies https://speakerdeck.com/shisyu_gaku/step-by-step-mlops-and-microsoft-products https://speakerdeck.com/hitsuji1991/ml-software-test-metamorphic https://zenn.dev/asei/articles/vertex-ai-genai-evaluation https://techblog.gaudiy.com/entry/2024/10/22/105609 https://qiita.com/tokumoto/items/cd3d17cae3b099badaf6 https://www.nogawanogawa.com/entry/metrics_driven_development 18 本資料を読む前に参照されたい資料 追加資料

Slide 19

Slide 19 text

業務代行前の 必要なものを、必要なときに、必要なだけ アシスタント実証 基本的に現場課題は当事者にしか解決できない。 ドメインエキスパートによるAI拡張 (Assistant) で 業務改善を実証してからエージェント開発に取り組んだ。 19 業務代行までのロードマップ オートメーション エージェント アシスタント 実行主体が AI 実行主体が ヒト 業務代行 レベル リクルタAI の開発当初、採用代行の 80% をヒトが担当していた

Slide 20

Slide 20 text

20 まずはアシスタントフェーズにおける業務代行をやってみる ドメインエキスパート B業務ワーカ C業務 ヒトが頑張る D業務 ヒトが頑張る A業務ツール ヒトが AIツール/ワーカ を動かす B業務ワーカ C業務ワーカ D業務ツール A業務ツール ツール/ワーカを作り終えたら LLM に引き継いでいく 業務代行エージェントを開発する前に、 ドメインエキスパート×AI拡張による BPO で業務への効果を検証してみる

Slide 21

Slide 21 text

21 そもそも業務代行が実現できるレベル感って? システム品質 データの完全性 大田 - LLMプロダクトや機能を開発する際に知っておいてほしいこと - 従来のプロダクト開発との違い 完成度 時間 とりあえず作ってみた場合 LLMによって開発速度は上がった LLM により高速な開発ができるようになったものの、 人的・経済的リスクへの対策、顧客への説明責任は時間をかけてでも確実に取り組む バランスを考慮しながら 業務代行をめざす プロセスの俊敏性 モデルの頑健性 プロセスの俊敏性・モデルの頑健性・データの完全性・システム品質* の バランスが取れ、顧客期待値が適切である 場合にエージェント化できる *AIプロダクト品質ガイドラインより
 https://www.qa4ai.jp/download/

Slide 22

Slide 22 text

22 業務代行レベルを実現するには時間がかかる 利用時に満たすべき品質 システムが 満たすべき品質 AI/ML 構成要素が固有にもつ品質 外部品質 利用者 内部品質 内部品質 KPI 管理 システム 機械学習品質マネジメントガイドライン
 https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html ⁨⁩外部品質 内部品質 リスク回避性 AIパフォーマンス セキュリティ 公平性 モデル品質 プライバシー ソフトウェア品質 運用時品質 設計品質 データセット品質 利用時品質

Slide 23

Slide 23 text

23 なんでも AIエージェント で代替してよい訳ではない 機械学習品質マネジメントガイドライン
 https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html 追加資料 人的リスク・経済的リスクに応じて適切な提供方法を選択する AISL 1 を超える領域では AI エージェントを目指してはいけない

Slide 24

Slide 24 text

24 自動運転の例にみる業務代行レベル https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料 自動運転の分野では6段階の業務代行レベルが定義されている AIエージェントにおいても代行対象に応じたプロダクトを提供することが求められる

Slide 25

Slide 25 text

評価前提の 回す、回しまくる、とにかく回す 改善サイクル エージェント開発では品質担保⁨⁩⁨⁩⁨⁩⁨⁩⁨⁩⁨⁩に時間をかける。 技術の複雑さ・市場/現場に向き合って改善を継続させるため、 開発ライフサイクルを循環させる反復的な評価が必要となる。 25 業務代行までの長期計画をどう登ったか? 性能評価 動作検証 ガードレール モデル選択 プロンプト 要求整理 KPI測定 フィードフォワード モニタリング 段階リリース A/Bテスト テスト設計 Outer Loop Middle Loop Inner Loop 評価セット作成 フィードバック モデル調整 本番デプロイ データ収集 ドメインエキスパートと 一緒にプロダクトを前に進める ドメインエキスパート から意見を求める

Slide 26

Slide 26 text

26 なぜ改善サイクルを回し続けなければならないの? 徐々に正解へと 近づいていく 要件の許容範囲 時間とともに変化する 顧客コンセプトに 喰らいついていく 開始地点 開始地点 顧客の開始地点 こうだと思っていたもの 実際はこうだった 要件の許容範囲 品質評価の基準は運用してはじめて浮き彫りになる ことも多く、 継続的に評価・改善のサイクルを回すことで要件の許容範囲へと収束させていく

Slide 27

Slide 27 text

27 ドメインエキスパートと二人三脚で開発をすすめる エンジニア が骨組みを担当 採用担当の想い 人事の経験則 採用方針 現役人事が肉づけを担当 変数宣言 指示文 テンプレート 制約条件 コンテキスト プロンプトデザイン ドメインエキスパートのリアルタイムなフィードバックを開発サイクルに組み込む ことで エンジニアがすばやく改善を重ねられるようにする

Slide 28

Slide 28 text

タスク接続部は ガードレール設計 観測可能にする エージェントは複数の作業間を接続することで成果に貢献するが 連結をともなうことで エラー伝搬も発生しやすい。 特に接続箇所ではガードレール等によるエラー追跡が重要で、 プロパティチェックに加え、LLM を用いたチェックも有効となる。 タスクA タスクB タスクC タスクD 終了 エラー箇所を追跡 28 信頼できるシステムを構築する D C B A ファネルごとに KPI を追跡

Slide 29

Slide 29 text

29 ガードレールとは? 生成AIに対する入力をあらかじめ検査し、不適切な指示や悪意のあるプロンプトを遮断する 役割を担う。AIが意図せず有害な回答を生成するリスクを大幅に低減し、安全かつ安心して 利用できる環境を整える。 AIの知識ベースを外部の情報源と連携させ、常に正確で最新のデータを利用できるようにす る役割を担う。情報の信頼度を高め、回答の正確性を向上させるとともに、利用シーンに応 じた柔軟な対応を可能とする。 生成AIそのものの学習モデルやパラメータを調整し、不要な情報やバイアスの混入を抑える ための制御を担う。AIの動作を最適化することで、利用者の意図に即した安全で公正な応答 を実現し、幅広い利用ケースに対応する。 ゲートキーパー層 ナレッジアンカー層 パラメトリック層 追加資料 アプリケーションの動作を制御し、 望ましくない結果や危険な状況を監視・制御するための一連の安全管理のしくみのこと Ayyamperumal and Ge, 2024 arxiv.org/abs/2406.12934

Slide 30

Slide 30 text

30 LLM をもちいた審査には様々な方法がある Gu, 2025 arxiv.org/abs/2411.15594 追加資料

Slide 31

Slide 31 text

32 LLM を用いたチェック 追加資料 LLM はスコアの導出過程をよしなに推論できる が、 複雑なコンテキストを前提とする現場業務では 導出過程までオンボーディングする スコア 判定要件 Given question, answer and context verify if the context was in arriving at the given answer. 
 Give verdict as "1" if and "0" if not with json output. useful useful e.g. Ragas - Context Precision 指示文 与えられた質問、回答、そしてコンテキストを用いて、回答に到達する際にそのコンテキストが有用だったか どうかを検証してください。有用であった場合は 1 、そうでなければ 0 をJSON形式で出力してください。 usefulness の導出過程を LLM に依存しているため LLM のバイアスが反映されたり、読解性能に依存してしまう可能性がある

Slide 32

Slide 32 text

スコア 判定要件 観点 観点 採点基準 採点基準 根拠の論理性 基準の 網羅性 納得感 32 LLM へ過度に依存したチェックは避ける c 公平性や迎合性のバイアスに対する懸念を拭えない c 正しい判断がされているか不透明でありシステムを受け入れできない c LLM の回答根拠が「わたしの」現場状況と合致しない この導出過程が正しくオンボーディングされないと、 LLM はスコアの導出過程をよしなに推論できるが、 複雑なコンテキストを前提とする現場業務では 導出過程までオンボーディングする

Slide 33

Slide 33 text

33 具体的な改善策につなげるための複数観点からのチェック ƒ 現場の判断基準を反映しやすくユーザに納得感を提供しやすB ƒ 例えば「この文章は正確か?」という問いにおいて、「文章の正確さ」を説明させるより「ボロ」を見つける方が簡単 生成された文章の 意味的な特徴 に着目 生成された文章の 表層的な特徴 に着目 表記 形式 文法 敬語 自然性 参照性 追従性 魅力 × × LLM によるチェックに正確性や説明性が求められる場合、 現場業務の導出過程にもとづいた複数観点からの反証可能なチェック基準 を設ける それぞれの項目で高いチェック性能を担保できれば、AND 条件* により正確な判断が可能となる *参考: スイスチ ーズモデル (James Reason, 2000)

Slide 34

Slide 34 text

正常稼働をめざす 精度検証 & 動作検証 評価器の評価 Metric-driven な開発は、評価結果に基づいた改善をおこなうが 運用とともに発生するデータや概念のドリフトにより、 評価セットで高い性能を示す LLM でも実環境で正常動作するとは限らない。 34 高いチェック性能はどうやって担保するか? 評価器に対して (汎化性|頑健性) を担保する (性能評価|動作検証) のどちらも必要。

Slide 35

Slide 35 text

35 精度検証によってチェック機能の汎用性・信頼性を評価する どうやって正解データを収集するか ヒトが判定した結果に基づいて、 記述形式の 多様性/不確実性* を確保しつつ慎重に収集 収集したデータに対して LLM による審査を行い ヒトの判定結果と適合率重視の F0.5 値で判定し、エラー分析 判定結果 どうやって性能を評価するか セクションA セクションB データ分布に従い 多様性を確保 評価データ件数 → 判定誤りは目でチェックする NG データに OK と判定した場合、
 審査員プロンプトを改善して再度評価 ※ 評価の完全性を担保していくために、今後も長期的に運用体制を改善していく
  → 運用ログから継続的に評価セットを収集して審査員 LLM の信頼を高める  → 正解データの収集時に複数人による Inter-Annotator Agreement を実施する Input-00 Input-01 Input-02 Middle Loop におけるチェック性能の評価は、コールドスタートな場合が多く 評価セットは慎重に収集する必要がある 追加資料 *Active Learning (Settles, 2010) https://minds.wisconsin.edu/handle/1793/60660

Slide 36

Slide 36 text

36 動作検証をともなうバグ修正によって頑健なチェック機能をめざす Ribeiro et al., 2020 (ACL5 b 出力が変化しない範囲で 出力が変化しなかったか b 出力が変化するような 出力が変化したか 摂動を加え、実際に 確認すp 摂動を加え、実際に 確認する LLM 入力 入力’ 摂動を伴う操作 出力 出力’ 想定出力 操作による想定   比較対象  単体テストにおけるブラックボックステストが仕様に着目してバグを洗い出すように、 LLM も仕様に着目した動作検証をおこなう ことで頑健性を担保する ¶ 言い換³ ¶ 単語置´ ¶ 文追加/削® ¶ etc...

Slide 37

Slide 37 text

楽しいエージェント開発ライフを! https://x.com/catshun_