著者と読み解くAIエージェント現場導入の勘所　Lancers TechBook#2

by Shumpei Miyawaki

Slide 1

Slide 1 text

AIエージェント実践入門 1

Slide 2

Slide 2 text

3 書籍の要点本では語り切れなかった実践的な知見最新の技術動向技術背景、設計の意図、実務での応用ポイントなど https://www.shoeisha.co.jp/campaign/award/vote/ あなたのオススメ書籍に投票してね！ “ITエンジニア本大賞2026”

Slide 3

Slide 3 text

かんたん書籍紹介開発する前に継続的な改善 01 02 開発のポイント 03 04 Contents 3

Slide 4

Slide 4 text

かんたんな書籍紹介 1 4

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

AIエージェント開発する前に 2 11

Slide 9

Slide 9 text

9 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所技術視点における「AIエージェント」の絶対的な位置付け技術視点目標に向けて環境と相互作用する知能システム \\ 書籍の対象はココ // 「AIエージェント作って」依頼に技術視点だけで応えると、顧客要求を満たすことができない

Slide 10

Slide 10 text

10 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所顧客課題に対する「AIエージェント」の相対的な位置付け技術視点顧客がほしいものガンジーの教え細かな指示をしなくても人間の代わりに業務を遂行する代行者目標に向けて環境と相互作用する知能システム課題解決という目的を達成するための手段の一つ \\ 書籍の対象はココ // 技術視点と顧客視点で解釈の相違があることを認識し、AIエージェントが最適手段であるか疑う

Slide 11

Slide 11 text

11 （技術視点）目標に向けて環境と相互作用する知能システム Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 AIエージェントとはなにか？ Lilian Weng氏 - LLM Powered Autonomous Agents (2023) https://lilianweng.github.io/posts/2023-06-23-agent/ 環境内に存在し、環境を知覚し、環境に作用する複雑な目標と環境から自律的に行動系列を予測・実行する外部資源を活用し、自身の行動範囲・知識を拡張する Anthropic, “Building effective agents”, (2024). Lil'Log, “LLM Powered Autonomous Agents”, (2023). Google, “Agents”, (2024). https://www.anthropic.com/engineering/building-effective-agents https://lilianweng.github.io/posts/2023-06-23-agent/ https://www.kaggle.com/whitepaper-agents

Slide 12

Slide 12 text

12 （顧客視点）細かな指示をしなくても人間の代わりに業務を遂行する代行者 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 AIエージェントとはなにか？宮脇 - AIエージェントの解釈について整理してみる (2025), Algomatic Tech Blog Noessel, “Designing Agentive Technology”, (2017). https://rosenfeldmedia.com/books/designing-agentive-technology/ OpenAI, “Practices for Governing Agentic AI Systems”, (2023). https://openai.com/index/practices-for-governing-agentic-ai-systems/ Agenticness: 人間による部分的な管理下において、複雑な目標を複雑な環境で適応的に達成する度合い

Slide 13

Slide 13 text

最終目標とその軌跡は？ 4. 将来の展望 TAM/SAM/SOM は？ 0. 市場規模どんな問題を解決する？ 5. 顧客課題競合リスク・動向は？ステークホルダー関係は？ 6. ビジネス関係ユーザー体験をどう変える？ 7. 体験設計あるべき体験をどう実装？ 8. 技術選定属性、行動パターンは？ 2. ユーザー特性 13 （ガンジーの教え）課題解決という目的を達成するための手段の一つ Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 AIエージェントとはなにか？ As-is To-be 期間課題現行業務フローは？ 1. タスク特性顧客 KPI/P&L にどう影響？ 3. 顧客事業指標展望失敗してきたプロジェクトの多くは技術ファーストなものが多かった

Slide 14

Slide 14 text

14 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所現状のAIエージェント活用の多くは、業務代行パーツは揃っているものの設計図がない状態専門知識の運用による壁打ち高速な下書き生成による省力化第三者視点でダブルチェックできるプロセス間を連携できる（構造化出力）イベント駆動でのプッシュ通知 24-365 体制での稼働気づいたら完成している体験環境への作業による状態更新 MCP による外部ツール連携社内文書・外部知識の利用メモリによるパーソナライズ LLM 外部リソースインフラ顧客の P&L にどう影響するかを常に考慮しつつ、パーツを組み立てていくこれまでの ML タスクは翻訳や OCR など一部の業務を遂行していた AIエージェントでは業務プロセス全体がその対象であり、業務代行の成果創出に期待が高まっている外部リソースやインフラの恩恵を享受することで「質、量、スピード」にアクセスしやすくなった

Slide 15

Slide 15 text

PJキックオフ後なにから始めるか？

Slide 16

Slide 16 text

最終目標とその軌跡は？ 4. 将来の展望 TAM/SAM/SOM は？ 0. 市場規模どんな問題を解決する？ 5. 顧客課題競合リスク・動向は？ステークホルダー関係は？ 6. ビジネス関係ユーザー体験をどう変える？ 7. 体験設計あるべき体験をどう実装？ 8. 技術選定属性、行動パターンは？ 2. ユーザー特性 16 As-is To-be 期間課題現行業務フローは？ 1. タスク特性顧客 KPI/P&L にどう影響？ 3. 顧客事業指標展望 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所タスク特性とユーザー特性を知る

Slide 17

Slide 17 text

人のボトルネックは「量・スピード」、AIのボトルネックは「責任」繰り返し作業が発生する中流業務でAIの価値が高くなりやすい AIの失敗に対する責任の所在はいつでも人にある一定水準以上の価値を「すばやく」「たくさん」提供できる AI の価値は中流業務に発生しやすいタスク特性 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所みずほリサーチ&テクノロジーズ, AI利活用がもたらす日本経済への影響 (2025) 17

Slide 18

Slide 18 text

高橋氏, AI時代のユーザ体験は「AAAA」モデルで考えよう (2024) 武舎氏ら, ツールからエージェントへ。弱いAIのデザイン - 人工知能時代のインターフェース設計論 (2018), BNN , https://note.com/dory111111/n/n03eac77e5197 , https://bnn.co.jp/products/9784802510684 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 AAAAモデル - ユーザー特性（ドメイン理解度、貢献度など）に応じてサービス形態を変えるユーザー特性 18 上級者向け学習効率初心者向け作業効率

Slide 19

Slide 19 text

Lv5. 完全自動化 Lv4. 高度自動化 Lv3. 条件付自動化 Lv2. 部分自動化 Lv1. 支援システムからの要請時にユーザが介入システムがより広範なタスク補助を実施システムが一部のタスク補助を実施システムが無制限に全てのタスクを実行国土交通省, 自動運転のレベル分けについて Shimakoshi氏, LayerXにおける業務の完全自動化に向けたAI技術活用事例 (2025) , https://www.mlit.go.jp/common/001226541.pdf , 人工知能学会, https://speakerdeck.com/shimacos/layerx-ai-jsai2025 自動運転のレベル分け - タスク特性（エラー許容、質的/量的施策、など）に応じてサービス形態を変える 27 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所ユーザー特性システムによる作業継続が困難な場合にユーザが介入

Slide 20

Slide 20 text

AIエージェント開発のポイント 3 36

Slide 21

Slide 21 text

タスク要件自律型と特化型のあいだにはタスク要件が存在するどちらが優れているかは「明確なタスク要件、タスク特性・ユーザー特性」の有無によって異なるセキュリティや保守性でみるとエージェント型ワークフローが優れているため、多くの開発者に好まれている変更の影響範囲を最小限にできるノードごとにテストしやすいノード単位で再利用性が高い業務プロセスを反映しやすい変更が大変中断されたり、破滅の方向へ向かったりする設計難易度が高い決められたタスク以外に対応できない設計難易度が低い（捨てやすい）汎用性は高い自律型エージェント v.s. エージェント型ワークフロー Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 21 特化タスク汎用タスク特化タスク自律型エージェント本番環境での業務代行に向かない簡単な技術検証に向いている簡単な技術検証には向かない本番環境での業務代行に向いているエージェント型ワークフロー

Slide 22

Slide 22 text

LLM は何が苦手か？

Slide 23

Slide 23 text

23 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所なにをもって「これは LLM が苦手なタスク設定だから」と判断するのか？タスク設定？  分類タスクは、既に定義されているラベル一覧から選択するだけだし簡単そう抽出タスクは、既にコンテキストに手がかりや答えの表層情報が含まれているし簡単そう生成タスクは、ゼロから文章を生成しないといけないし難しそう分類・回帰情報抽出文章生成タスク指向対話入力文に対して定義済みのラベルから該当するものを選択するタスク概要文章から関心対象を見つけ定められた形式に変換する指示や文脈に従って新しい文章を生成する目的達成のために対話を通じて情報を揃えタスクを完了させるかんたん？むずかしい？ ※ もちろん計算やドメイン外のタスクが苦手といった側面はある ※ ここでは形式的な言語能力と機能的な言語能力の比較を取り上げている

Slide 24

Slide 24 text

24 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所我々はなにをもって「これは LLM が苦手なタスク設定だから」と判断するのか？タスク設定？  分類タスクは、既に定義されているラベル一覧から選択するだけだし簡単そう抽出タスクは、既にコンテキストに手がかりや答えの表層情報が含まれているし簡単そう生成タスクは、ゼロから文章を生成しないといけないし難しそう分類・回帰情報抽出文章生成タスク指向対話入力文に対して定義済みのラベルから該当するものを選択するタスク概要文章から関心対象を見つけ定められた形式に変換する指示や文脈に従って新しい文章を生成する目的達成のために対話を通じて情報を揃えタスクを完了させるかんたん？むずかしい？ ※ もちろん計算やドメイン外のタスクが苦手といった側面はある ※ ここでは形式的な言語能力と機能的な言語能力の比較を取り上げているためっぽいけどそうじゃない e.g. 書類が受理されるかの判別は難しい

Slide 25

Slide 25 text

正解の基準や、包含・除外の条件を明確に定義できるか  正解の判定には、最終的な出力結果だけでなく、推論過程（その回答に至った根拠や理由）も含まれる金額を回答させる場合でも、表記・税区分・単位など、正解の判断基準の厳密な制約によって難易度が変わる単なる情報処理だけでなく、入力の妥当性を踏まえた上で異常値を例外処理する判断も求められる 25 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所なにをもって「これは LLM が苦手なタスク設定だから」と判断するのか？分類・回帰情報抽出文章生成タスク指向対話ラベル定義や採点基準は明確に記述できるか？難しさ表記揺れや同義語の扱いを明確に記述できるか？構成や文体規則、テンプレートなどが明確に記述できるか？入力パターンや応答規則、話題遷移の分岐条件など明確に記述できるか？判断基準・条件は現場によって定義される＝業務での規則や思考を正確に落とし込む必要がある 5点 ... 〇〇 3点 ... 〇〇 (A) □□□ 1200円￥1,200 -

Slide 26

Slide 26 text

AIエージェントを含む LLMアプリケーション開発の３つのポイント

Slide 27

Slide 27 text

AI依存の分離 1 2 意図しない生成の検知 3 現行の業務フローから問題点を捉える良質なプロンプトは人にとっても良質である下流プロセスをAIから分離していくガードレールによる多重・多層防御フェイルセーフの実装 40 暗黙知の言語化

Slide 28

Slide 28 text

まずは現行の業務フロー（主体, 中間生成物, タスクなど）を詳細に描く  記述した業務フローに現在の観測データや問題点（効率化が進んでいない, ミスが頻発, etc...）を書き込んでいく AIエージェント導入の Before/After を描き、顧客とのコミュニケーションツールとして利用する AIエージェントの導入、何からはじめればよい？ Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 28 https://www.lucidchart.com/pages/ja/workflow-diagram ほぼチェックされない 40時間/月

Slide 29

Slide 29 text

29 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所現場の暗黙知をドメインエキスパートと一緒に言語化するエンジニアがテンプレートを担当採用担当の想い人事の経験則採用方針現役人事が変数部を担当変数宣言指示文テンプレート制約条件コンテキストプロンプトデザインまずは現行の業務フロー（主体, 中間生成物, タスクなど）を詳細に描く  ドメインエキスパートの判断軸や行動指針などの暗黙知を言語化してプロンプトに書き込んでいく

Slide 30

Slide 30 text

いかにして良質なコンテキストを与えるか LLMアプリケーションの開発計画 47 ツール実行の結果、検索で取得したデータ、過去の対話履歴などの蓄積によるトークン数の肥大化を防ぐために、情報を取捨選択、圧縮、分割しながら管理する手法コンテキストエンジニアリング系列長の限界 Context Rot ... LLM が処理可能なトークン数が決まっている ... トークン数が増えるほど有益な情報を読み解く能力が低下する取捨選択は基本ながらに難しい  フィルタリング ... カテゴリ, 登録日参照情報の再構築 ... チャンク間の関係性, セッションID 検索対象と参照対象は区別するチャンクに対するメタデータを適切に付与する

Slide 31

Slide 31 text

31 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 AIが検索する情報と参照する情報は区別する chunk-1 chunk-1 chunk-2 chunk-3 chunk-4 emb-a1 emb-a2 emb-a3 emb-a4 emb-b1 観点a 観点b emb-b2 emb-b3 emb-b4 chunk-2 chunk-3 並列具体支持 chunk-4 文書の談話構造・セクション（メタデータの付与）検索インデックス（観点別サマリ）文書 e.g. AgentCore Memory のメモリ戦略  事実情報や文脈知識ユーザーの好み、スタイル単一セッション内の会話の要約重要な対話内容検索時 ... インデックスからクエリに関連するチャンクIDを取得回答時 ... 取得したチャンクID からメタデータ（チャンクの関係）を頼りに参照知識を再構築

Slide 32

Slide 32 text

良質なコンテキストは人にとっても良質である 48 LLM への情報提供再現・説明しやすい運用しやすい第三者が理解できる形式で記述されているか？整理された制約条件のもとテストできるようになっているか？要件の抜けもれがなく詳細に記載されているか？顧客要求を反映した推論手順が丁寧に記載されていることどのような情報がどのような形式で含まれているか？コンテキスト間の関係性（時間経過にともなう事実関係の遷移）は？コンテキストエンジニアリングで焦点になるのは基本的にここ Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 33

Slide 33 text

顧客要求を反映した推論手順が丁寧に記載されたプロンプトは一定の説明責任を受け持つ納得感ある採点は ①観点の網羅性 ②根拠の論理性のどちらも明確に定まっているこれらが LLM に正しくオンボされることを保証できれば、 LLM に正しくオンボされないと以下のような問題に直面する： LLM の回答根拠が顧客の現場状況と合致しない正しい判断がされているか不透明でありシステムを受け入れできない公平性や迎合性のバイアスに対する懸念を拭えない丁寧な指示設計が顧客への説明責任の一部を受け持つようになる良質なコンテキストは人にとっても良質（accountable）であるリッカート尺度による LLM-as-a-Judge の場合スコア判定要件観点観点採点基準採点基準観点の網羅性根拠の論理性〇〇の場合、1点 □□の場合、2点 ... 33 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 34

Slide 34 text

モデルのバージョンを変えたら意図しない生成が頻発した claude 3.5-4.5 でモデルを更新したらガードレールが assert を検知しまくって急遽対応が必要になった異なるモデルでも同じ出力が再現するように、要件は抜け漏れなく詳細に記述する多様な解釈を生まない明確な指示文の記述を心がける 34 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 35

Slide 35 text

AI依存の分離 1 2 意図しない生成の検知 3 現行の業務フローから問題点を捉える良質なプロンプトは人にとっても良質である下流プロセスをAIから分離していくガードレールによる多重・多層防御フェイルセーフの実装 35 暗黙知の言語化

Slide 36

Slide 36 text

AIに依存したシステムで発生するエラーケース Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 36 対話タスクでの突然の別れ（蛙化）  対話の途中にも関わらず「ありがとうございました」と会話を中断してしまう対話パターンが明示的に記述されていない場合や、遷移・終了のロジックが明確でない場合に発生しやすい全ての項目が収集できたことを確認する。確認ができたら transfer_to_agent を実行し... 会話を終了します。ありがとうございました！えっ... 途中なんだけど... 〇〇に該当する全10項目が漏れなく収集できた場合に限り transfer_to_agent を実行し... ◯ × 遷移ロジックが怪しい例 ※ ２文目の「確認」という事態性名詞の目的格が省略されており、確認の達成条件が不明瞭

Slide 37

Slide 37 text

AIに依存したシステムで発生するエラーケース Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 37 わざわざ表示しなくてよい文言を出力してしまう（思考の漏れ）  ユーザーに提示する文言に、エージェント間遷移・ツール呼び出しの思考が含まれてしまうエージェント間の遷移条件を明示的に記述しすぎると発生する担当エージェントにお繋ぎするので少しだけお待ちください！え、担当者に繋ぐの...？専門的なタスクを解く必要がある場合は、他のエージェントにタスクを引き継ぎます。なお次のエージェントが利用可能です： hoge agent: これは... fuga agent: これは... × こう書きたくなる

Slide 38

Slide 38 text

最終判断の制御ロジックをAIに依存しないようにする Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所非受理根拠A 根拠B 入力制御ロジック average(A, B) >= 3 観点A, 観点B で5段階評価最終判断を人が作成したロジックに転嫁 LLM が生成する部分 all( slot.values() ) 対話を通して slot filling e.g. タスク指向対話 e.g. 分類タスク最終出力にだけアクセスできても非受理の理由が分からないし、説明責任はいつだって開発者に求められる

Slide 39

Slide 39 text

AI依存の分離 1 2 意図しない生成の検知 3 現行の業務フローから問題点を捉える良質なプロンプトは人にとっても良質である下流プロセスをAIから分離していくガードレールによる多重・多層防御フェイルセーフの実装 39 暗黙知の言語化

Slide 40

Slide 40 text

ガードレールによる多層・多重防御 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 40 アプリケーションの望ましくない動作を観測可能にし、有害なコンテンツの提供を防ぐしくみ多層・多重防御によって不適切な出力の可能性を最小限に抑えるゲートキーパー層 AIへの入出力を検査し、不適切や悪意あるプロンプトを遮断して、有害回答のリスクを減らし、安全に利用できる環境を整える。ナレッジアンカー層外部の情報源と連携し、常に正確かつ最新のデータを活用して回答の信頼性と正確性を高め、利用シーンに応じた柔軟な対応を可能にする。パラメトリック層モデルやパラメータを調整し、不要情報やバイアスを抑制。利用者の要望や利用シーンに合った応答を実現し、多様な利用ケースに対応する。 Layered Protection Model における多層防御 [Ayyamperumal+’24] アプリケーションコード知識ベース Retrieval rails Execution rails Input rails Dialog rails Output rails ツール LLM 事実に基づいた回答をしているか事実性を確認できない情報を生成していないか法的・倫理的に問題ないか個人情報を入れた質問をしていないか敵対的な入力ではないかユーザに提示して問題ないか個人情報漏洩や毒性リスクはないか Ayyamperumal+’24 - Current state of LLM Risks and AI Guardrails https://developer.nvidia.com/ja-jp/blog/nemo-guardrails-prevents-llm-vulnerabilities-introduction/

Slide 41

Slide 41 text

アラートやフェイルセーフとセットで実装する Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 41 単語表層文字列や正規表現による表層一致編集距離や集合間距離タイプトークン比, ROUGE-N Pydantic model_validate difflib による差分比較文字数比較出力形式その他文章分類, 系列ラベリング LLM-as-a-Judge タスクA 出力事前に対応方針を定めておき必要に応じて稼働中のシステムを全停止させるファネルごとに通過率を追跡し過剰に拒否してないか確認するメトリクスフィルタ通過率のモニタリングガードレールA におけるメール文のハルシネーション検知 ERROR レベル対応方針フィルタ名フェイルセーフによる全作業ストップ CS に共有して開発者が即時対応する監視 Input 95% 100% 85% 24% 低い通過率タスクA タスクB タスクC Output エラー出力以下を確認するタスクBの入力値 BC間のガードレール設定ガードレールによる多重防御 41

Slide 42

Slide 42 text

継続的な改善４ 55

Slide 43

Slide 43 text

なぜ継続的な改善が必要か？コンセプトや評価基準は時間とともに変化していく品質評価の基準は運用してはじめて浮き彫りになることも多い継続的に評価・改善のサイクルを回すことで要件の許容範囲へと収束させていく徐々に正解へと近づいていく要件の許容範囲時間とともに変化する顧客コンセプトに喰らいついていく開始地点開始地点顧客の開始地点こうだと思っていたもの実際はこうだった要件の許容範囲 43 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 44

Slide 44 text

システムの良し悪しを測る評価やテストも小さくまわす、手戻りの多い定量評価はなるべく後回し　　　　　　... 雑に精度感にあたりをつける。チーム間でタスク・ユーザー・システム特性を共有して方針を決定する。　... 要件をシステムに落とし込む。当たり前品質を担保する。　... どこまでできて、何ができないか。精度感をつかみ技術不確実性を解消する。　　　　　　　... ベースラインを設けてシステム性能を比較する。障壁の解体正常系・異常系テスト定性評価・エラー分析定量評価 LLM LLM ロードバランサ LLM 行動ログ性能評価ガードレール新しい環境現在の環境ローカル環境デプロイ更新正常/異常テスト通過率の観測 44 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 45

Slide 45 text

45 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所タスクごとの評価・テスト分類・回帰情報抽出文章生成タスク指向対話正常系・異常系のシナリオを作成して動作確認（自動テスト〜モンキーテスト）ガードレールを作成して通過率を観測 + 目 grep 5点 ... 〇〇 3点 ... 〇〇 (A) □□□ 1200円￥1,200 - 評価データセットを作成メタモルフィックテスト

Slide 46

Slide 46 text

46 統語情報意味情報生成物生成過程処理速度トークンコスト冗長性システム外 KPI システム内効率化された調査時間評価観点関心先忠実性違反情報自身対ユーザ対検索結果 CVR 表記ゆれ正確性可読性一貫性有害性情報量評価対象出力との関係種類具体 ... ... ... Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所監視対象を優先度づけする ※ 実際には KPI ツリー

Slide 47

Slide 47 text

LLM-as-a-Judge を用いたリファレンスフリーな評価評価軸の例よい応答か応答形式の遵守関連文書の引用応答文の簡潔性関連文書に対する忠実性質問に対する関連性ユーザの納得度応答形式応答内容 ... ユーザの反応という正解データ（リファレンス）を集めないと評価できない正解データがなくてもその場で良し悪しを判断できる運用中の通過率が 98/100 件だったとするとといえる。出力はほぼ応答形式を遵守している例えば「応答形式を遵守しているか」を高精度に判定可能なガードレールを設置する生成タスク & コールドスタートの場合は、ガードレールを用いて監視するガードレールの品質が高いと仮定すればとみなすことができるリファレンスフリーな評価 47 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 48

Slide 48 text

システムの堅牢性を測るメタモルフィックテストによる動作テストまずはシナリオ通りに LLM が動作するかテストする入力に対してある一定の摂動を与えたときに出力変化が予想できる関係（）に着目メタモルフィック関係出力が変化しない出力が変化しなかったか出力が変化する出力が変化したか範囲で摂動を加え、  実際に確認するような摂動を加え、  実際に確認するメタモルフィックテスティングによる動作検証入力データから1位の商品を削除加点基準に影響する用語の削除順位の入れ替わりはない採点が低くなる採点が高くなる RAG の場合レコメンデーションの場合スコアリングの場合検索結果のチャンクを入れ替え不正解チャンクを検索結果から削除答えは変わらない答えは変わらない加点基準に影響する用語の追加 Ribeiro+’20, Beyond Accuracy: Behavioral Testing of NLP Models with CheckList (ACL) Lanham+’23, Measuring Faithfulness in Chain-of-Thought Reasoning 48 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 49

Slide 49 text

システムの堅牢性を測るメタモルフィックテストによる動作テスト右のような摂動パターンを定義実際のハッピー/エラーパスをベースに摂動を加える作成したデータセットで評価する Ribeiro+’20, Beyond Accuracy: Behavioral Testing of NLP Models with CheckList (ACL) Lanham+’23, Measuring Faithfulness in Chain-of-Thought Reasoning 49 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所

Slide 50

Slide 50 text

評価セットの作成層化サンプリング  多様性サンプリング  不確実性サンプリング  ユーザーの属性や利用シーン、タスクの種類など、重要なカテゴリごとにバランスよくサンプルを抽出します。  入力パターンの多様性を最大化するようにサンプルを選択します。  幅広いデータを採用することで、システムの汎化性能を測ります。  モデルが判断に迷いやすいケースを優先的に選択します。  これにより、システムの弱点を効率的に発見します。 50 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所セクションA セクションB 記述量やカテゴリ分布多様性を確保評価データ件数 Input-00 Input-01 Input-02

Slide 51

Slide 51 text

おまけ 51

Slide 52

Slide 52 text

最終目標とその軌跡は？ 4. 将来の展望 TAM/SAM/SOM は？ 0. 市場規模どんな問題を解決する？ 5. 顧客課題競合リスク・動向は？ステークホルダー関係は？ 6. ビジネス関係ユーザー体験をどう変える？ 7. 体験設計あるべき体験をどう実装？ 8. 技術選定属性、行動パターンは？ 2. ユーザー特性 52 As-is To-be 期間課題現行業務フローは？ 1. タスク特性顧客 KPI/P&L にどう影響？ 3. 顧客事業指標展望 Lancers Techbook - 著者と読み解くAIエージェント現場導入の勘所 AIエージェントとはなにか？

Slide 53

Slide 53 text

高橋 - AI導入で企業が挫折するのはなぜ？ ― AI「以外」の壁にどう立ち向かうか (2024) , https://note.com/dory111111/n/na817a0544da3 AI活用による業務変革をはかるとき、必ずぶつかるのは「AI以外」の壁であるに加えても同時に必要「AIによる業務効率化」「誤り生成の許容コスト」の両側面を理解する人間中心のシステム設計 AI中心の業務設計なぜ「AIの導入だけ」ではうまくいかないのか？ LLMアプリケーションの開発計画 29

Slide 54

Slide 54 text

高橋 - AI導入で企業が挫折するのはなぜ？ ― AI「以外」の壁にどう立ち向かうか (2024) Kalai et al., Why Language Models Hallucinate (2025) , https://note.com/dory111111/n/na817a0544da3 なぜ「AIの導入だけ」ではうまくいかないのか？ LLMアプリケーションの開発計画 ①業務プロセスの壁「業務プロセスを変えられない」ハルシネーションがあるから業務に取り入れられないのは本当か？ LLMのハルシネーションは抑制できるものではない [1] 一見すると「AIの技術的な問題」を指すようにみえるがというのが真の問題 AIの単発精度だけでなく「反復的なAI利用によって」あるいは「業務プロセス全体で」生産性が向上するか、が重要な指標となる 30

Slide 55

Slide 55 text

高橋 - AI導入で企業が挫折するのはなぜ？ ― AI「以外」の壁にどう立ち向かうか (2024) , https://note.com/dory111111/n/na817a0544da3 ②組織・カルチャーの壁 AI活用に対するアレルギー反応は起きていないか？企業活動を支えているのは生身の人間である「AI導入は人件費が削減できコストカットにつながる」というロジック一辺倒のコミュニケーションでは組織は動かないなぜ「AIの導入だけ」ではうまくいかないのか？ LLMアプリケーションの開発計画 AIが自然と浸透する組織構造をつくる必要がある力学を生み出すKPIとインセンティブの設定組織全体の熱量を高めるカルチャー施策熱量あるAI推進リーダーを呼び込む採用・パートナー戦略 31

Slide 56

Slide 56 text

AIで作業工数が半分になれば請求金額も半分になってしまう人月契約のため生産性向上が与えるインパクトが小さい AIツールの利用可否がお客様に委ねられるため、  自社として積極的に導入を推し進めようとは思わない高橋 - AI導入で企業が挫折するのはなぜ？ ― AI「以外」の壁にどう立ち向かうか (2024) , https://note.com/dory111111/n/na817a0544da3 ③ビジネスモデルの壁経営者が「一番いいAIを導入して」と右腕社員に丸投げしてないか？ AI導入による収益モデルやインセンティブを再設計する必要があるビジネスモデルの壁を壊すためにはトップの強くコミットメントが必要 AIを導入が既存ビジネスにマイナスの影響を与えるパターン人材のブランド力が高収益の源泉になっているパターンなぜ「AIの導入だけ」ではうまくいかないのか？ LLMアプリケーションの開発計画当社には優秀なクリエイターが多いために、お客様がお金を払ってくれるのであって、AI導入は成果が期待できてもブランド力を下げかねない 32