その問い合わせ対応、本当に“人”がやる必要がありますか？損害保険ジャパンが仕掛けるAIエージェント革命

その問い合わせ対応、本当に “人”がやる必要がありますか？損害保険ジャパンが仕掛ける AIエージェント革命 1

自己紹介 • 2015年損害保険ジャパンに入社 • 営業現場で5年間代理店営業を経験。 • DX推進部にて社内向けの生成AI PJTやLLMによる照会業務効率化の PJTのプロジェクトマネージャーとしてPJTを推進している。
• 2022年損害保険ジャパンに転職 • DX推進部開発推進グループチーフエンジニア • おしそんLLMを始め、LLMの利活用を進めるためのプロジェクトにリードエンジニアとして従事楠木　裕次郎眞方　篤史

アジェンダ・損害保険ジャパンにおける生成AI活用の状況・照会業務×生成AI（おしそんLLM）における展開事例・AI agentを活用して目指す将来像について・AI agentの実装にあたって苦労/工夫したポイント

損害保険ジャパンにおける生成AI活用の状況 4

損害保険ジャパンにおける生成AIの展開方法 2022年頃から内製開発をベースに汎用型、業務特化型にスコープを分けて展開を開始汎用型生成AI (SOMPO AI Chat) 業務特化型生成AI (おしそんLLM) 生成AIを広く多くの社員に利用してもらうための取組。社内版生成AIツールを使って全社員がさまざまな業務に自発的かつ自由に活用し、
各職員自身が効率化の観点などから活用した活動を社内で活発に情報共有している状態を目指すもの。特定の業務フローやシステムに生成AIを組み込んで、業務効率化を目指す取組。代理店営業における問い合わせフローや保険金支払における有無責判定などにおける課題に対して業務フロー内や裏側で生成AIを活用し業務効率化を目指すもの。

SOMPO AI Chat

アップデート履歴と現場への浸透施策 2023年度 2024年度 2025年度 ~3Q 4Q 1Q 2Q 3Q 4Q
1Q 2Q 3Q 4Q トライアル全社展開ファイル添付機能ログイン機能アプリ機能 Web検索機能アプリ作成機能フロントは完全内製開発でユーザーからの要望等をアジャイルに取り込み 3ヶ月に１度のペースで機能のアップデートを行いながら現場社員への研修展開等で定着を目指す。全社展開後は登録率 20% MAUは10%前後と苦戦ファイル添付機能により活用幅が広がり、MAU が 15%~20%程度まで上昇現場への好事例展開等を継続的に実施現場発信での研修や投稿等もみられるように Web検索機能やアプリ作成機能のための研修開催により本社部門を中心に利用が定着（MAU35%）現場市民開発でさらなる定着を目指すユーザーからのFBを踏まえた定期的なUI改修、最新のモデルの追加　etc 全社員視聴の衛星放送/ポータル画面への掲載/Chatスペースへの投稿/エリアごとの研修等生成AIリーダーシップ研修 e-learning　（生成AIの基礎的な知識の習得）生成AIリーダーシップ研修ワークショップ　（生成AIを活用して業務効率化を目指すためのユースケース発掘）機能改修施策展開登録率： 40% MAU ：15%~20% 登録率： 45% MAU ：20%~ 登録率： 65% MAU ：35% 登録率： 20% MAU ：10%

社内における活用事例の共有化社員が参加するGoogle Chatコミュニティには様々なユースケースが共有され現場発信の取組が増える社員6000名が参加するフリーコミュニティ

定着させるための組織風土個人で試すチームに共有・精査改善・標準化まずは個人で試してみる個人がそれぞれ試したプロンプトを共有、チームで使えるものを精査プロンプト改善のうえ標準化。業務でプロンプトを使用する
チームで生成AIを使用するキッカケやアイデアの共有などができる状態が望ましい

反復利用できるプロンプト個人で、一回しか使えないユースケース複数人で反復して活用するユースケース • 業務改善のアイディアをもらう • 初めての業務に対して進め方の方針を考えてもらう • 自動化(GASやVBA)のコードを出力してもら
う • 営業週報を作成する • 毎月開催している勉強会の内容を作成する • 顧客ごとの事故対策を検討するプロンプトとして確立する必要はないプロンプトとして確立させ、複数人が反復して活用できる状態を目指す

アプリ機能について 10月に展開後、すでに1,000個以上のアプリが作成されている

照会業務×生成AI（おしそんLLM）における展開事例 13

損害保険ジャパンにおける生成AIの展開方法 2022年頃から内製開発をベースに汎用型、業務特化型にスコープを分けて展開を開始汎用型生成AI (SOMPO AI Chat) 業務特化型生成AI (おしそんLLM) 生成AIを広く多くの社員に利用してもらうための取組。社内版生成AIツールを使って全社員がさまざまな業務に自発的かつ自由に活用し、
各職員自身が効率化の観点などから活用した活動を社内で活発に情報共有している状態を目指すもの。特定の業務フローやシステムに生成AIを組み込んで、業務効率化を目指す取組。代理店営業における問い合わせフローや保険金支払における有無責判定などにおける課題に対して業務フロー内や裏側で生成AIを活用し業務効率化を目指すもの。

SJにおける照会応答営業店：代理店からの照会対応に一人あたり1日53分の時間を要している本社　：営業店からの照会対応が年間40万件発生している営業店本社代理店お客様

おしそんとは？代理店さん QAデータベース教えて！SOMPO本体 QA更新/データ投入（主に）商品部検索 QA生成検索/ 照会ログ
営業店/本社営業店照会代理店さん営業店回答質問入力不明点解消 ③ ・「教えて！SOMPO」の愛称・代理店からの質問に、参考となるFAQや規定集などを提示する検索システム

おしそんLLMとは？おしそんが抱える各種問題を解決するため、LLMを活用した1問1答を実現するためのシステム代理店さん検索文生成 QAデータベース教えて！SOMPO本体 QA更新/データ投入（主に）商品部検索 QA生成
検索/ 照会ログ営業店/本社営業店照会代理店さん営業店回答回答案生成質問入力不明点解消照会内容投入回答案の示唆本社照会内容投入 ① ② ③ 回答案の示唆 • 代理店さんが検索文をうまく作成できずに、欲しい回答に辿りつかない • 検索を諦め、営業店に電話等で照会するため対応負荷が大きい ①解きたい課題 • 規定・QA等の点在する情報から回答を作成するため、多大な時間を要する ②解きたい課題 • 新商品や商品改定等の都度、新たなQA作成、メンテナンスを行わなければならない • 各担当者のマンパワーで実施 ③解きたい課題

おしそんLLMとは？照会回答の効率化を目指し、AIが回答文を自動作成することで照会回答時間を削減する仕組みドキュメント規定集、Q&A、 SDW（予定）おしそん検索機能代理店さん/ 営業店 LLM
回答 ② 検索機能を介して　質問に沿った当社固有の知識を提供　例）ゴールド免許特約とは...　 ① ユーザーがおしそん上で照会を実施　例) ゴールド免許特約は、***の条件で　適用可能でしょうか？ ③ 検索によって得られたドキュメントを　根拠としつつ回答を生成する　例）適用可能です。　おしそんLLM

おしそんLLMイメージ図 ①問い合わせ内容を自動でRAGへ連携 ②LLMによる回答案を自動貼り付け ③エビデンス確認画面問い合わせ内容を自動で読み取り、RAG+LLMで回答案を生成する仕組みを実装 Chrome拡張機能照会内容回答

おしそんLLMイメージ動画動画投影

ユーザの声トライアルの結果、精度が全てではないことがわかった業務削減に効果があるという声が大半を占めている ◦ポジティブな声　・文章の土台が出てくるだけでも業務削減に繋がっている　・参考資料の部分があっていればそれをコピペして回答に使えるので便利　・完璧な内容で回答素案が作成されることが増えてきた気がするので、今後の期待大です。　・ビジマスの回答がすばらしく、代理店への回答までの時間が相当短縮された。　・機能は素晴らしいので検索できる種目を増やしてほしい。　
◦ネガティブな声　・回答案が作成される点は良かったが、そこまで簡単な照会が無いためあまり役には立たなかった。　・代理店掲示板、新種HP、過去照会あたりは回答根拠として追加した方が回答の幅が上がりそう　・おしそん云々より、もっと規定・事務処理を分かりやすくしてほしい。

おしそんLLM開発の歴史 • 2023年3月　生成AIのビジネスでの活用を行うべく、DX推進部内で勉強会を開催。ビジネスメンバーと一緒に社内活用について議論 • 2023年4月　感度の高いビジネスユーザから、生成AIをおしえてSOMPOに活用できないか相談が来る • 2023年5月　内製エンジニアチームとビジネスユーザがタックを組んで、１週間でクイックにプロトタイプを実装 • 2023年6月　ビジネス部門にプロトタイプを披露。動くものを見せることで、成果物のイメージがクリアに。
　　　　　　ビジネス部門も積極的に、学習データの整備など、結果の検証、プロンプトの改修など泥臭い作業に協力してくれた • 2023年12月　初期プロトタイプを現場展開。不評。。。UXを大幅に変更 • 2024年2月　テキストの構造化やチャンクの見直しなど投入データの前処理により、検索精度が向上 • 2024年5月　本社商品部での追加PoCおよび学習データへのラベリングを実施　質の高い学習データの蓄積 • 2024年10月　現行バージョンを現場でPoC開始。実施検証でデータをためながら、内製で少しずつ精度向上 • 2025年4月　LLMによる評価手法を確立。これによりモデル切替時や新商品追加時の客観的なスコア評価が可能に • 2025年6月 9,000人以上のユーザが毎日利用している

AI agentを活用して目指す将来像について 23

AI エージェントとは人がツールを使用する世界からAI Agent経由でツールを動かし、タスクを完結させる世界を目指す

AI エージェントとは SOMPO ホールディングスで全社3万人への導入を決定、ビジネスモデルの変革を目指す

おしそんLLMからおしそんエージェントへ • 質問からエージェントが自律的にタスクを計画。Actionを利用してタスクを実行しながら PDCAサイクルを回す（例：ユーザ追加質問、知らない単語をWEB検索、検索クエリーの修正、社員に結果を確認など）おしそんエージェント社内データ FAQ/規定集等検索システム
マルチターン (追加質問) 社内データ契約情報回答履歴回答ユーザフィードバック WEB検索 API チャット A2A 自動音声エンドユーザ代理店システムエージェント社員に質問ユーザフィードバックアプリ / フォーム Action Action Action Action Action 学習データを保存

エージェント開発のリアル 27

今日話すこと ― エージェント開発で直面した3つの壁ワークフロー設計エージェントをどの様に構築するべきか？開発の流れは？ 1. 2. 3.
評価戦略何をどう評価するのか、評価データをどう構築するか？精度・コストの壁エージェント化によって複雑なタスクが解ける様になるのか？

エージェントをどう開発するか？エージェントの実装パターンは、大きく「ワークフロー型」と「自律型」に分けられる。ワークフロー型自律型事前に定義 LLMが動的に判断処理フロー特徴業務フローをパターン化できている必要があるが、デバッ
グが容易で予測可能性も高い柔軟なタスクに対応できる可能性があるが、コストが高くなりがちで事前のデバッグが困難適用領域業務フローを事前に定義できるユースケース全般ソフトウェアのコーディング等エージェント=「自律型」とは限らない。むしろ、「業務のエージェント化を目指す=パターン化できている」状態であると考えると、ワークフロー型での実装が自然な選択。

エージェントをどう開発するか？ STEP 2 開発環境整備 SDKの選定等 STEP 1 ワークフロー選定アーキテクチャを決める STEP
3 評価データ構築エージェントごとの評価データを構築 STEP 4 精度向上プロンプトチューニング等 STEP 5 デプロイアプリ開発チームへの引き継ぎ等ポイント：ワークフロー選定 ➢ 大枠でも良いのでユースケースの「どこからどこまで」を「どうやって」エージェントに任せるかを決める ➢ 「エージェントの実装」だけが正解ではない、トレードオフを理解してPlan Bの用意をポイント：評価データを早期に構築 ➢ ワークフローの大枠を決めたら、開発環境の整備と並行して評価軸をチームで合意 ➢ 各エージェント単位＋ワークフロー全体での評価データセットを構築 ➢ 手戻りを最小化し、早期に精度検証を行うことが重要

エージェントをどう開発するか？ STEP 2 開発環境整備 SDKの選定等 STEP 1 ワークフロー選定アーキテクチャを決める STEP
3 評価データ構築エージェントごとの評価データを構築 STEP 4 精度向上プロンプトチューニング等 STEP 5 デプロイアプリ開発チームへの引き継ぎ等先に決めたこと後回ししたこと E2Eで評価を回せる基盤まず全体を通して評価できる基盤を作り、ボトルネックを特定できる様に評価指標(KPI)の定義網羅性（論点を全てカバー）とシンプルさ（回答の短さ）を設定ワークフローの大枠 RAG vs エージェンティックRAGの比較構成を早期に決定各ステップの細かい調整プロンプトチューニング等、各ステップの最適化は後回しに 💡この順番が重要細部の最適化より先に「測れる状態」を作ることで、定量的に確認しながら判断することができる

エージェントをどう開発するか？今回はワークフロー型を採用し、照会対応に必要なプロセスをエージェント化。教職員共済は等級継承可能でしょうか？等級継承できる場合はどの様な手続きを踏めば良いですか? 照会照会内容の明確化
質問の分解回答根拠の検索回答生成回答要約回答根拠の検索回答生成 Q1: 教職員共済は等級継承可能か？ Q2: 等級継承の際の手続きはい、可能です… 1 2 3-1 4 3-2 3-1 3-2

エージェントをどう評価するか？評価は「全体評価（ワークフロー全体）」と「個別評価（エージェント毎）」の両輪で実施。個別評価全体評価　目的：ワークフロー全体の品質担保　確認ポイント：ユーザー視点での最終アウトプットの妥当性、定性評価　目的：各エージェント単位の精度検証　確認ポイント：LLMによる人工データ生成も活用した　　　　　　　　幅広いデータでの評価

エージェントをどう評価するか？ ➢ 個別評価ではエージェントごとに専用の評価データセットを構築 ◦ 例：照会内容の明確化を行うエージェントの評価例（人力でのレビュー） AIが判定した内容人のレビュー結果 ➢
LLMを用いた評価データ構築/評価の自動化 ◦ 上記の様な人手での評価は信頼性は高いが、コスト・網羅性の部分で限界がある ▪ 開発時にはLLMによる自動生成データも同時に利用 • エッジケース・人力で作成が難しいケースを効率的に評価 ▪ LLMによる評価（LLM-as-a-Judge）は不可欠 ▪ エンドユーザー向けにリリースする際には、レッドチーミング（安全性・脆弱性の検証）等も検討が必要

エージェントをどう評価するか？ ➢ 全体評価の進め方 ◦ 定量評価と定性評価の両方を実施 ◦ 最終出力だけ見ても「どこで失敗したか」がわからない ▪ いくつかのサンプルで中間ステップを確認し、どこでどの様に失敗/成功したかを定性的に分析 ▪
膨大なデータセットでの評価（量）よりも、評価の質・深さを重視

結果 ➢ 「エージェント化すれば複雑な問題が解ける」わけではない ◦ 構成が複雑になるほど、エラーの連鎖（エージェントの小さなミスが全体のミスを招く）・コスト増のリスク ➢ プロンプトチューニングの限界 ◦ 個別エージェントの精度向上を試みたが、意外とすぐ頭打ちになる
▪ プロンプトで救える範囲には限界がある ◦ 根本的にはワークフロー設計・タスク分解の見直し、あるいはﬁne-tuning等が必要 RAG（非エージェント）エージェント精度 42% 36% コスト 9.1円 20.6円速度 10秒程度 20~30秒

まとめ ➢ 照会対応のプロセスの自動化を目指し、エージェント開発を行った。 ◦ エージェント開発においては、比較対象として非エージェントのRAGを用いたシステムと比較 ◦ 精度、速度、コストの全ての面で非エージェントのRAGが優れているという結果に ➢ 当初の構想では全てをエージェント形式に置き換える想定だったが、上記の結果を踏まえ一部（「照会内容の明確化」）のみをエージェント化することを検討中。
◦ 照会内容の明確化は会話の中で動的に質問を生成する等、エージェント化との親和性が高い ➢ 学び構成は柔軟に見直す • 最初の設計に固執しない • 幻滅しない • 「エージェント化」はAll or Nothing ではない定量・定性の評価どちらも重要 • 定量評価 : 個別エージェントの最適化時等で精度を追うフェーズ • 定性評価: 改善ポイントを見つける（評価の深さが重要）

その問い合わせ対応、本当に“人”がやる必要がありますか？損害保険ジャパンが仕掛けるAIエージ...

その問い合わせ対応、本当に“人”がやる必要がありますか？損害保険ジャパンが仕掛けるAIエージェント革命

SOMPO Digital Lab

More Decks by SOMPO Digital Lab

Other Decks in Technology

Featured

Transcript