Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2万人が「使える」生成AIをどう育てるか? 〜 損保ジャパン2万人の社員が使う生成AI機能を育...

2万人が「使える」生成AIをどう育てるか? 〜 損保ジャパン2万人の社員が使う生成AI機能を育てた、 プロンプト改善とUX設計の軌跡 〜

生成AIの導入において多くの企業が直面する「導入したものの使われない」「回答精度が業務レベルに達しない」という壁。損保ジャパンはいかにしてこの課題を乗り越え、2万人の社員が日常的に使うツールへと定着させたのか。

本セッションでは、単なるツール導入に留まらない「AIを育てる」ためのプロセスを公開します。LLM-as-a-Judgeによる自動評価の実践や、現場のフィードバックに基づいたプロンプト改善、ITリテラシーに依存せず直感的に操作できるUX設計の勘所など、大規模組織ならではの制約の中で実践した具体的なノウハウと、その裏にある戦略を詳説します。

More Decks by SOMPOホールディングス デジタル・データ戦略部

Other Decks in Technology

Transcript

  1. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 2万人が「使える」生成AIをどう育てるか?

    〜 損保ジャパン2万人の社員が使う生成AI機能を育てた、 プロンプト改善とUX設計の軌跡 〜 SOMPOホールディングス株式会社 2026年2月20日 デジタルデータ戦略部
  2. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 1

    小林勇喜 (WEBアプリケーションエンジニア) 物流、自動車、ゲーム業界等において、新規サービスの立ち上げや既存シ ステムの大規模リプレイスなどに従事。2023年4月より現職。チーフエン ジニアとして、保険金支払業務の顧客コミュニケーション領域改善プロジ ェクトをリードしている。 自己紹介 藤野 智彦(インフラエンジニア) 製造業向け基幹システム開発に従事。その後、機械学習プラットフォーム のバックエンド開発やインフラ構築などに従事。2022年1月より現職。イ ンフラエンジニアとして開発環境構築やSRE領域を担当。最近は生成AIの 機能開発にも携わっている。 SOMPO Digital Lab(SOMPOホールディングス株式会社)
  3. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 2

    本日お伝えしたいこと ビジネスサイドとのパートナーシップ
  4. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 3

    目次 1 2 3 プロジェクト概要 生成AIを用いた要約機能の実装 要約機能の導入効果 4 プロンプト構築における課題と解決策 5 プロンプトエンジニアリングと品質評価 6 精度とコストのトレードオフ 7 課題ドリブンでの機能選定 まとめ 8
  5. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 4

    1. プロジェクト概要 https://www.sompo-japan.jp/company/initiatives/sjr/
  6. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 6

    1. プロジェクト概要 プロジェクトの現在地 今後 LINEツールの移行を完了。 基幹システム連携を実現し、全国の拠点で 稼働中。 コミュニケーションツールの2点目として、 メールシステムの統合(API)を間も無く展開 予定。 ユーザーの声やA/Bテストを通してUIや機 能のブラッシュアップを継続中 以降もシステム連携を計画中。
  7. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 7

    2. 課題ドリブンでの機能選定 生成AI機能を実装するにあたって・・・
  8. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 8

    2. 課題ドリブンでの機能選定 技術ドリブン 課題ドリブン AIなど新技術 業務フローへの無理な適用 現場ニーズとの乖離 現場で定着せず、使われない 現場の具体的な 課題・非効率を特定 問題解決の手段としてAIを適用 業務フローに自然に組み込む 利便性を実感し、 定着・生産性改善
  9. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 9

    2. 課題ドリブンでの機能選定 https://www.sompo-hd.com/-/media/hd/files/news/2025/20251226_1.pdf
  10. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 10

    2. 課題ドリブンでの機能選定 これまでの業務フロー 担当者による手動対応 お客さま 1. メッセージ内容を要約 2. 対象の事故を検索 3. 経緯として登録 LINE送受信 LINE送受信 基幹システム ・人によって粒度が異なる。 ・時間がかかる。 ・ツールの切替が発生。 ・改めて事故を検索、登録 の手間が発生。
  11. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 11

    2. 課題ドリブンでの機能選定 改善案 担当者による対応 お客さま 基幹システム 1. メッセージ内容を AI要約 2. 要約結果を確認 3. 経緯として登録(API) LINE送受信 LINE送受信
  12. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 12

    3. 生成AIを用いた要約機能の実装 Generated by Nano Banana Pro
  13. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 13

    3. 生成AIを用いた要約機能の実装 • ビジネス、開発が一体と なったスクラム開発。 • 新オペレーションモデル を体現するモデル拠点に て先行導入。 • 全国へ展開し、施策の効 果検証を実施。 リリース(全国) リリース(モデル拠点) 開発Sprint フィードバック 実業務利用での早期フィードバック 全国利用での幅広いフィードバック • 全国展開へ向けた情報整 理・システム改修。
  14. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 14

    4. 要約機能の導入効果 引継ぎ・状況把握効率化 経緯入力の効率化・品質向上 業務管理の利便性向上 • 経緯入力内容が簡潔・標 準化され、進捗の状況把 握や担当者間の共有・引 継ぎが容易になった。 • 基幹システムに連携して いるため、経緯登録が早 くなった。 • 経緯とともに行動予定を 登録できるのが便利。特 に、解決までに時間を要 するケースとの親和性が 高いと感じました。 (現場アンケート) • 一連の業務に要する時間 が1/3に削減された。
  15. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 15

    4. 要約機能の導入効果 ランニングコスト(After) モデル:Gemini2.5 Flash Light コスト:5,000円 / 特定月 ランニングコスト(Before) モデル:Claude 3.5 Sonnet (Bedrock) コスト:63,000円 / 特定月
  16. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 16

    前半のまとめ AI機能の導入判断 • 技術ドリブンではなく、課題ドリブンで。 • AI活用機能は選択肢の一つ。まずは、業務の見直しができないかを検討。 開発の進め方 • ビジネスと開発の一体化したチームでの開発は必須。 • 必ず短いスパンでのフィードバックループを回そう。 効果 • AI要約と人による確認で、品質を担保しつつ業務効率化を実現できた。 • ユーザーの生の声を聞くことで新たな発見があった。
  17. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 17

    5. プロンプトの構築で直面した「要約タスクの課題」 背景課題①:評価の属人化 生成AIの出力結果は、ビジネス担当者の感覚(「なんとなく良い・悪い」)に依存しやすく、 たとえ同じ出力でも品質基準が異なり、チーム全体で一貫した品質を保つことが困難になってしまう。 背景課題②:コストのジレンマ 全てのケースを人間が目視確認すると、膨大な時間とコストがかかってしまう。 (生成AIを活用する意味、、) 効率化を求めてAIを導入したのに、その品質確認に多大な工数がかかるという矛盾に直面する。 解決策:評価の自動化 「何をもって良しとするか」「何が業務として致命にならないか」を明確に定義し、 ツールで自動採点(定量評価)できる仕組みを作りをする。 ビジネス担当者は業務要件の観点に集中して評価をすることで、 評価工数を削減しながら、客観的な品質を担保することが可能になる。
  18. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 18

    5. 自動化を阻む最大の壁:「共通言語」がない Before: 埋まらない溝 Action: 泥臭い翻訳作業 感覚 vs 論理の衝突 ビジネス担当者(感覚的) エンジニア(困惑) 感覚を「評価ルール」に変換する 徹底ヒアリング 感覚のルール化(構造化) 「なぜダメなのか?」 「逆にOKな例は?」「どうなれば合格?」 を問い続け、暗黙知を引き出す。 「大事なこと」→必須項目の欠落と定義 「失礼なケース」→断定表現の禁止と定義 「実務上必要な観点が網羅されていない 懸念がある」 「お客様への配慮が欠けている懸念がある」 「実務上必要なことを具体的に教え欲しい」 「失礼なケースとは具体的になんですか?」
  19. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 19

    5. 自動化を阻む最大の壁:「共通言語」がない Before: 埋まらない溝 Action: 泥臭い翻訳作業 感覚 vs 論理の衝突 ビジネス担当者(感覚的) エンジニア(困惑) 感覚を「評価ルール」に変換する 徹底ヒアリング 感覚のルール化(構造化) 「なぜダメなのか?」 「逆にOKな例は?」「どうなれば合格?」 を問い続け、暗黙知を引き出す。 「大事なこと」→必須項目の欠落と定義 「失礼なケース」→断定表現の禁止と定義 「実務上必要な観点が網羅されていない 懸念がある」 「お客様への配慮が欠けている懸念がある」 「実務上必要なことを具体的に教え欲しい」 「失礼なケースとは具体的になんですか?」 「品質」という曖昧な基準を 異なるドメイン知識を持つ方とどう共有するか?
  20. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 20

    5. 解決策:ビジネスと膝を突き合わせて言語化する 評価基準を作る3つのステップ 1 3 【利用シーンの特定】 〜誰が、何を決めるのか〜 【合格ラインの決定】 〜どこまでなら許せるか〜 この要約を見て、誰が(担当者/システム)、どんな判断(振込/連絡/入力)をするのか? (例:担当者が「等級への影響があるか」を判断し、お客様へ案内する。) 生成AIの出力結果が100点満点でなくとも、「業務が止まらない最低限のライン(許容範囲)」を 決める。 (例:日本語が多少不自然でも、「等級への影響あり/なし」の結論が正しければ合格。など) 後続業務含め、業務判断を誤らせる「致命的なミス」は何か? (例:本当は等級が下がるのに、「下がらない」と嘘の情報が混ざること。) 2 【失敗リスクの抽出】 〜何が起きると困るか〜 目的 利用者は様々な利用ケースがあるため、一言一句決まった「正解」を作ることが困難。 そのため「その要約から業務が正しく回るか、業務上の致命がないか」を合格の基準(許容範囲)とする。 評価基準を作る3つのステップ
  21. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 21

    具体的な策定手順(ワークショップ) ビジネスが5つの質問について話し合うことで、曖昧な「良し悪し」を明確な「評価ルール」に変換する。 質問(問いかけ) ルールへの変換(評価軸) アウトプット Q1. 生成AIに出力された内容から、次に なにを決めるか? 情報の網羅性 判断材料が揃っているか 要約品質に関する評価軸 - 要点の網羅性(顧客の状況、要望、対応内容などの要点を押 さえているか) Q2. 間違うとどのような実害が出るか? 正確性・安全性 嘘がないか、法令を守れているか 業務適合性に関する評価軸 ・保険用語の適切な使用(専門用語の正確な使用) ・保険金支払いの条件についての正確な記述 Q3. 最低限ないと困る情報は? 必須項目 絶対に落としてはいけない情報 正確性・事実性に関する評価軸 ・重要な情報の欠落がないか (保険適用条件に関わる情報など) Q4. 必ず使う言葉・使ってはいけない言 葉は? 用語の正しさ 社内用語・禁止ワードの遵守 倫理・コンプライアンスに関する評価軸 ・差別的・偏見のある表現がないか ・不適切な断定や約束がないか Q5. 元の情報に答えがない時はどうする か? 嘘(ハルシネーション)対策 正確性・事実性に関する評価軸 ・事実の歪曲がないか(事故状況、被害状況、対応内容など) 5. アウトプット:4つの「共通言語」
  22. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 22

    評定表 5. NG/許容ラインのすり合わせ 言語化によって得られた成果 NG/許容ラインを明文化した効果 点数付け自体が「なんとなく」にならない 各点数の具体的な基準を定義したことで、評価者によるブレが大幅に減少 3点以下は「理由」と「改善案」を必須化 なぜその点数か?を記載することで、ネクストアクションが明確になる 評価→改善サイクルが止まらない 「何を直せばいいか分からない」状態を解消し、継続的な改善が可能に
  23. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 23

    6. システムプロンプト構築・評価サイクル STEP1 初期定性レビュー (方向性の確認) STEP2 定量評価 (自動評価による品質測定) STEP3 詳細定性評価 (人の目による最終確認) STEP4 デリバリー (ユーザーへの展開) • 生成AIの出力で業務上許容できる範囲(評価軸)を洗 い出す。 • 原案となるベースのシステムプロンプトを確定する。 • 評価用の検証データを50件-100件程度用意し、評価ツー ル( AI TrustEval)でまとめて定量的に採点し、スコアの 分布を確認する。 • 「合格点に達しているか」「致命的なミスがないか」を 数値で把握する。 • 定量評価では測れない「業務上の違和感や致命」がな いかを評価軸をもとに5段階で評価を行う。 • 1~3点のデータについては「評価理由」「改善点」を明 文化し、システムプロンプトの修正・変更を行う。 • ユーザー受け入れテスト(UAT)を実施し、「生成AIの 精度」と「UI観点」の最終確認をする。 • 今の品質を基準点(ベースライン)として本番環境への 反映(デリバリー)を行う。
  24. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 24

    6. LLM-as-a-Judge 実践のための定量評価ツール(AI TrustEval) Pythonスクリプトの場合 アプリにした理由 ビジネスの端末によってはエンジニアしか実行できない ビジネスが自主的に評価プロセスを回してほしかった 結果がCSV/ログで見づらい 直感的に結果を確認し、改善点を議論したかった 初期開発段階では導入しづらい 機能として盛り込むか判断する段階で使いたかった 評価ツールを構築した理由
  25. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 25

    6. LLM-as-a-Judge 実践のための定量評価ツール(AI TrustEval) 目的 ・100件程度の検証データで品質を定量計測 ・スコア分布から改善の方向性を特定 ツール データセット、システムプロンプトの管理、定量評価、結果の比較 成果 ・一定数のまとまったデータ数で評価することにより、多様なユースケースの評価ができる ・定量的な点数により「現状のシステムプロンプトが業務で使えるか」の判断の確度が上がる ・評価は何度でも実行可能なため、同じ物差しで継続的に「比較評価」できる (例:モデル変更時の比較評価)
  26. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 26

    6. LLM-as-a-Judge 実践のための定量評価ツール(AI TrustEval)
  27. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 27

    各データケースの点数の 平均値を表す総合スコア 評価基準の記載 6. LLM-as-a-Judge 実践のための定量評価ツール(AI TrustEval)
  28. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 28

    インプットデータ毎に「なぜその 点数なのか」「何が不足している か」をAIが言語化・ インプットデータ毎に「なぜその 点数なのか」「何が不足している か」をAIが点数化・言語化 6. LLM-as-a-Judge 実践のための定量評価ツール(AI TrustEval)
  29. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 29

    データセットの評価結果とプロンプトの内容 から「プロンプト自体の改善提案」もする 6. LLM-as-a-Judge 実践のための定量評価ツール(AI TrustEval)
  30. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 30

    6. AI TrustEval 技術スタック Monorepo構成(UV Workspace) Frontend • Dash 3.2+ • Plotly • Mantine UI Evaluation • DeepEval • Gemini • GPT • Claude DevOps • Python 3.13+ • UV (高速) • Ruff / MyPy • pytest-asyncio • Docker ✓ 非同期処理対応 ✓ マルチプロバイダ対応 ✓ 型安全(Python 3.13+) ✓ CI/CD統合 Backend • FastAPI • PostgreSQL 17 • SQLAlchemy • Alembic • asyncpg
  31. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 31

    6. ガイドライン化による横展開 目的 ビジネスが自立して「プロンプトの構築・評価・改善」を回せるよう、方法・手順・Tipsを標準化したい プロンプトを構築する上で、属人的判断に依存せず、業務要件に的した評価軸や評価の自動化によって 継続的なプロンプトの改善を実現したい
  32. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 32

    7. コスト×品質の意思決定 - トレードオフの無限ループを防ぐ方法 ポイント 先に「最低合格ライン」と「予算上限」を固定する 両方を満たす領域だけを「採用」とする 設計思想:トレードオフの解消 「精度を上げればコストが上がる」「コストを下げれば精度が落ちる」という議論のループを防ぐため、 品質下限とコスト上限という2つのガードレール(制約条件)を最初に合意する。 この枠内に収まる解決策のみを採用候補に選択していく。
  33. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 33

    7. モデル選定とコスト戦略 - モデル選定の最適化 Phase 1:初期検証・プロンプト開発 目的:実現可能性(フィジビリティ)の確認 手段: 最高性能モデル Phase 2:コスト最適化・本番適用 目的:精度の維持 × コスト最小化 成果: ROI(コスト対効果) 成果: 到達可能な最高精度の確立 手段:軽量モデル
  34. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 34

    まとめ ビジネス成果 • 適切なプロンプトエンジニアリングと評価プロセスを経ることで、 最新モデルでなくても実業務に耐えうる品質を出せる • シンプルなことから始めても効果は出る(人員規模による) • 結果として極めて高いROIを実現できた 技術的アプローチ • 評価基準を作り「暗黙知の言語化」から始める • 評価プロセスを LLM-as-a-Judge で自動化する • ビジネスも「継続的な改善」と「評価プロセスを回せる環境」を作る
  35. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 35

    SOMPO Digital Labでは、一緒に事業課題に取り組んでいく仲間を募集しています。 We are hiring! https://sompo.io/ja/recruit アプリケーションエンジニア インフラエンジニア QAエンジニア • チーフエンジニア • AIエンジニア • アプリエンジニア • システムアーキテクト • SREテックリード • SREプロジェクトリード • SRE • ITアーキテクト • セキュリティエンジニア • QAリードエンジニア • QAエンジニア
  36. © 2024 Sompo Japan Insurance Inc. All Rights Reserved. 38

    要約機能のアーキテクチャ