Upgrade to Pro — share decks privately, control downloads, hide ads and more …

組織的なAI施策に共通する泥臭い箇所_どろんこAI話Ⅱ

 組織的なAI施策に共通する泥臭い箇所_どろんこAI話Ⅱ

「コンテキストエンジニアリング」みたいな話ではなく、「組織的にAI施策を進めようとしたときに発生する、泥臭くて大変な箇所と、どうすればスムーズに進められるか」という話

Other Decks in Programming

Transcript

  1. © Stockmark Inc. はじめに 自己紹介 渡邉 展夢 Hiromu Watanabe ・2024年1月にストックマークに入社

    (フルリモート勤務) ・福岡県在住 ・普段はAconnectという製造業向けAIエージェントの プロダクト開発と並行して生成AIによる業務効率化 プロジェクトに従事 はじめに 自己紹介 ・2024年1月にストックマークに入社 (フルリモート勤務) ・福岡県在住 ・普段はAconnectという製造業向けAIエージェント のプロダクト開発と並行して生成AIによる業務効率 化を行うAIブーストプロジェクトに従事 渡邉 展夢 Hiromu Watanabe
  2. © Stockmark Inc. ①AIブーストプロジェクトとは ③ Agent Skills ハッカソン • 社内向けAgent

    Skillsの ハッカソン ・参加者がSkillsやそれら を活用した作業自動化な どを試し、知見を共有 ② プロダクト リクエスト自動化 • 営業が手作業でやって いた顧客商談で出た製品 フィードバックの起票作 業を、商談録 (amptalk)から自動抽 出する形に自動化 ・本番運用中 ④ Claude Team Plan 全社導入検証 • Claude Team Planを活 用して各々の業務を効率 化するため全社導入を検 討 ・現在は職種ごと(営業, CS, PdM, デザイナー, デ ータアナリスト)に、 Claudeを活用して業務を どのように効率化できる かの検証期間中 ① Devinによる 社内Q&A半自動化 • ビジネス職種→エンジ ニアへのプロダクト仕様 に関する社内QAをDevin によって自動回答 ・本番運用中 ・詳細: テックブログ ・詳細: テックブログ ・詳細: テックブログ やったこと一覧 ・開催済み
  3. © Stockmark Inc. 半年間の成果 Devinによる社内QA半自動化 55件 → 27件 ・件数が約50%に削減 ①AIブーストプロジェクトとは

    プロダクトリクエスト自動化 5分 → 0分 ・手作業でやっていた入力工数が0に ・今まで入力忘れなどで起票されなかった 要望も全て拾えるように 営業/CSの手作業による1件あたりの入力工数 エンジニアの対応が必要な1ヶ月の質問数 ・Devin相手だから質問する時の心理的 ハードルが下がった
  4. © Stockmark Inc. 施策前に想定していた工数イメージと実態 施策前に想定していた工数イメージ 技術的な実現 合意・運用 ※技術的な実現部分の方が大半を占めると思っていた 実際の工数(AIブーストの経験) 合意・運用・

    モニタリング 振れ幅あり ※技術的な実現部分だけだと全体の半分の進捗 (施策によってはそれ以下) 技術的な実現 ※モニタリングの観点が抜けていた ②組織的なAI施策に共通する泥臭い箇所 ※運用が始まってからも想定外のことが起きる
  5. © Stockmark Inc. 施策ごとに見ると… 施策 技術的な実現(実装) 運用や組織への組み込み Devinによる 社内Q&A 半自動化

    ・ツール選定 ・コスト概算 ・Playbook(プロンプト)の調整 ・限定メンバー検証を行う or いきなり全体展開 ・誰を最初の検証メンバーに巻き込むか ・検証/本番運用開始時のキックオフ準備 ・検証期間中・本番運用中のサポート ・Devinの出力精度が落ちていないかの継続的な モニタリング ・モニタリングの自動化 Claude Team Plan 全社導入検証 ・PdM/PMM向けのローカル環境構築 レクチャー(OS差異の個別対応、 GitスキトラのMTG設定) ・データ分析チームのBigQuery × Claude 活用サポート ・営業向けSalesforceのMCP連携の 検討・サポート ・検証メンバーの選定 ・検証内容の検討・キックオフ準備 ・組織的に使いたいSkillsの管理方法の検討 ・本番運用に向けたセキュリティ面の考慮 (情シスとのすり合わせ) ・コネクタ追加時の運用ルール設計 技術的な実現はどちらも開発業務の傍らにやってもそこまで長くなかった。 でも運用設計や組織への組み込みは毎回予想を超えて泥臭くてしんどかった。 ②組織的なAI施策に共通する泥臭い箇所
  6. © Stockmark Inc. ③施策を通した学びから得た4つのTips 【Tips1】合意形成・運用設計コストを、工数見積も りに最初から入れる Devin Q&Aの例:試作開始 → 本番運用まで約2ヶ月月

    実装(1〜2週間)以外にやったこと: ・検証運用、本番運用の設計 ・検証に協力してもらうCSチームとの合意形成 ・検証運用/本番運用のキックオフ資料・運用ガイド の作成 ・モニタリングの運用設計 ・使用感などの定性調査(アンケート) 工数見積もりに必ず追加したほうが良いもの 実装 関係者との合意形成 運用設計 モニタリング設計 → 実装と同じかそれ以上を見る 85〜90%の精度で出してしまい、残りは継続改善と モニタリングで対応する割り切りも大事 ・キックオフMTG ・本番運用初期のサポート 「関係者との合意形成」には、どの部署で何の予算 を使ってコストを払うかといった話も含む
  7. © Stockmark Inc. ③施策を通した学びから得た4つのTips 【Tips2】誰に協力をお願いするか、実装前に決める なぜ実装前に決めるべきか 新しい施策は説明コストが高いため、早期に動 いてもらえる協力者を確保するほど進めやすい ロードマップや工数見積もりの段階で関係者が 見えてくるので、その時点で決めておく

    時間の余裕を持って頭出しや共有をしておくと、 協力者も動きやすくなる 巻き込むべき協力者の選び方 ・ センターピン(意思決定者、または近いポジシ ョン) ・ 積極的に動ける実行役の人 ・ 情シスなどセキュリティ関連の関係者 ロードマップ確定後すぐに動き出すと良い
  8. © Stockmark Inc. 【Tips3】AI施策はエンジニアが主導する ③施策を通した学びから得た4つのTips 非エンジニアだけでは難しい理由 AIエージェントの進化で、非エンジニアでもあ る程度はゴリゴリ進められる時代になっている ただし、社内のコンテキスト・運用まで考慮し た設計・実装・モニタリングは、エンジニアリ

    ング知識がないと難しい エンジニアが担うべき領域 ・ 全体設計と技術選定 ・ 実装・テスト・リリース管理 ・ 運用フローの設計と初期サポート ・ モニタリングの仕組み設計 ・ セキュリティ面(情シスとの連携含む) 現段階ではエンジニアが主導する方がスムーズ
  9. © Stockmark Inc. 【Tips4】モニタリングを必須とする なぜAI施策でモニタリングが重要か 多くの場合、外部のLLM(Claude, GPT, Geminiな ど) or

    それらを使用したSaaS(Devinなど)の機 能を使うはずなので、「本番運用に乗せて終わ り」にすると、modelやSaaS側のアップデートで 出力が意図せず変わる可能性がある。 自社で構築・テスト・運用しているモデルを使う とかでない限りは必須。 本番運用の開始前に決めておくこと ・ いつ確認するか(頻度・タイミング) ・何を確認するか(評価軸) ・誰が確認するか ・どう確認するか(自動化できるか) できればモニタリング自動化まで設計に含める ③施策を通した学びから得た4つのTips
  10. © Stockmark Inc. 「Devinによる社内Q&A半自動化」のモニタリング設計 Step 1: 運用ルール策定 月10件ランダムピックで手動確認 する運用を設計。 Step

    2: 評価軸設計 ① 信頼度(高/中/低)の一致度 → 出力時に付与している信頼度が 「高」なのに、間違ったことを言って いないか (ハルシネーションのチェック) ② 解決への寄与度 → Devinの回答だけで解決できたか (エンジニアの負荷低減にどれだけ寄 与しているかのチェック) Step 3: 確認を自動化 手動だと効率が悪すぎるのと、月10件 ランダムピックだと、月によって全件 に対する割合の変動が大きく評価が良 くなりすぎたり、悪くなりすぎたりブ レる可能性がある。 [ 進行中 ] モニタリング自体の自動化を着手中。 ③施策を通した学びから得た4つのTips プロダクトリクエスト自動化における顧客フィードバック抽出の改善とモニタリングも並行して実施予定