$30 off During Our Annual Pro Sale. View Details »

CARTAのAI CoE が挑む「事業を進化させる AI エンジニアリング」 / carta ...

CARTAのAI CoE が挑む「事業を進化させる AI エンジニアリング」 / carta ai coe evolution business ai engineering

Findy AI Engineering Summit 2025 : https://ai-engineering-summit-tokyo.findy-tools.io/2025
登壇者: CARTA Generative AI Lab リーダー 海老原 昂輔 (@co3k)

Avatar for CARTA Engineering

CARTA Engineering

December 15, 2025
Tweet

More Decks by CARTA Engineering

Other Decks in Technology

Transcript

  1. CARTA Generative AI Lab リーダー 海⽼原 昂輔 (@co3k) 略歴 •

    2005 年より Web アプリケーション開発に従事する傍ら、セキュリティ脆弱 性に関する報告や啓蒙活動などを精⼒的におこなう • 2014 年に株式会社 VOYAGE GROUP (現: CARTA HOLDINGS) に⼊社後、複数 の新規事業開発に参画。 Web フロントエンド、 Web バックエンド、 iOS、 Web セキュリティといった様々な領域において開発を主導 • 2017 年、 VOYAGE Lighthouse Studio (現: Lighthouse Studio) 創業より CTO として神ゲー攻略などの⼤規模メディアの運⽤、開発を主導 • 2024 年より CARTA HOLDINGS CTO 室スタッフエンジニアとして全社⽂脈で の課題解決に取り組む。同年夏より CARTA Generative AI Lab リーダー就任 • 2025 年より CARTA HOLDINGS ICT 本部を兼任 CARTA 内の役割  CARTA Generative AI Lab リーダー (今⽇はこの帽⼦!)  事業⼦会社 CTO, Tech Board  ICT (コーポレート IT), セキュリティ
  2. TL;DR (DL?) 私たち CARTA Generative AI Lab が重視していること、そして、みなさんに今⽇お伝えしたいこ とは次の三点です。 •

    AI アプリケーションの難しさと向き合う • AI-CoE 基盤とタイガーチーム機能の⼆軸で全社横断しながら AI 活⽤推進する • 「みんながほしがるもの」は作らない
  3. なんでも回答しすぎるチャットボット その 1 会議室のスピーカーが壊れているみたい。 どうしたらいい? こちらの申請フォームから IT 部⾨に問い合わせてね! ⾶んでみたら 「オフィス備品購⼊申請」

    とか書いてある……え、私 が買うの? 不明なことや決まった⼿続きがないことについても頑張って無理⽮理回答を返そうとしてしまう
  4. 開発時に期待していない⼊⼒への出⼒精度が極端に悪い キャッチフレーズ⽣成 アプリケーション 開発時の想定 (おせちに関するこだわりなど詳し い情報が載ったページの URL) 「ある おせち通販(博多発)のプロモーションのためにキャッチフレーズを⽣成したい」 ⼊⼒

    出⼒ 「博多発! ⽼舗料亭のお届けする 本格おせちをご家庭で」 「和洋折衷の豊富な⾷材で⽼若男⼥ に幅広く親しまれるおせち」 キャッチフレーズ⽣成 アプリケーション 実際の利⽤ (情報量の少ないおせち通販ラン ディングページの URL) ⼊⼒ 出⼒ 「伝統と⾰新が融合した、極上の味 わい博多ラーメン」 「ラーメン通も納得! 厳選⾷材と独 ⾃製法によるこだわりスープ」 博多!? じゃあ ラーメンだ!!!
  5. 予測不可能性の塊「⼤規模⾔語モデル」 ⼊⼒A 出⼒ B 出⼒ B 出⼒ C 期待された確率的振る舞い 出⼒

    🦐 期待された範囲を超えた確率的振る舞い ↓ プログラムのような確定的な コンポーネントとの相性が悪い • 多様な出⼒を⽣む LLM ◦ 学習データやパラメータの膨⼤さ ◦ ⾃然⾔語の⾃由度の⾼さ → そもそもそういう意図で設計されている
  6. 「ハルシネーション」の抱える問題 • LLM が⾃信を持って間違える「ハルシネーション(hallucinations; 幻覚)」 ◦ LLM は「正しい」出⼒をしようとしているわけではない ◦ ましてや「間違った」出⼒をしようとしているわけでもない

    LLMは学習データに基づき、「確率的にあり得そうな(もっともらしい)」出 ⼒を連続的かつ離散的に⽣成し続けているだけである ハルシネーションそれ⾃体が幻であるとも⾔える 確率的にこうかな?
  7. 直接的な LLM との対話における「ハルシネーション」 • 対話型の AI アプリケーション ◦ ユーザがプロンプトをある程度意識的に作成して⼊出⼒を得る •

    ハルシネーションが⽣じても... ◦ 知識があれば間違いだとわかる ◦ ユーザ⾃⾝で⽣じた不都合に対して回避、対応ができる ユーザ ユーザ
  8. CARTA Generative AI Lab タイガーチーム 機能 AI CoE 機能 全社の⽣成

    AI リテラシーと技術基盤を 底上げする⽀援機能 事業部の重要課題に深く⼊り込み、 PoC 開発から実装までを担う実⾏機能 AIとエンジニアリングの⼒で CARTA の事業価値向上を加速 存在意義 0 1 02 内包する機能
  9. ふたつの側面を有する全社横断チーム タイガーチーム機能 (実⾏機能) AI-CoE機能 (⽀援機能) 役割 ⼿を動かす実働型タイガーチーム CARTA 横断の AI-CoE

    ⽬的 事業固有の課題を解決するため、PoC 開発から実 装までを担う 全社の⽣成 AI リテラシーと技術基盤を底上げする 主な活動 広告クリエイティブ分類 PoC、メディア審査業務 効率化など、事業固有の応⽤開発‧実装 LLM Ops 基盤 (Langfuse)、プロトタイピング基 盤 (Dify, n8n) の構築‧運⽤、技術⽀援 活動領域 ニッチで、かつ実現難易度の⾼い課題 汎⽤的な課題解決⽀援、プロトタイピングの⺠主 化 キーワード 事業固有、実⾏、⼿を動かす、泥臭く実践的 全社基盤、⽀援、技術⽀援、仕組み化
  10. AI-CoE(AI Center of Excellence)機能 全社の⽣成 AI リテラシーと 技術基盤の底上げ ⽬的 グループ全社との連携

    事業部の技術的⽀援 各事業⼦会社が利⽤できる技術⽀援の 「選択肢」を増やす グループ全社が持続的に⽣成AIを活⽤できる 「仕組み」を構築 01 02 提供機能 インフラストラクチャ型 CoE 具体的なインフラの構築運⽤ 技術サポート等のサービス提供 03 事業会社‧ユーザ
  11. 中核的活動 1:プロトタイピング基盤の構築・運用 • 全社的な AI 活⽤の「エントリーポイント」として、 Dify や n8n をセルフホスティング

    • 緩い制約 ―だが社内に閉じた―のもと、活⽤できるプロトタイピング基盤として提供 社内認証基盤 プロトタイピング基盤
  12. 中核的活動 1:プロトタイピング基盤の構築・運用 社内認証基盤 プロトタイピング基盤 (セルフホスト ) 対象業務の 業務マニュアルの チャットボット化 業界ニュースの

    定期的な収集 レポーティング タスクの⾃動化 指定⾔語で翻訳する 翻訳Slack bot エンジニアの介在なしに業務効率改善が実現
  13. 中核的活動 2:LLMOpsと「観測可能性」(Langfuse) • ⼊出⼒がブラックボックスしやすい • 実際の価値発揮において 上⼿くいっているかどうかがぼやける 課題感 Langfuse の導⼊と普及を推進

    観測性の発揮機会を増やす LiteLLM によるプロキシとの組み合わせでの 透過的なトレースを記録 AI アプリケーションの品質、精度、コストを 継続的にモニタリング‧改善できる体制を確⽴ 01 02 アプローチ 成功体験の醸成 タイガーチームとしての活動のなかで Langfuse の活⽤も含めた成功体験の醸成 03
  14. 事業子会社テレシーとの共同開発プロジェクト (2024 秋-) • クライアントの Web サイトや紙⽂書等から情報を収集‧整理 ( 0 次分析)

    し、ベネフィッ ト抽出とキャッチコピー案までを⽣成する (PoC では 0 次分析にかかる時間を 33% 削減) • 実⽤段階へのブラッシュアップに向け、ハルシネーション対策等に苦⼼(先ほどの「博多 おせち→博多ラーメン」事件に苦しめられたりもしていました)
  15. 「黒船」の襲来。開発凍結へ • 2024 年 12 ⽉: Gemini Deep Research リリース

    • 2025 年 1 ⽉:Google Workspace ユーザに Gemini が全解放され NotebookLM がカジュアルに使いやすくなる Gemini Deep Research、NotebookLM と作成したツールを⽐較すると... • 他の事業でも使え、広範囲に扱える • ハルシネーションが抑えられている • 精度も⾼い →どうにも太⼑打ちできるようなビジョンが描けず、共同開発プロジェクトは凍結することに
  16. 教訓:「一般的なニーズ」での競争回避 • 今回作成した 0 次分析ツール ◦ Web ページ等の各種リソースから情報を収集してコンテンツを⽣成する機能 ◦ 解決策として作られたツールは「⼀般的なニーズ」に応えるもの

    • 「⼀般的なニーズ」 ◦ 現時点では存在しなかったとしても、すぐに代替物が出現することは明⽩ • 本気で「⼀般的なニーズ」の競争に参戦するのでない限りは... ◦ もっと「固有の事業課題の抽出および解決」にこだわり抜くべき →「みんなが欲しがるもの」は作らない
  17. Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有

    タイガーチームは このあたりの 課題を狙う
  18. Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有

    タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築
  19. Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有

    タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築 ドメインエキスパート⾃⾝ での Dify 等による PoC
  20. Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有

    タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築 ドメインエキスパート⾃⾝ での Dify 等による PoC タイガーチームとして 本格利⽤に向けた アプリケーション開発
  21. Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有

    タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築 ドメインエキスパート⾃⾝ での Dify 等による PoC 利⽤事例の蓄積による横展開 タイガーチームとして 本格利⽤に向けた アプリケーション開発
  22. (再掲)ふたつの側面を有する全社横断チーム タイガーチーム機能 (実⾏機能) AI-CoE機能 (⽀援機能) 役割 ⼿を動かす実働型タイガーチーム CARTA 横断の AI-CoE

    ⽬的 事業固有の課題を解決するため、PoC 開発から実 装までを担う 全社の⽣成 AI リテラシーと技術基盤を底上げする 主な活動 広告クリエイティブ分類 PoC、メディア審査業務 効率化など、事業固有の応⽤開発‧実装 LLM Ops 基盤 (Langfuse)、プロトタイピング基 盤 (Dify, n8n) の構築‧運⽤、技術⽀援 活動領域 ニッチで、かつ実現難易度の⾼い課題 汎⽤的な課題解決⽀援、プロトタイピングの⺠主 化 キーワード 事業固有、実⾏、⼿を動かす、泥臭く実践的 全社基盤、⽀援、技術⽀援、仕組み化
  23. 事例: 広告クリエイティブ分類プロジェクト • 広告クリエイティブとは ◦ Web メディアへ掲載される広告として制作されたコンテンツ • なぜ分類が必要か ◦

    アダルト性のある広告はメディアへ掲載できない ◦ 現状は⼈⼒でアダルトかどうか判定している 広告クリエイティブ メディア
  24. 事例1: 広告クリエイティブ分類プロジェクト 初期検証 (精度 51.9%) 分類基準を整理 プロンプトに組み込む • 実際の広告クリエイティブ/⼈間による分類結果‧分類基準をもとに取り組みを開始 •

    様々な⼿法で仮説検証を繰り返し、段階的に精度向上を実現 プロンプト エンジニアリング (59.7% → 65%) Tree of Thought Chain of Thought DSPy の導⼊、最適化 (75.32%) プロンプト ⾃動⽣成‧最適化 最新⼿法の適⽤(GEPA) 複数データセット複数モデル 検証をおこなう基盤の構築 Tree of Thought : 4 時間/検証 実⾏時間最適化の試みも実施 プロンプト最適化を 1105 回の ループにて⾃動的実施 3フェーズで実施
  25. 事例: 広告クリエイティブ分類プロジェクト • DSPy は LLM のプロンプトや推論のステップをプログラム的に最適化する • 本プロジェクトでは正解とされる分類結果に合致しているかどうかという評価基準を設 け、その評価基準に沿うように⾃動的にプロンプトを最適化させている

    初期 プロンプト 1. 実⾏ (Execution) プロンプトで タスクを実⾏ 2. 評価 (Evaluation) 出⼒と正解を ⽐較しスコア化 3. 改善 (Improvement) スコアに基づき プロンプトを修正 最適化された プロンプト ループ
  26. 事例3: セキュリティアラートトリアージ • エンドポイントセキュリティ対策のひとつ、 EDR による振る舞いベース検知の効率化 • ボーダーラインの検知が多く、⼀般的な価値判断基準だけでは不充分。属⼈性も⾼い • アラートやデバイス等の情報を

    LLM に分析させ、⼀般的な判断を代⾏ • セキュリティチームとしては CARTA 独⾃の判断に集中できるように ◦ LLM の⼊出⼒は Langfuse にてトレースを記録しており、継続的な精度向上も 振る舞い検知 必要な情報の収集 セキュリティチーム アラートの受信 LLM の判断結果の評価 分析 トレースの記録 従業員 EDR トリアージエージェント
  27. まとめ • AI アプリケーションの本質的な難しさと向き合う ◦ LLM は「予測不可能性の塊」 ◦ 完全な制御は不可能。ハルシネーションは避けられない前提で設計する •

    CARTA Generative AI Lab の⼆軸アプローチ ◦ AI-CoE 機能:全社の AI 活⽤基盤を構築(Dify、Langfuse など) ▪ 「誰もが試せる環境」から「観測可能な本番運⽤」まで ◦ タイガーチーム機能:ニッチで難易度の⾼い事業固有課題に挑む ▪ 「みんなが欲しがるもの」との競争を避け、差別化領域で価値を創出 • 実践からの学び ◦ ⼀般的ニーズへの取り組みは、ビッグプレイヤーの進化速度に勝てない ◦ 事業固有の課題×⾼難易度領域にこそ、持続的な価値がある ◦ PoC から実⽤化への道のりでは、精度向上の「泥臭い」試⾏錯誤が不可⽋