Slide 1

Slide 1 text

CARTA の AI CoE が挑む 「事業を進化させる AI エンジニアリング」 CARTA Generative AI Lab リーダー 海⽼原昂輔 (@co3k)

Slide 2

Slide 2 text

CARTA Generative AI Lab リーダー 海⽼原 昂輔 (@co3k) 略歴 ● 2005 年より Web アプリケーション開発に従事する傍ら、セキュリティ脆弱 性に関する報告や啓蒙活動などを精⼒的におこなう ● 2014 年に株式会社 VOYAGE GROUP (現: CARTA HOLDINGS) に⼊社後、複数 の新規事業開発に参画。 Web フロントエンド、 Web バックエンド、 iOS、 Web セキュリティといった様々な領域において開発を主導 ● 2017 年、 VOYAGE Lighthouse Studio (現: Lighthouse Studio) 創業より CTO として神ゲー攻略などの⼤規模メディアの運⽤、開発を主導 ● 2024 年より CARTA HOLDINGS CTO 室スタッフエンジニアとして全社⽂脈で の課題解決に取り組む。同年夏より CARTA Generative AI Lab リーダー就任 ● 2025 年より CARTA HOLDINGS ICT 本部を兼任 CARTA 内の役割  CARTA Generative AI Lab リーダー (今⽇はこの帽⼦!)  事業⼦会社 CTO, Tech Board  ICT (コーポレート IT), セキュリティ

Slide 3

Slide 3 text

CARTA HOLDINGSについて 18 8 180 エンジニア組織 事業 人 (エンジニアのみ) 2000人over

Slide 4

Slide 4 text

TL;DR (DL?) 私たち CARTA Generative AI Lab が重視していること、そして、みなさんに今⽇お伝えしたいこ とは次の三点です。 ● AI アプリケーションの難しさと向き合う ● AI-CoE 基盤とタイガーチーム機能の⼆軸で全社横断しながら AI 活⽤推進する ● 「みんながほしがるもの」は作らない

Slide 5

Slide 5 text

突然ですが…… こんな AI アプリケーションに 心当たりはありませんか?

Slide 6

Slide 6 text

なんでも回答しすぎるチャットボット その 1 会議室のスピーカーが壊れているみたい。 どうしたらいい? こちらの申請フォームから IT 部⾨に問い合わせてね! ⾶んでみたら 「オフィス備品購⼊申請」 とか書いてある……え、私 が買うの? 不明なことや決まった⼿続きがないことについても頑張って無理⽮理回答を返そうとしてしまう

Slide 7

Slide 7 text

なんでも回答しすぎるチャットボット その 2 いまオフィスなんですがちょっと疲労気味 で、気分が悪くなってきてしまいました 体調を崩されている場合、休職を検討 することができます。以下のページから 必要な⼿続きを確認してください いきなり休職!? 仮眠室 とかないのかなとか思った だけなんだけど…… 質問の⼀部に関連しそうな知識があれば安易に提⽰してしまうので極端な回答になりやすい

Slide 8

Slide 8 text

回答しなさすぎるチャットボット Slack に業務委託者を追加したい。 どこから申請すればいいんだっけ? 申し訳ございません、私の知識の範囲で は回答できません 回答の厳格性を追求した結果、ファジーな問い合わせで「回答不能」に倒れてしまいがちに (そんなはずは……あ、) Slack にマルチ チャンネルゲストを追加するにはどうした ら? Slack にマルチチャンネルゲストを追加 する場合、以下のフォームから申請を おこなってください

Slide 9

Slide 9 text

開発時に期待していない⼊⼒への出⼒精度が極端に悪い キャッチフレーズ⽣成 アプリケーション 開発時の想定 (おせちに関するこだわりなど詳し い情報が載ったページの URL) 「ある おせち通販(博多発)のプロモーションのためにキャッチフレーズを⽣成したい」 ⼊⼒ 出⼒ 「博多発! ⽼舗料亭のお届けする 本格おせちをご家庭で」 「和洋折衷の豊富な⾷材で⽼若男⼥ に幅広く親しまれるおせち」 キャッチフレーズ⽣成 アプリケーション 実際の利⽤ (情報量の少ないおせち通販ラン ディングページの URL) ⼊⼒ 出⼒ 「伝統と⾰新が融合した、極上の味 わい博多ラーメン」 「ラーメン通も納得! 厳選⾷材と独 ⾃製法によるこだわりスープ」 博多!? じゃあ ラーメンだ!!!

Slide 10

Slide 10 text

01 AIアプリケーションの難しさ

Slide 11

Slide 11 text

主要であるコンポーネント「プログラム」の性質 ● 書いたとおりに動く ● 同じ⼊⼒に対し、何回試⾏しても決まった 振る舞いをし、決まった出⼒を返す   →「確定的な振る舞い」 ⼊⼒A 出⼒A'

Slide 12

Slide 12 text

主要であるコンポーネント「プログラム」の性質 「振る舞いが確定的」ということは…… ● 複数のプログラムを組み合わせてアプリケーションを構築することも⽐較的容易 ● この特性を活かし、現実の⼤きく複雑な課題に対しても、⼤⼩様々なプログラムを 組み合わせることで⽴ち向かってきた

Slide 13

Slide 13 text

ある程度確率的に振る舞う「機械学習モデル」 ● 意図しない結果を返すことがある ● 出⼒が⼀様に定まらない が、こうした性質がさほど問題にならないような⼯夫、配慮がなされている (特定の課題にフォーカス、学習時に汎化性能向上に取り組む、などなど……) ⼊⼒A 出⼒ B 出⼒ B 出⼒ C 出⼒ B ※ある程度確率的に 振る舞うが、コント ラビリティもある

Slide 14

Slide 14 text

予測不可能性の塊「⼤規模⾔語モデル」 ⼊⼒A 出⼒ B 出⼒ B 出⼒ C 期待された確率的振る舞い 出⼒ 🦐 期待された範囲を超えた確率的振る舞い ↓ プログラムのような確定的な コンポーネントとの相性が悪い ● 多様な出⼒を⽣む LLM ○ 学習データやパラメータの膨⼤さ ○ ⾃然⾔語の⾃由度の⾼さ → そもそもそういう意図で設計されている

Slide 15

Slide 15 text

「ハルシネーション」の抱える問題 ● LLM が⾃信を持って間違える「ハルシネーション(hallucinations; 幻覚)」 ○ LLM は「正しい」出⼒をしようとしているわけではない ○ ましてや「間違った」出⼒をしようとしているわけでもない LLMは学習データに基づき、「確率的にあり得そうな(もっともらしい)」出 ⼒を連続的かつ離散的に⽣成し続けているだけである ハルシネーションそれ⾃体が幻であるとも⾔える 確率的にこうかな?

Slide 16

Slide 16 text

「ハルシネーション」は避けられない ● つまり「ハルシネーション」の⽣じる原因は LLM の動作原理そのものにある ● プロンプトエンジニアリング等によって推論を誘導することで軽減はできても、回避しき ることはできない ○ 「正しい」結果を返している場合も、技術的には「ハルシネーション」していると いえる ○ ある尺度のもとでは「正解」もしくは「問題にならない」パターンを引いた、とい うだけで ● LLM のもつこの特性は、アプリケーションに組み込むうえで⼤きな問題となりうる

Slide 17

Slide 17 text

直接的な LLM との対話における「ハルシネーション」 ● 対話型の AI アプリケーション ○ ユーザがプロンプトをある程度意識的に作成して⼊出⼒を得る ● ハルシネーションが⽣じても... ○ 知識があれば間違いだとわかる ○ ユーザ⾃⾝で⽣じた不都合に対して回避、対応ができる ユーザ ユーザ

Slide 18

Slide 18 text

AI アプリケーションにおける「ハルシネーション」 ● 対話型でない AI アプリケーション ○ 開発者の作成したプロンプトの意図を読みづらい ○ ユーザは「プログラム」のような確定的な振る舞いを期待しやすい ● 結果としてハルシネーションによる影響が⼤きくなりやすい ○ ユーザの直接的なリカバリも難しくなる 開発者 ユーザ

Slide 19

Slide 19 text

AIアプリケーションとの向き合い方 ⾒えない壁:⾼度な技術的理解が必要 制御不能な確率性 ただ使う だけなら簡単 教育‧啓蒙 必要だが不⼗分

Slide 20

Slide 20 text

02 CARTA Generative AI Lab の 構造とその取り組みについて

Slide 21

Slide 21 text

CARTA Generative AI Lab タイガーチーム 機能 AI CoE 機能 全社の⽣成 AI リテラシーと技術基盤を 底上げする⽀援機能 事業部の重要課題に深く⼊り込み、 PoC 開発から実装までを担う実⾏機能 AIとエンジニアリングの⼒で CARTA の事業価値向上を加速 存在意義 0 1 02 内包する機能

Slide 22

Slide 22 text

ふたつの側面を有する全社横断チーム タイガーチーム機能 (実⾏機能) AI-CoE機能 (⽀援機能) 役割 ⼿を動かす実働型タイガーチーム CARTA 横断の AI-CoE ⽬的 事業固有の課題を解決するため、PoC 開発から実 装までを担う 全社の⽣成 AI リテラシーと技術基盤を底上げする 主な活動 広告クリエイティブ分類 PoC、メディア審査業務 効率化など、事業固有の応⽤開発‧実装 LLM Ops 基盤 (Langfuse)、プロトタイピング基 盤 (Dify, n8n) の構築‧運⽤、技術⽀援 活動領域 ニッチで、かつ実現難易度の⾼い課題 汎⽤的な課題解決⽀援、プロトタイピングの⺠主 化 キーワード 事業固有、実⾏、⼿を動かす、泥臭く実践的 全社基盤、⽀援、技術⽀援、仕組み化

Slide 23

Slide 23 text

AI-CoE としての活動

Slide 24

Slide 24 text

AI-CoE(AI Center of Excellence)機能 全社の⽣成 AI リテラシーと 技術基盤の底上げ ⽬的 グループ全社との連携 事業部の技術的⽀援 各事業⼦会社が利⽤できる技術⽀援の 「選択肢」を増やす グループ全社が持続的に⽣成AIを活⽤できる 「仕組み」を構築 01 02 提供機能 インフラストラクチャ型 CoE 具体的なインフラの構築運⽤ 技術サポート等のサービス提供 03 事業会社‧ユーザ

Slide 25

Slide 25 text

中核的活動 1:プロトタイピング基盤の構築・運用 ● 全社的な AI 活⽤の「エントリーポイント」として、 Dify や n8n をセルフホスティング ● 緩い制約 ―だが社内に閉じた―のもと、活⽤できるプロトタイピング基盤として提供 社内認証基盤 プロトタイピング基盤

Slide 26

Slide 26 text

中核的活動 1:プロトタイピング基盤の構築・運用 社内認証基盤 プロトタイピング基盤 (セルフホスト ) 対象業務の 業務マニュアルの チャットボット化 業界ニュースの 定期的な収集 レポーティング タスクの⾃動化 指定⾔語で翻訳する 翻訳Slack bot エンジニアの介在なしに業務効率改善が実現

Slide 27

Slide 27 text

中核的活動 2:LLMOpsと「観測可能性」(Langfuse) ● ⼊出⼒がブラックボックスしやすい ● 実際の価値発揮において 上⼿くいっているかどうかがぼやける 課題感 Langfuse の導⼊と普及を推進 観測性の発揮機会を増やす LiteLLM によるプロキシとの組み合わせでの 透過的なトレースを記録 AI アプリケーションの品質、精度、コストを 継続的にモニタリング‧改善できる体制を確⽴ 01 02 アプローチ 成功体験の醸成 タイガーチームとしての活動のなかで Langfuse の活⽤も含めた成功体験の醸成 03

Slide 28

Slide 28 text

タイガーチームとしての活動

Slide 29

Slide 29 text

タイガーチーム機能 「泥臭い」実装による事業貢献 ⽬的 「みんなが欲しがるもの」は作らない ニッチで実現難易度の⾼い課題に 絞って取り組む 01 02 ⼼がけていること 事業会社‧ユーザ

Slide 30

Slide 30 text

失敗の教訓から導かれた タイガーチームとしての戦い方

Slide 31

Slide 31 text

事業子会社テレシーとの共同開発プロジェクト (2024 秋-) ● クライアントの Web サイトや紙⽂書等から情報を収集‧整理 ( 0 次分析) し、ベネフィッ ト抽出とキャッチコピー案までを⽣成する (PoC では 0 次分析にかかる時間を 33% 削減) ● 実⽤段階へのブラッシュアップに向け、ハルシネーション対策等に苦⼼(先ほどの「博多 おせち→博多ラーメン」事件に苦しめられたりもしていました)

Slide 32

Slide 32 text

「黒船」の襲来。開発凍結へ ● 2024 年 12 ⽉: Gemini Deep Research リリース ● 2025 年 1 ⽉:Google Workspace ユーザに Gemini が全解放され NotebookLM がカジュアルに使いやすくなる Gemini Deep Research、NotebookLM と作成したツールを⽐較すると... ● 他の事業でも使え、広範囲に扱える ● ハルシネーションが抑えられている ● 精度も⾼い →どうにも太⼑打ちできるようなビジョンが描けず、共同開発プロジェクトは凍結することに

Slide 33

Slide 33 text

教訓:「一般的なニーズ」での競争回避 ● 今回作成した 0 次分析ツール ○ Web ページ等の各種リソースから情報を収集してコンテンツを⽣成する機能 ○ 解決策として作られたツールは「⼀般的なニーズ」に応えるもの ● 「⼀般的なニーズ」 ○ 現時点では存在しなかったとしても、すぐに代替物が出現することは明⽩ ● 本気で「⼀般的なニーズ」の競争に参戦するのでない限りは... ○ もっと「固有の事業課題の抽出および解決」にこだわり抜くべき →「みんなが欲しがるもの」は作らない

Slide 34

Slide 34 text

タイガーチームと AI-CoE ふたつの側面の相互作用

Slide 35

Slide 35 text

Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有 タイガーチームは このあたりの 課題を狙う

Slide 36

Slide 36 text

Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有 タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築

Slide 37

Slide 37 text

Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有 タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築 ドメインエキスパート⾃⾝ での Dify 等による PoC

Slide 38

Slide 38 text

Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有 タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築 ドメインエキスパート⾃⾝ での Dify 等による PoC タイガーチームとして 本格利⽤に向けた アプリケーション開発

Slide 39

Slide 39 text

Generative AI Lab は何を解くべきか? 難易度 難 易 ニーズ ⼀般 特有 タイガーチームは このあたりの 課題を狙う この辺の課題は 世の中で 解決されることを 期待 このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築 ドメインエキスパート⾃⾝ での Dify 等による PoC 利⽤事例の蓄積による横展開 タイガーチームとして 本格利⽤に向けた アプリケーション開発

Slide 40

Slide 40 text

(再掲)ふたつの側面を有する全社横断チーム タイガーチーム機能 (実⾏機能) AI-CoE機能 (⽀援機能) 役割 ⼿を動かす実働型タイガーチーム CARTA 横断の AI-CoE ⽬的 事業固有の課題を解決するため、PoC 開発から実 装までを担う 全社の⽣成 AI リテラシーと技術基盤を底上げする 主な活動 広告クリエイティブ分類 PoC、メディア審査業務 効率化など、事業固有の応⽤開発‧実装 LLM Ops 基盤 (Langfuse)、プロトタイピング基 盤 (Dify, n8n) の構築‧運⽤、技術⽀援 活動領域 ニッチで、かつ実現難易度の⾼い課題 汎⽤的な課題解決⽀援、プロトタイピングの⺠主 化 キーワード 事業固有、実⾏、⼿を動かす、泥臭く実践的 全社基盤、⽀援、技術⽀援、仕組み化

Slide 41

Slide 41 text

タイガーチームとしての 取り組み事例

Slide 42

Slide 42 text

事例: 広告クリエイティブ分類プロジェクト ● 広告クリエイティブとは ○ Web メディアへ掲載される広告として制作されたコンテンツ ● なぜ分類が必要か ○ アダルト性のある広告はメディアへ掲載できない ○ 現状は⼈⼒でアダルトかどうか判定している 広告クリエイティブ メディア

Slide 43

Slide 43 text

事例1: 広告クリエイティブ分類プロジェクト 初期検証 (精度 51.9%) 分類基準を整理 プロンプトに組み込む ● 実際の広告クリエイティブ/⼈間による分類結果‧分類基準をもとに取り組みを開始 ● 様々な⼿法で仮説検証を繰り返し、段階的に精度向上を実現 プロンプト エンジニアリング (59.7% → 65%) Tree of Thought Chain of Thought DSPy の導⼊、最適化 (75.32%) プロンプト ⾃動⽣成‧最適化 最新⼿法の適⽤(GEPA) 複数データセット複数モデル 検証をおこなう基盤の構築 Tree of Thought : 4 時間/検証 実⾏時間最適化の試みも実施 プロンプト最適化を 1105 回の ループにて⾃動的実施 3フェーズで実施

Slide 44

Slide 44 text

事例: 広告クリエイティブ分類プロジェクト ● DSPy は LLM のプロンプトや推論のステップをプログラム的に最適化する ● 本プロジェクトでは正解とされる分類結果に合致しているかどうかという評価基準を設 け、その評価基準に沿うように⾃動的にプロンプトを最適化させている 初期 プロンプト 1. 実⾏ (Execution) プロンプトで タスクを実⾏ 2. 評価 (Evaluation) 出⼒と正解を ⽐較しスコア化 3. 改善 (Improvement) スコアに基づき プロンプトを修正 最適化された プロンプト ループ

Slide 45

Slide 45 text

事例2: ヘルプデスク問い合わせ効率化 ● ヘルプデスクの問い合わせ対応の効率化 ● 担当者⾃⾝で社内のマニュアル等のナレッジを基に LLM によってこれらの業務を効率化 できないか試⾏錯誤→うまく精度を出すことができず CARTA Generative AI Lab に相談

Slide 46

Slide 46 text

事例3: セキュリティアラートトリアージ ● エンドポイントセキュリティ対策のひとつ、 EDR による振る舞いベース検知の効率化 ● ボーダーラインの検知が多く、⼀般的な価値判断基準だけでは不充分。属⼈性も⾼い ● アラートやデバイス等の情報を LLM に分析させ、⼀般的な判断を代⾏ ● セキュリティチームとしては CARTA 独⾃の判断に集中できるように ○ LLM の⼊出⼒は Langfuse にてトレースを記録しており、継続的な精度向上も 振る舞い検知 必要な情報の収集 セキュリティチーム アラートの受信 LLM の判断結果の評価 分析 トレースの記録 従業員 EDR トリアージエージェント

Slide 47

Slide 47 text

まとめ

Slide 48

Slide 48 text

まとめ ● AI アプリケーションの本質的な難しさと向き合う ○ LLM は「予測不可能性の塊」 ○ 完全な制御は不可能。ハルシネーションは避けられない前提で設計する ● CARTA Generative AI Lab の⼆軸アプローチ ○ AI-CoE 機能:全社の AI 活⽤基盤を構築(Dify、Langfuse など) ■ 「誰もが試せる環境」から「観測可能な本番運⽤」まで ○ タイガーチーム機能:ニッチで難易度の⾼い事業固有課題に挑む ■ 「みんなが欲しがるもの」との競争を避け、差別化領域で価値を創出 ● 実践からの学び ○ ⼀般的ニーズへの取り組みは、ビッグプレイヤーの進化速度に勝てない ○ 事業固有の課題×⾼難易度領域にこそ、持続的な価値がある ○ PoC から実⽤化への道のりでは、精度向上の「泥臭い」試⾏錯誤が不可⽋

Slide 49

Slide 49 text

ご清聴ありがとうございました ブース展開中 / 求人→