LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦

1 LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦 2026/6/18 白金鉱業 Meetup Vol.24@六本木 Mizuho Yanagi
(@suikabar_umai)

自己紹介 2 栁泉穂（やなぎみずほ） • 2022年ブレインパッド新卒入社 ◦ 統計学の新卒研修を担当
◦ 同僚とDS向けの技術書を執筆 • 2025年タイミーに入社 ◦ 現在はLLMプロダクト開発に従事

事例｜TimeeにおけるContent Moderationの取り組み 4 プラットフォームの安全性担保のために投稿されたコンテンツを審査 post check User Operator feedback

事例｜Content ModerationへのLLMの導入 5 人手では限界のある審査の質・速度の向上を目的に審査フローにLLMを導入 post check check feedback feedback User
LLM Operator

LLMプロダクトの品質を担保するまでの壁 6 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト

LLMプロダクトの品質を担保するまでの壁 7 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト Prototype

LLMプロダクトの品質を担保するまでの壁 8 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト Prototype Production Content Moderation領域

LLMプロダクトの品質を担保するまでの壁 9 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト Prototype Production 推論品質の評価アーキテクチャ運用・監視
継続的な改善

評価｜評価主導型の改善サイクル 10 質の担保されたゴールデンデータセットを起点に評価・改善のサイクルを回すゴールデンデータセット • 入力と期待する出力をセットにした事例集 • 少数の重要な事例からはじめ段階的に拡張 • 改善の方向性を示す羅針盤となる
ゴールデンデータセット評価エラー分析改善

評価｜ゴールデンデータセット評価と本番評価 11 ゴールデンデータセットでファジーなLLMロジックの振る舞いを正しく評価する特徴ラベルの品質利用用途ゴールデンデータセット（オフライン評価）少数、網羅性重視正確（アノテーションにより担保）
振る舞いの確認 / 回帰テスト本番環境（オンライン評価）大規模、本番環境の分布そのもの実態の把握 / エッジケースの検出低い、もしくは取れない

改善｜品質改善のためのアプローチ 12 ボトルネックとなる要因の切り分けとそこに寄与する改善アプローチを試行要因例アプローチ例 error cases • モデルへの指示が曖昧 •
指示の読み飛ばし審査ロジック由来 • プロンプト調整 • ワークフロー最適化 • 判断基準の欠如 • 曖昧なグレーゾーン審査ポリシー由来 • 審査ポリシーの更新 • OK/NG例の拡充

運用・アーキ｜スケーラブルなアーキテクチャ設計 13 不安定なLLM APIへ依存する上で可用性を担保するための工夫が求められるコケることを前提とした設計 ✔ リトライを前提としたアーキテクチャ ✔ 適切なフォールバック戦略 Rate
Limitリスクへの対処 ✔ スパイクに耐えうる非同期処理 Findy Tools｜LLMによる非同期文章レビュー基盤アーキテクチャ (https://ﬁndy-tools.io/companies/timee/73/84)

監視｜LLMプロダクトの監視・可観測性 14 ファジーに振る舞うLLMプロダクト特有の監視・可観測性担保の仕組みが必要 • トークン消費量の監視 • 出力の評価（LLM-as-a-Judge） • ワークフロー全体の可観測性（LLM
Observability） Speaker Deck｜Datadog LLM Observabilityで実現するLLMOps実践事例 (https://speakerdeck.com/k6s4i53rx/practical-llm-observability-with-datadog)

おわりに：DS x LLMプロダクト開発 15 LLMプロダクト開発はDSとSWEの合流点一人で全領域のカバーは困難、DS・SWEが相互に補完・染み出しつつプロダクトの質を高める「品質の不確実性」と向き合うDS 「運用の不確実性」と向き合うSWE
データセット整備評価・改善のループアーキテクチャプロダクトの安定運用監視

ご清聴ありがとうございました！

LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦

LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦

suikabar

Other Decks in Programming

Featured

Transcript

1 LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦 2026/6/18 白金鉱業 Meetup Vol.24@六本木 Mizuho Yanagi

自己紹介 2 栁泉穂（やなぎみずほ） • 2022年ブレインパッド新卒入社 ◦ 統計学の新卒研修を担当

3

事例｜TimeeにおけるContent Moderationの取り組み 4 プラットフォームの安全性担保のために投稿されたコンテンツを審査 post check User Operator feedback

事例｜Content ModerationへのLLMの導入 5 人手では限界のある審査の質・速度の向上を目的に審査フローにLLMを導入 post check check feedback feedback User

LLMプロダクトの品質を担保するまでの壁 6 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト

LLMプロダクトの品質を担保するまでの壁 7 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト Prototype

LLMプロダクトの品質を担保するまでの壁 8 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト Prototype Production Content Moderation領域

LLMプロダクトの品質を担保するまでの壁 9 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある品質開発コスト Prototype Production 推論品質の評価アーキテクチャ運用・監視

改善｜品質改善のためのアプローチ 12 ボトルネックとなる要因の切り分けとそこに寄与する改善アプローチを試行要因例アプローチ例 error cases • モデルへの指示が曖昧 •

監視｜LLMプロダクトの監視・可観測性 14 ファジーに振る舞うLLMプロダクト特有の監視・可観測性担保の仕組みが必要 • トークン消費量の監視 • 出力の評価（LLM-as-a-Judge） • ワークフロー全体の可観測性（LLM

ご清聴ありがとうございました！