Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦
Search
suikabar
June 18, 2026
Programming
200
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦
suikabar
June 18, 2026
Other Decks in Programming
See All in Programming
肥大化するレガシーコードに立ち向かうためのインターフェース分離と依存の逆転 / JJUG CCC 2026 Spring
hirokunimaeta
0
520
3Dシーンの圧縮
fadis
1
680
正しくソフトウェアを作る、前提を疑うための認知の視点 / doubt-premise
minodriven
19
6.4k
Skillsは効率化、Agentsは"自分の拡張"——Builder時代のエージェント編成(CC Night 2026)
wemra
1
120
Composerを使ったサプライチェーン攻撃の様子を眺めてみる #phpstudy
o0h
PRO
2
240
例外の正しい扱い方 そのエラー try-catchして大丈夫?
jinwatanabe
0
180
AIとRubyの静的型付け
ukin0k0
0
560
Javaの型とAI時代に型が大事な理由 / java types and type in AI era
kishida
2
120
AIで効率化できた業務・日常
ochtum
0
120
タクシーアプリ『GO』の バックエンド開発のおける AI利活用と若者のすべて
pyama86
3
1.9k
AI時代のUIはどこへ行く?その2!
yusukebe
20
7k
Spec Driven Development | AI Summit Lisbon
danielsogl
PRO
0
170
Featured
See All Featured
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.6k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Everyday Curiosity
cassininazir
0
230
Design in an AI World
tapps
1
230
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Side Projects
sachag
455
43k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Are puppies a ranking factor?
jonoalderson
1
3.5k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
700
Transcript
1 LLMによるContent Moderationの本番運用の裏側と 品質担保への挑戦 2026/6/18 白金鉱業 Meetup Vol.24@六本木 Mizuho Yanagi
(@suikabar_umai)
自己紹介 2 栁 泉穂(やなぎ みずほ) • 2022年 ブレインパッド新卒入社 ◦ 統計学の新卒研修を担当
◦ 同僚とDS向けの技術書を執筆 • 2025年 タイミーに入社 ◦ 現在はLLMプロダクト開発に従事
3
事例|TimeeにおけるContent Moderationの取り組み 4 プラットフォームの安全性担保のために投稿されたコンテンツを審査 post check User Operator feedback
事例|Content ModerationへのLLMの導入 5 人手では限界のある審査の質・速度の向上を目的に審査フローにLLMを導入 post check check feedback feedback User
LLM Operator
LLMプロダクトの品質を担保するまでの壁 6 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある 品質 開発コスト
LLMプロダクトの品質を担保するまでの壁 7 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある 品質 開発コスト Prototype
LLMプロダクトの品質を担保するまでの壁 8 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある 品質 開発コスト Prototype Production Content Moderation領域
LLMプロダクトの品質を担保するまでの壁 9 「作って動く」と「本番環境で安心して使える」の間には大きなギャップがある 品質 開発コスト Prototype Production 推論品質の評価 アーキテクチャ 運用・監視
継続的な改善
評価|評価主導型の改善サイクル 10 質の担保されたゴールデンデータセットを起点に評価・改善のサイクルを回す ゴールデンデータセット • 入力と期待する出力をセットにした事例集 • 少数の重要な事例からはじめ段階的に拡張 • 改善の方向性を示す羅針盤となる
ゴールデン データセット 評価 エラー 分析 改善
評価|ゴールデンデータセット評価と本番評価 11 ゴールデンデータセットでファジーなLLMロジックの振る舞いを正しく評価する 特徴 ラベルの品質 利用用途 ゴールデンデータセット (オフライン評価) 少数、網羅性重視 正確(アノテーションにより担保)
振る舞いの確認 / 回帰テスト 本番環境 (オンライン評価) 大規模、本番環境の分布そのもの 実態の把握 / エッジケースの検出 低い、もしくは取れない
改善|品質改善のためのアプローチ 12 ボトルネックとなる要因の切り分けとそこに寄与する改善アプローチを試行 要因例 アプローチ例 error cases • モデルへの指示が曖昧 •
指示の読み飛ばし 審査 ロジック 由来 • プロンプト調整 • ワークフロー最適化 • 判断基準の欠如 • 曖昧なグレーゾーン 審査 ポリシー 由来 • 審査ポリシーの更新 • OK/NG例の拡充
運用・アーキ|スケーラブルなアーキテクチャ設計 13 不安定なLLM APIへ依存する上で可用性を担保するための工夫が求められる コケることを前提とした設計 ✔ リトライを前提としたアーキテクチャ ✔ 適切なフォールバック戦略 Rate
Limitリスクへの対処 ✔ スパイクに耐えうる非同期処理 Findy Tools|LLMによる非同期文章レビュー基盤アーキテクチャ (https://findy-tools.io/companies/timee/73/84)
監視|LLMプロダクトの監視・可観測性 14 ファジーに振る舞うLLMプロダクト特有の監視・可観測性担保の仕組みが必要 • トークン消費量の監視 • 出力の評価(LLM-as-a-Judge) • ワークフロー全体の可観測性 (LLM
Observability) Speaker Deck|Datadog LLM Observabilityで実現するLLMOps実践事例 (https://speakerdeck.com/k6s4i53rx/practical-llm-observability-with-datadog)
おわりに:DS x LLMプロダクト開発 15 LLMプロダクト開発はDSとSWEの合流点 一人で全領域のカバーは困難、DS・SWEが相互に補完・染み出しつつプロダクトの質を高める 「品質の不確実性」 と向き合うDS 「運用の不確実性」 と向き合うSWE
データセット整備 評価・改善のループ アーキテクチャ プロダクトの安定運用 監視
ご清聴ありがとうございました!