Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
コンテンツモデレーション入門の入門
Search
yudai yamamoto
September 26, 2024
2
160
コンテンツモデレーション入門の入門
2024/09/26 めぐろLT #19 生成AIよもやま話
yudai yamamoto
September 26, 2024
Tweet
Share
More Decks by yudai yamamoto
See All by yudai yamamoto
安全性を高めるAzure AI Content Safety について
yyo616
1
310
2024年における生成AIエンジニアとは何者か
yyo616
11
3.9k
大規模言語データの前処理とLLM-as-a-Judge の活用
yyo616
4
1.6k
Docusaurus を使った開発ドキュメントの作成と運用
yyo616
0
500
Playwrightでテストを楽に実装したい
yyo616
0
69
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
52
11k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.2k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.4k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
47
2.7k
Speed Design
sergeychernyshev
29
910
Bash Introduction
62gerente
611
210k
GitHub's CSS Performance
jonrohan
1030
460k
Fireside Chat
paigeccino
37
3.4k
Statistics for Hackers
jakevdp
798
220k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
680
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
21k
Transcript
コンテンツモデレーション⼊⾨の⼊⾨ めぐろLT #19 「生成AIよもやま話」 Yudai Yamamoto (@yyo616)
👦 ⾃⼰紹介 ⼭本 雄⼤ (@yyo616) ⽣成AI周りのエンジニア • NTT Communications •
新規プロダクト開発、 LLMに関する研究開発 @yyo616
本⽇のゴール AIの安全性に向けた取り組みと現状をざっくりと知る 話すこと AIの安全性の概要 コンテンツモデレーションの概要 話さないこと 理論的、技術的な話 https://note.com/rmaruy/n/n80ebb81c6036 本⽇のスコープ "*ΞϥΠϝϯτʗ"*ηʔϑςΟͷ̐۠
• 各所で⽣成AIの社会実装が進んでいる • ⽣成AIへの期待とは反対に安全性への懸念も⾼まっている • e.g. プロンプトインジェクション、情報漏洩、ハルシネーション 🧐 AIの安全性について https://www.theguardian.com/world/2024/feb/16/air-canada-chatbot-lawsuit
https://forbesjapan.com/articles/detail/62905
📈 AIの安全性の重要性が増加 https://aisi.go.jp/wp-content/uploads/2024/09/ai_safety_eval_v1.00_ja.pdf https://www.aialign.net/ • 国内外問わず安全性についてのガイドラインや対策案が講じられている • AIの安全性への対策は「should」から「have to」に変化しつつある •
重要性や緊急性が⾼い⼀⽅で、AIの不確実性の⾼い振る舞いの前では対策が困難
🧐 コンテンツモデレーションとは • コンテンツモデレーション = 不適切な⼊出⼒を除去すること • UX, ブランドイメージ, セキュリティなど様々な理由で重要
• コンテンツモデレーション特化のサービスやモデルを使って対策することが多い https://docs.anthropic.com/ja/docs/about-claude/use-cases/content-moderation Anthropic 公式ドキュメントの content modera>on ページより抜粋
• API • OpenAI Moderation API, Azure AI Content Safety,
Perspective API, … • Model • Llama Guard, Shield Gemma, … 🙋 代表的なコンテンツモデレーション
• ⽇本語の安全性に特化したモデルはほとんどない • 安全性に関する評価データセットもモデルと同様の状況 • 先のコンテンツモデレーションは多⾔語対応しているが⽇本語の性能は⼗分とはいえない • AIの社会実装において安全性がボトルネックになる可能性が⾼い 🇯🇵 ⽇本語におけるコンテンツモデレーションの現状
数少ない⽇本語の安全性評価データセット 「AnswerCarefully」 https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/
• AIの安全性の重要性が増加している • それに伴いコンテンツモデレーション向けのサービスも増加している • ⽇本語におけるコンテンツモデレーションは現状ほとんどない。今後に期待。 📝 まとめ
📣 宣伝
担当できるスコープ • 実は NTTコミュニケーションズも結構⽣成AIに取り組んでいます • 新規プロダクト開発、研究開発、⽣成AIに関する技術⽀援 • フロントエンド〜インフラ • RAG、ファインチューニング、継続事前学習、評価、データセット作成など
• もしも興味ある⽅いればお話ししましょう︕ https://www.latent.space/p/ai-engineer