Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM-in-Production-Meetup-1-LLMOps-LLMの評価品質担保-_2...
Search
Eno
August 30, 2023
Technology
1.2k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLM-in-Production-Meetup-1-LLMOps-LLMの評価品質担保-_2023.08.18
Eno
August 30, 2023
Other Decks in Technology
See All in Technology
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
230
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
650
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
110
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
150
タクシーアプリ『GO』の実践的データ活用
mot_techtalk
3
190
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
3
1.4k
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
530
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
4
4.4k
LLMにもCAP定理があるという話
harukasakihara
0
280
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
710
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.9k
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
130
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
Building AI with AI
inesmontani
PRO
1
1.1k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Designing for Performance
lara
611
70k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
180
Transcript
1 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 2023.08.18(金) LLM in
Production Meetup #1 LLMOps -LLMの評価・品質担保 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア兼 AI Lab スペシャリスト 榎本 和馬 (@x1ujmtamtpjt)
2 1.自己紹介 2.取り組んでいるサービス紹介: BOTCHAN 3.私が考える "LLMOps"とは 4.品質担保の実態 5.まとめ 目次
3 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 1.自己紹介 3
4 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 自己紹介 榎本
和馬(Enomoto Kazuma) 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア 兼 AI Lab スペシャリスト AIx医療を専門に研究、個人では企業との案件に従事し、 AIを使った幅広い技術の開発と立案に携わる。 言語や音声といった幅広い AIの知識を生かし、AI-SCHOLARにも参画。 AI-SCHOLARでは記事の査読、業務の効率化、新規事業の立案も担当。 株式会社wevnalではchatbotのAI対話システムや レコメンド技術・FAQシステムの開発に従事。 また現在は主に大規模言語モデル( LLM)の開発に従事。 またcvpaper.challenge(産総研:片岡様企画)では、 AI研究のサポートを行なっている。 cvpaper.challenge wevnal AI-SCHOLAR
5 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 2.取り組んでいるサービス紹介 -
BOTCHAN - 5
6 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -
BOTCHAN - 理解・促進 継続 認知・集客 購入・申込 解約 商品ページで 90 %以上が離脱 決済フォームで 70 %以上が離脱 初回購入者の 70 %以上が離脱 広告掲載費は 10年で 5 倍に高騰 CPC カゴ落ち率 直帰率 F2転換率 解約防止率 解約希望者の 90%以上が解約 LP離脱ユーザーを LINEに囲いCV獲得 BOTCHAN Payment/EFO BOTCHAN Engagement BOTCHAN Relation BOTCHAN Keeper BOTCHAN AI ChatGPT搭載でオンライン接客オートメーション フォーム離脱を防ぎ CVR・顧客単価を 向上させる 購買データ×LINEで ステップ配信最適化し LTV向上させる 解約希望ユーザーに寄り添 い継続率を向上させる オンライン上の顧客 コンシェルジュ ボット
7 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -
BOTCHAN AI - 24時間365日ユーザーが困った時に、 チャットのような手軽な窓口で即時対応して、解決するコンシェルジュAIが欲しい “ “ 企業の売り上げや評価を良くしたり,困っている時に助けるには... ユーザーが知りたい事に特化した人をオンライン上に休みなく(24時間365日)働かせれば良い(極論) 膨大なコストがかかる AIにやらせればいいやん
8 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -
BOTCHAN AI - https://www.youtube.com/watch?v=jZQqEEsZ4fc
9 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 3.私が考える "LLMOps"とは
9
10 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは
❏ COps (Cooking+Ops):「最高の料理を最速で考案し,提供する手法」が機械学習 (ML)の世界での「MLOps」 ❏ MLOps・・・MLをDevOpsの原則をベースに, MLのプロセス全体を効率化し,最適化する手法や概念のこと (MicrosoftのMLOps). ①探索的データ解析 (EDA) : 原材料の選び方 = データを調べて、どの情報が役立ちそうかを見極める. ②データ準備と特徴量エンジニアリング : 材料をカットしたり、味付け = データを最適な形に整える. ③モデルのトレーニングとチューニング : 料理の火加減や調理方法の調整 = モデルを訓練して最も良い結果を出すように調整 ④モデルのレビューとガバナンス : 実食 = 作ったモデルが良好に機能するかどうかを確認. ⑤モデル推論とサービング : 実際に料理をお客さんに提供 = モデルを実環境にデプロイ ⑥モデルのデプロイと監視 : お客さんの反応を見る = モデルが正しく機能しているか、問題がないかを監視 ⑦モデルの再訓練自動化 : お客さんのフィードバックを用いて改善 = モデルの性能が下がった時に自動で再訓練 MLOpsの目標 ・料理をより早く、より美味しくすることと同様に、モデルの開発速度を上げること ・料理を提供する時間を短縮するように、モデルを迅速にデプロイすること ・最高の品質の料理を提供するように、品質保証とトラック
11 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは
探索的データ解析 (EDA) データ準備と 特徴量エンジニアリング モデルのトレーニングと チューニング モデルのレビューと ガバナンス モデル推論と サービング モデルの デプロイと監視 モデルの 再訓練自動化 ❏ LLMOps・・・大規模言語モデル (LLM)をDevOpsの原則をベースに, LLMのプロセス全体を効率化し,最適化する手法や概念の こと ① ① ② ③ ④ ⑤ ⑥ ⑦ モデルのトレーニングと チューニング ・プロンプトは手探りで現状いい方法は模索中 ・Fine-tuningはまだ出来ない.さらにFine-tuningがPromptに影響を及ぼすことは間違いない. モデルのレビューと ガバナンス ・UI/UX的にRLHF出来ているか?プロンプトもセットに管理されているか. ・モデル固有のリスク(Ex.Hallucinationsや薬機法). ・精度は?→何で評価する? モデルの デプロイと監視 ・リスク発言の割合や悪いコミュニケーションをどのようにトラックするのか?→評価指標は何? ・Prompt Injection 混沌 ① 混沌 混沌 ② 混沌 ③
12 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 4.品質担保の実態 12
13 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 1.
人間の目視による 評価・品質担保 2. LLMによる評価・品質担保 3. 代替指標による評価・品質担保 (UI/UX設計)
14 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -人間の目視による評価・品質担保 -
1. 人間の目視による品質担保 会話を評価するって,昔から研究領域でも人間を答えとしています. 人間が答えでいいのか? 主観(好み)は気にしなくていいのか? 評価者のバックグラウンドが出てくる GPT4が会話を評価した場合と人間が会話を評価した場合で差分が出ます. AIが正しいのか? 人間が正しいのか? https://arxiv.org/abs/2308.04592 到底ベストな方法ではない(問題だらけ) LLMOps観点で見ていくと...
1. 2. LLMによる評価・品質担保 →大規模な言語モデル自身の出力を改良するために,モデルの能力を活用する技術への関心が高まっている ・会話自体を単純に評価させる →精度は低い=人間と比較して. ・会話に付随する各種ログを一緒に in-contextしてあげる→精度は高い ・上流工程なのか下流工程なのかで分けて評価させていく予定 15
LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -LLMによる評価・品質担保 - https://arxiv.org/abs/2308.04592 この方法が現在一番正攻法な気がする LLMOps観点で見ていくと... Prompt Flowもこの方向性になりそう
1. 2. 3. 代替指標による評価・品質担保 (UI/UX設計) ・LLMを評価しようとするから困難になる. LLMの回答精度を間接的に見れるものはないか? →売り上げをあげる →LLM経由のCVを評価指標と置いてしまう.
プロンプトでも会話評価でも, CVしたかどうかで判定 A-Prompt/B-Promptによる売り上げ向上の CVによるABテスト 16 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -代替指標による評価 (UI/UX設計)- どれだけのプロンプトの評価を LLMに返せるかが鍵 LLMOps観点で見ていくと... モデルの 再訓練自動化 ⑦ https://arxiv.org/abs/2201.06009
17 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 5.まとめ 17
18 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 まとめ ❏
LLMの品質担保におけるベストプラクティスはまだ現在ないと考えていい 大規模な言語モデル自身の出力を改良するために,モデルの能力を活用する技術への関心が高まっている ❏ Fine-tuning(Pre-training改良)でさらに混沌となる 現在は解放されていないから無視できている変数とも言える. 年内くらいに解放されると言われている. ❏ LLMOpsを実現するために重要なのは評価指標 人が絡む時点で安定しない.代替評価指標が求められる.
http://wevnal.co.jp/