Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM-in-Production-Meetup-1-LLMOps-LLMの評価品質担保-_2...
Search
Eno
August 30, 2023
Technology
1.2k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLM-in-Production-Meetup-1-LLMOps-LLMの評価品質担保-_2023.08.18
Eno
August 30, 2023
Other Decks in Technology
See All in Technology
RAG を使わないという選択肢
tatsutaka
1
150
Agentic ERPをどう設計するか ー 受発注エージェントを動かす、現場の知見と設計思想ー
recerqainc
1
2.2k
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
260
自律型AIエージェントは何を破壊するのか
kojira
0
150
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
520
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
130
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
1
560
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2.8k
AI Engineering Summit Tokyo 2026 AIの前に、やることがある 〜医療データ企業の4フェーズ〜
dtaniwaki
0
2.5k
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
490
新しいVibe Codingと”自走”について
watany
5
290
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
710
Featured
See All Featured
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.9k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
How to Ace a Technical Interview
jacobian
281
24k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Transcript
1 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 2023.08.18(金) LLM in
Production Meetup #1 LLMOps -LLMの評価・品質担保 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア兼 AI Lab スペシャリスト 榎本 和馬 (@x1ujmtamtpjt)
2 1.自己紹介 2.取り組んでいるサービス紹介: BOTCHAN 3.私が考える "LLMOps"とは 4.品質担保の実態 5.まとめ 目次
3 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 1.自己紹介 3
4 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 自己紹介 榎本
和馬(Enomoto Kazuma) 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア 兼 AI Lab スペシャリスト AIx医療を専門に研究、個人では企業との案件に従事し、 AIを使った幅広い技術の開発と立案に携わる。 言語や音声といった幅広い AIの知識を生かし、AI-SCHOLARにも参画。 AI-SCHOLARでは記事の査読、業務の効率化、新規事業の立案も担当。 株式会社wevnalではchatbotのAI対話システムや レコメンド技術・FAQシステムの開発に従事。 また現在は主に大規模言語モデル( LLM)の開発に従事。 またcvpaper.challenge(産総研:片岡様企画)では、 AI研究のサポートを行なっている。 cvpaper.challenge wevnal AI-SCHOLAR
5 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 2.取り組んでいるサービス紹介 -
BOTCHAN - 5
6 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -
BOTCHAN - 理解・促進 継続 認知・集客 購入・申込 解約 商品ページで 90 %以上が離脱 決済フォームで 70 %以上が離脱 初回購入者の 70 %以上が離脱 広告掲載費は 10年で 5 倍に高騰 CPC カゴ落ち率 直帰率 F2転換率 解約防止率 解約希望者の 90%以上が解約 LP離脱ユーザーを LINEに囲いCV獲得 BOTCHAN Payment/EFO BOTCHAN Engagement BOTCHAN Relation BOTCHAN Keeper BOTCHAN AI ChatGPT搭載でオンライン接客オートメーション フォーム離脱を防ぎ CVR・顧客単価を 向上させる 購買データ×LINEで ステップ配信最適化し LTV向上させる 解約希望ユーザーに寄り添 い継続率を向上させる オンライン上の顧客 コンシェルジュ ボット
7 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -
BOTCHAN AI - 24時間365日ユーザーが困った時に、 チャットのような手軽な窓口で即時対応して、解決するコンシェルジュAIが欲しい “ “ 企業の売り上げや評価を良くしたり,困っている時に助けるには... ユーザーが知りたい事に特化した人をオンライン上に休みなく(24時間365日)働かせれば良い(極論) 膨大なコストがかかる AIにやらせればいいやん
8 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -
BOTCHAN AI - https://www.youtube.com/watch?v=jZQqEEsZ4fc
9 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 3.私が考える "LLMOps"とは
9
10 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは
❏ COps (Cooking+Ops):「最高の料理を最速で考案し,提供する手法」が機械学習 (ML)の世界での「MLOps」 ❏ MLOps・・・MLをDevOpsの原則をベースに, MLのプロセス全体を効率化し,最適化する手法や概念のこと (MicrosoftのMLOps). ①探索的データ解析 (EDA) : 原材料の選び方 = データを調べて、どの情報が役立ちそうかを見極める. ②データ準備と特徴量エンジニアリング : 材料をカットしたり、味付け = データを最適な形に整える. ③モデルのトレーニングとチューニング : 料理の火加減や調理方法の調整 = モデルを訓練して最も良い結果を出すように調整 ④モデルのレビューとガバナンス : 実食 = 作ったモデルが良好に機能するかどうかを確認. ⑤モデル推論とサービング : 実際に料理をお客さんに提供 = モデルを実環境にデプロイ ⑥モデルのデプロイと監視 : お客さんの反応を見る = モデルが正しく機能しているか、問題がないかを監視 ⑦モデルの再訓練自動化 : お客さんのフィードバックを用いて改善 = モデルの性能が下がった時に自動で再訓練 MLOpsの目標 ・料理をより早く、より美味しくすることと同様に、モデルの開発速度を上げること ・料理を提供する時間を短縮するように、モデルを迅速にデプロイすること ・最高の品質の料理を提供するように、品質保証とトラック
11 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは
探索的データ解析 (EDA) データ準備と 特徴量エンジニアリング モデルのトレーニングと チューニング モデルのレビューと ガバナンス モデル推論と サービング モデルの デプロイと監視 モデルの 再訓練自動化 ❏ LLMOps・・・大規模言語モデル (LLM)をDevOpsの原則をベースに, LLMのプロセス全体を効率化し,最適化する手法や概念の こと ① ① ② ③ ④ ⑤ ⑥ ⑦ モデルのトレーニングと チューニング ・プロンプトは手探りで現状いい方法は模索中 ・Fine-tuningはまだ出来ない.さらにFine-tuningがPromptに影響を及ぼすことは間違いない. モデルのレビューと ガバナンス ・UI/UX的にRLHF出来ているか?プロンプトもセットに管理されているか. ・モデル固有のリスク(Ex.Hallucinationsや薬機法). ・精度は?→何で評価する? モデルの デプロイと監視 ・リスク発言の割合や悪いコミュニケーションをどのようにトラックするのか?→評価指標は何? ・Prompt Injection 混沌 ① 混沌 混沌 ② 混沌 ③
12 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 4.品質担保の実態 12
13 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 1.
人間の目視による 評価・品質担保 2. LLMによる評価・品質担保 3. 代替指標による評価・品質担保 (UI/UX設計)
14 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -人間の目視による評価・品質担保 -
1. 人間の目視による品質担保 会話を評価するって,昔から研究領域でも人間を答えとしています. 人間が答えでいいのか? 主観(好み)は気にしなくていいのか? 評価者のバックグラウンドが出てくる GPT4が会話を評価した場合と人間が会話を評価した場合で差分が出ます. AIが正しいのか? 人間が正しいのか? https://arxiv.org/abs/2308.04592 到底ベストな方法ではない(問題だらけ) LLMOps観点で見ていくと...
1. 2. LLMによる評価・品質担保 →大規模な言語モデル自身の出力を改良するために,モデルの能力を活用する技術への関心が高まっている ・会話自体を単純に評価させる →精度は低い=人間と比較して. ・会話に付随する各種ログを一緒に in-contextしてあげる→精度は高い ・上流工程なのか下流工程なのかで分けて評価させていく予定 15
LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -LLMによる評価・品質担保 - https://arxiv.org/abs/2308.04592 この方法が現在一番正攻法な気がする LLMOps観点で見ていくと... Prompt Flowもこの方向性になりそう
1. 2. 3. 代替指標による評価・品質担保 (UI/UX設計) ・LLMを評価しようとするから困難になる. LLMの回答精度を間接的に見れるものはないか? →売り上げをあげる →LLM経由のCVを評価指標と置いてしまう.
プロンプトでも会話評価でも, CVしたかどうかで判定 A-Prompt/B-Promptによる売り上げ向上の CVによるABテスト 16 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -代替指標による評価 (UI/UX設計)- どれだけのプロンプトの評価を LLMに返せるかが鍵 LLMOps観点で見ていくと... モデルの 再訓練自動化 ⑦ https://arxiv.org/abs/2201.06009
17 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 5.まとめ 17
18 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 まとめ ❏
LLMの品質担保におけるベストプラクティスはまだ現在ないと考えていい 大規模な言語モデル自身の出力を改良するために,モデルの能力を活用する技術への関心が高まっている ❏ Fine-tuning(Pre-training改良)でさらに混沌となる 現在は解放されていないから無視できている変数とも言える. 年内くらいに解放されると言われている. ❏ LLMOpsを実現するために重要なのは評価指標 人が絡む時点で安定しない.代替評価指標が求められる.
http://wevnal.co.jp/