Slide 1

Slide 1 text

1 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 2023.08.18(金) LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア兼 AI Lab スペシャリスト 榎本 和馬 (@x1ujmtamtpjt)

Slide 2

Slide 2 text

2 1.自己紹介 2.取り組んでいるサービス紹介: BOTCHAN 3.私が考える "LLMOps"とは 4.品質担保の実態 5.まとめ 目次

Slide 3

Slide 3 text

3 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 1.自己紹介 3

Slide 4

Slide 4 text

4 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 自己紹介 榎本 和馬(Enomoto Kazuma) 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア 兼 AI Lab スペシャリスト AIx医療を専門に研究、個人では企業との案件に従事し、 AIを使った幅広い技術の開発と立案に携わる。 言語や音声といった幅広い AIの知識を生かし、AI-SCHOLARにも参画。 AI-SCHOLARでは記事の査読、業務の効率化、新規事業の立案も担当。 株式会社wevnalではchatbotのAI対話システムや レコメンド技術・FAQシステムの開発に従事。 また現在は主に大規模言語モデル( LLM)の開発に従事。 またcvpaper.challenge(産総研:片岡様企画)では、 AI研究のサポートを行なっている。 cvpaper.challenge wevnal AI-SCHOLAR

Slide 5

Slide 5 text

5 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 2.取り組んでいるサービス紹介 - BOTCHAN - 5

Slide 6

Slide 6 text

6 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 - BOTCHAN - 理解・促進 継続 認知・集客 購入・申込 解約 商品ページで 90 %以上が離脱 決済フォームで 70 %以上が離脱 初回購入者の 70 %以上が離脱 広告掲載費は 10年で 5 倍に高騰 CPC カゴ落ち率 直帰率 F2転換率 解約防止率 解約希望者の 90%以上が解約 LP離脱ユーザーを LINEに囲いCV獲得 BOTCHAN Payment/EFO BOTCHAN Engagement BOTCHAN Relation BOTCHAN Keeper BOTCHAN AI ChatGPT搭載でオンライン接客オートメーション フォーム離脱を防ぎ CVR・顧客単価を 向上させる 購買データ×LINEで ステップ配信最適化し LTV向上させる 解約希望ユーザーに寄り添 い継続率を向上させる オンライン上の顧客 コンシェルジュ ボット

Slide 7

Slide 7 text

7 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 - BOTCHAN AI - 24時間365日ユーザーが困った時に、 チャットのような手軽な窓口で即時対応して、解決するコンシェルジュAIが欲しい “ “ 企業の売り上げや評価を良くしたり,困っている時に助けるには... ユーザーが知りたい事に特化した人をオンライン上に休みなく(24時間365日)働かせれば良い(極論) 膨大なコストがかかる AIにやらせればいいやん

Slide 8

Slide 8 text

8 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 - BOTCHAN AI - https://www.youtube.com/watch?v=jZQqEEsZ4fc

Slide 9

Slide 9 text

9 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 3.私が考える "LLMOps"とは 9

Slide 10

Slide 10 text

10 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは ❏ COps (Cooking+Ops):「最高の料理を最速で考案し,提供する手法」が機械学習 (ML)の世界での「MLOps」 ❏ MLOps・・・MLをDevOpsの原則をベースに, MLのプロセス全体を効率化し,最適化する手法や概念のこと (MicrosoftのMLOps). ①探索的データ解析 (EDA) : 原材料の選び方 = データを調べて、どの情報が役立ちそうかを見極める. ②データ準備と特徴量エンジニアリング : 材料をカットしたり、味付け = データを最適な形に整える. ③モデルのトレーニングとチューニング : 料理の火加減や調理方法の調整 = モデルを訓練して最も良い結果を出すように調整 ④モデルのレビューとガバナンス : 実食 = 作ったモデルが良好に機能するかどうかを確認. ⑤モデル推論とサービング : 実際に料理をお客さんに提供 = モデルを実環境にデプロイ ⑥モデルのデプロイと監視 : お客さんの反応を見る = モデルが正しく機能しているか、問題がないかを監視 ⑦モデルの再訓練自動化 : お客さんのフィードバックを用いて改善 = モデルの性能が下がった時に自動で再訓練 MLOpsの目標 ・料理をより早く、より美味しくすることと同様に、モデルの開発速度を上げること ・料理を提供する時間を短縮するように、モデルを迅速にデプロイすること ・最高の品質の料理を提供するように、品質保証とトラック

Slide 11

Slide 11 text

11 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは 探索的データ解析 (EDA) データ準備と 特徴量エンジニアリング モデルのトレーニングと チューニング モデルのレビューと ガバナンス モデル推論と サービング モデルの デプロイと監視 モデルの 再訓練自動化 ❏ LLMOps・・・大規模言語モデル (LLM)をDevOpsの原則をベースに, LLMのプロセス全体を効率化し,最適化する手法や概念の こと ① ① ② ③ ④ ⑤ ⑥ ⑦ モデルのトレーニングと チューニング ・プロンプトは手探りで現状いい方法は模索中 ・Fine-tuningはまだ出来ない.さらにFine-tuningがPromptに影響を及ぼすことは間違いない. モデルのレビューと ガバナンス ・UI/UX的にRLHF出来ているか?プロンプトもセットに管理されているか. ・モデル固有のリスク(Ex.Hallucinationsや薬機法). ・精度は?→何で評価する? モデルの デプロイと監視 ・リスク発言の割合や悪いコミュニケーションをどのようにトラックするのか?→評価指標は何? ・Prompt Injection 混沌 ① 混沌 混沌 ② 混沌 ③

Slide 12

Slide 12 text

12 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 4.品質担保の実態 12

Slide 13

Slide 13 text

13 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 1. 人間の目視による 評価・品質担保 2. LLMによる評価・品質担保 3. 代替指標による評価・品質担保 (UI/UX設計)

Slide 14

Slide 14 text

14 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -人間の目視による評価・品質担保 - 1. 人間の目視による品質担保 会話を評価するって,昔から研究領域でも人間を答えとしています.  人間が答えでいいのか?  主観(好み)は気にしなくていいのか?  評価者のバックグラウンドが出てくる GPT4が会話を評価した場合と人間が会話を評価した場合で差分が出ます.  AIが正しいのか?  人間が正しいのか? https://arxiv.org/abs/2308.04592 到底ベストな方法ではない(問題だらけ) LLMOps観点で見ていくと...

Slide 15

Slide 15 text

1. 2. LLMによる評価・品質担保 →大規模な言語モデル自身の出力を改良するために,モデルの能力を活用する技術への関心が高まっている ・会話自体を単純に評価させる →精度は低い=人間と比較して. ・会話に付随する各種ログを一緒に in-contextしてあげる→精度は高い ・上流工程なのか下流工程なのかで分けて評価させていく予定 15 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -LLMによる評価・品質担保 - https://arxiv.org/abs/2308.04592 この方法が現在一番正攻法な気がする LLMOps観点で見ていくと... Prompt Flowもこの方向性になりそう

Slide 16

Slide 16 text

1. 2. 3. 代替指標による評価・品質担保 (UI/UX設計) ・LLMを評価しようとするから困難になる. LLMの回答精度を間接的に見れるものはないか?  →売り上げをあげる →LLM経由のCVを評価指標と置いてしまう.    プロンプトでも会話評価でも, CVしたかどうかで判定  A-Prompt/B-Promptによる売り上げ向上の CVによるABテスト 16 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -代替指標による評価 (UI/UX設計)- どれだけのプロンプトの評価を LLMに返せるかが鍵 LLMOps観点で見ていくと... モデルの 再訓練自動化 ⑦ https://arxiv.org/abs/2201.06009

Slide 17

Slide 17 text

17 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 5.まとめ 17

Slide 18

Slide 18 text

18 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 まとめ ❏ LLMの品質担保におけるベストプラクティスはまだ現在ないと考えていい 大規模な言語モデル自身の出力を改良するために,モデルの能力を活用する技術への関心が高まっている ❏ Fine-tuning(Pre-training改良)でさらに混沌となる 現在は解放されていないから無視できている変数とも言える. 年内くらいに解放されると言われている. ❏ LLMOpsを実現するために重要なのは評価指標 人が絡む時点で安定しない.代替評価指標が求められる.

Slide 19

Slide 19 text

http://wevnal.co.jp/