Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM-in-Production-Meetup-1-LLMOps-LLMの評価品質担保-_2...

Eno
August 30, 2023

 LLM-in-Production-Meetup-1-LLMOps-LLMの評価品質担保-_2023.08.18

Eno

August 30, 2023
Tweet

Other Decks in Technology

Transcript

  1. 1 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 2023.08.18(金) LLM in

    Production Meetup #1 LLMOps -LLMの評価・品質担保 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア兼 AI Lab スペシャリスト 榎本 和馬 (@x1ujmtamtpjt)
  2. 4 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 自己紹介 榎本

    和馬(Enomoto Kazuma) 株式会社wevnal BX事業部BOTCHAN AIチーム AIエンジニア 兼 AI Lab スペシャリスト AIx医療を専門に研究、個人では企業との案件に従事し、 AIを使った幅広い技術の開発と立案に携わる。 言語や音声といった幅広い AIの知識を生かし、AI-SCHOLARにも参画。 AI-SCHOLARでは記事の査読、業務の効率化、新規事業の立案も担当。 株式会社wevnalではchatbotのAI対話システムや レコメンド技術・FAQシステムの開発に従事。 また現在は主に大規模言語モデル( LLM)の開発に従事。 またcvpaper.challenge(産総研:片岡様企画)では、 AI研究のサポートを行なっている。 cvpaper.challenge wevnal AI-SCHOLAR
  3. 6 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -

    BOTCHAN - 理解・促進 継続 認知・集客 購入・申込 解約 商品ページで 90 %以上が離脱 決済フォームで 70 %以上が離脱 初回購入者の 70 %以上が離脱 広告掲載費は 10年で 5 倍に高騰 CPC カゴ落ち率 直帰率 F2転換率 解約防止率 解約希望者の 90%以上が解約 LP離脱ユーザーを LINEに囲いCV獲得 BOTCHAN Payment/EFO BOTCHAN Engagement BOTCHAN Relation BOTCHAN Keeper BOTCHAN AI ChatGPT搭載でオンライン接客オートメーション フォーム離脱を防ぎ CVR・顧客単価を 向上させる 購買データ×LINEで ステップ配信最適化し LTV向上させる 解約希望ユーザーに寄り添 い継続率を向上させる オンライン上の顧客 コンシェルジュ ボット
  4. 7 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 取り組んでいるサービス紹介 -

    BOTCHAN AI - 24時間365日ユーザーが困った時に、 チャットのような手軽な窓口で即時対応して、解決するコンシェルジュAIが欲しい “ “ 企業の売り上げや評価を良くしたり,困っている時に助けるには... ユーザーが知りたい事に特化した人をオンライン上に休みなく(24時間365日)働かせれば良い(極論) 膨大なコストがかかる AIにやらせればいいやん
  5. 10 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは

    ❏ COps (Cooking+Ops):「最高の料理を最速で考案し,提供する手法」が機械学習 (ML)の世界での「MLOps」 ❏ MLOps・・・MLをDevOpsの原則をベースに, MLのプロセス全体を効率化し,最適化する手法や概念のこと (MicrosoftのMLOps). ①探索的データ解析 (EDA) : 原材料の選び方 = データを調べて、どの情報が役立ちそうかを見極める. ②データ準備と特徴量エンジニアリング : 材料をカットしたり、味付け = データを最適な形に整える. ③モデルのトレーニングとチューニング : 料理の火加減や調理方法の調整 = モデルを訓練して最も良い結果を出すように調整 ④モデルのレビューとガバナンス : 実食 = 作ったモデルが良好に機能するかどうかを確認. ⑤モデル推論とサービング : 実際に料理をお客さんに提供 = モデルを実環境にデプロイ ⑥モデルのデプロイと監視 : お客さんの反応を見る = モデルが正しく機能しているか、問題がないかを監視 ⑦モデルの再訓練自動化 : お客さんのフィードバックを用いて改善 = モデルの性能が下がった時に自動で再訓練 MLOpsの目標 ・料理をより早く、より美味しくすることと同様に、モデルの開発速度を上げること ・料理を提供する時間を短縮するように、モデルを迅速にデプロイすること ・最高の品質の料理を提供するように、品質保証とトラック
  6. 11 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 私が考える "LLMOps"とは

    探索的データ解析 (EDA) データ準備と 特徴量エンジニアリング モデルのトレーニングと チューニング モデルのレビューと ガバナンス モデル推論と サービング モデルの デプロイと監視 モデルの 再訓練自動化 ❏ LLMOps・・・大規模言語モデル (LLM)をDevOpsの原則をベースに, LLMのプロセス全体を効率化し,最適化する手法や概念の こと ① ① ② ③ ④ ⑤ ⑥ ⑦ モデルのトレーニングと チューニング ・プロンプトは手探りで現状いい方法は模索中 ・Fine-tuningはまだ出来ない.さらにFine-tuningがPromptに影響を及ぼすことは間違いない. モデルのレビューと ガバナンス ・UI/UX的にRLHF出来ているか?プロンプトもセットに管理されているか. ・モデル固有のリスク(Ex.Hallucinationsや薬機法). ・精度は?→何で評価する? モデルの デプロイと監視 ・リスク発言の割合や悪いコミュニケーションをどのようにトラックするのか?→評価指標は何? ・Prompt Injection 混沌 ① 混沌 混沌 ② 混沌 ③
  7. 13 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 1.

    人間の目視による 評価・品質担保 2. LLMによる評価・品質担保 3. 代替指標による評価・品質担保 (UI/UX設計)
  8. 14 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -人間の目視による評価・品質担保 -

    1. 人間の目視による品質担保 会話を評価するって,昔から研究領域でも人間を答えとしています.  人間が答えでいいのか?  主観(好み)は気にしなくていいのか?  評価者のバックグラウンドが出てくる GPT4が会話を評価した場合と人間が会話を評価した場合で差分が出ます.  AIが正しいのか?  人間が正しいのか? https://arxiv.org/abs/2308.04592 到底ベストな方法ではない(問題だらけ) LLMOps観点で見ていくと...
  9. 1. 2. 3. 代替指標による評価・品質担保 (UI/UX設計) ・LLMを評価しようとするから困難になる. LLMの回答精度を間接的に見れるものはないか?  →売り上げをあげる →LLM経由のCVを評価指標と置いてしまう.  

     プロンプトでも会話評価でも, CVしたかどうかで判定  A-Prompt/B-Promptによる売り上げ向上の CVによるABテスト 16 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 品質担保の実態 -代替指標による評価 (UI/UX設計)- どれだけのプロンプトの評価を LLMに返せるかが鍵 LLMOps観点で見ていくと... モデルの 再訓練自動化 ⑦ https://arxiv.org/abs/2201.06009
  10. 18 LLM in Production Meetup #1 LLMOps -LLMの評価・品質担保 まとめ ❏

    LLMの品質担保におけるベストプラクティスはまだ現在ないと考えていい 大規模な言語モデル自身の出力を改良するために,モデルの能力を活用する技術への関心が高まっている ❏ Fine-tuning(Pre-training改良)でさらに混沌となる 現在は解放されていないから無視できている変数とも言える. 年内くらいに解放されると言われている. ❏ LLMOpsを実現するために重要なのは評価指標 人が絡む時点で安定しない.代替評価指標が求められる.