Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cloud Next '23 から考える LLMOps

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for Asei Sugiyama Asei Sugiyama
November 09, 2023

Cloud Next '23 から考える LLMOps

Google Cloud Next '23 Recap - Warming up for Tokyo に登壇した際の資料です https://cyberagent.connpass.com/event/300976/

LLM を運用する上での課題と、Cloud Next '23 で確認してきた最新の取組状況について共有しています。

Avatar for Asei Sugiyama

Asei Sugiyama

November 09, 2023
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google

    Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著
  2. RAG (1/2) 検索と LLM を組み合わせるアプ リケーションのアーキテクチャ 検索結果をユーザーの問い合わ せに加えて LLM にわたす

    「学習せずに知識をモデルに与 える」という発明 Google Cloud で生成 AI アプリケーションを作ろう!パート 7 : 複数サービスの組み合わ せ技で実用的なアプリを作る https://zenn.dev/google_cloud_jp/articles/generative- retrieval-augmented-generation
  3. データの用意 データの用意が非常に大変 大規模な言語資源: 地球上のすべての 言語資源を集めている 高品質な対話データ: 基本的には Q&A で、数千対話程度が必要、一問 一答形式ではダメ

    高品質な評価用データ: 多様なタスク を評価するためのデータが必要 ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編 https://zenn.dev/elyza/articles/5e7d9373c32a98
  4. モデルのサービング 自分でモデルをサービング するのはとても大変 学習用の GPU と推論用の GPU は大きく特性が違う (VRAM の量やレイテンシ、

    価格) LLM は推論用の GPU に乗 らない GPU platforms | Compute Engine Documentation | Google Cloud https://cloud.google.com/compute/docs/gpus#general_comparison_chart
  5. モデルのサービング API の利用が第一選択 計算資源の利用量や内部の処理 時間は監視の対象外 応答時間やエラー、課金額を監 視することになりそう API や SDK

    は頻繁に更新されて おり、Stable とは言い難い v1.0.0 Beta · openai/openai-python · Discussion #631 · GitHub https://github.com/openai/openai-python/discussions/631#discussioncomment- 7191589
  6. 「LLM に対応している」 データベースであれば、ベクトルデータベースに対応していると誰もが 言う (e.g. PostgreSQL, MongoDB) モニタリング基盤であれば、LLM の API

    の監視に対応していると誰もが 言う 一般の SaaS ツールでも生成モデルに対応していると誰もが言う 評価について、ベストプラクティスやツールを提供しているところはほ ぼない