Slide 1

Slide 1 text

MLOps の現場から Asei Sugiyama

Slide 2

Slide 2 text

自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG mlops community 運営 機械学習図鑑 事例でわかる MLOps 共著 決闘者 @ マスターデュエル

Slide 3

Slide 3 text

TOC MLOps とは <- MLOps の技術・プロセス・文化 LLMOps MLOps の今後

Slide 4

Slide 4 text

MLOps とは MLOps の登場 MLOps に至るまで TPS DevOps MLOps 組織における活用

Slide 5

Slide 5 text

MLOps の登場 (1/2) Google の開催したイベン ト Cloud Next 2018 で有名 になった概念 MLOps は "DevOps for ML" として導入されている

Slide 6

Slide 6 text

MLOps の登場 (2/2) 機械学習パイプラインに よる自動化はトピックの ひとつ 品質や組織論などを含 む、広範な概念

Slide 7

Slide 7 text

MLOps に至るまで MLOps は DevOps (SRE) に源流がある DevOps はリーンやアジャ イルに源流がある それらの源流は TPS (トヨ タ生産方式) アジャイルとDevOpsの品質保証と信頼性 - Test Automation 図2, 図3 https://kokotatata.hatenablog.com/entry/2020/06/01/163652

Slide 8

Slide 8 text

TPS (トヨタ生産方式) TPS とは TPS の目的 理想のチーム カイゼン 問題解決

Slide 9

Slide 9 text

TPS とは ムダの徹底的排除の思想 と、つくり方の合理性を 追い求め、生産全般をそ の思想で貫き、システム 化した生産方式 自働化 ジャスト・イン・タイム トヨタ生産方式 | 経営理念 | 企業情報 | トヨタ自動車株式会社 公式企業サイ ト https://global.toyota/jp/company/vision-and-philosophy/production- system/

Slide 10

Slide 10 text

TPS の目的 TPS は効率化と捉えられがち 「誰かの仕事を楽にしたい」 トヨタ春交渉2021 #3  「トヨタ生産方式」 「カーボンニュートラル」 「SDGs」一人ひとりに 何ができるか|トヨタイムズ - YouTube https://youtu.be/ze0hUCMS-aI

Slide 11

Slide 11 text

理想のチーム トヨタ鞍ヶ池記念館 ラジオラマ(4)『G1 型トラ ックの故障修理活動』 昭和11年(1936)4月 春爛漫の昼下がり 職務を超えて全員でお客 様のためにできることを やっている図 FAIRLADY Z fan : トヨタ鞍ヶ池記念館に行きました。 http://blog.livedoor.jp/fairlady3233/archives/1934986.html

Slide 12

Slide 12 text

カイゼン 「もっといいクルマをつ くろうよ」 「1 にユーザー、2 にディ ーラー、3 にメーカー」 売れる車と言わなかった トヨタ企業サイト|トヨタ自動車75年史|第3部 第5章 第2節|第1項 激動す https://www.toyota.co.jp/jpn/company/history/75years/text/leaping_forward_a

Slide 13

Slide 13 text

問題解決 PDCA サイクルを回すため のフレームワーク データの収集と KPI の設 定を行い、対策前後での 比較で効果測定を行う データサイエンスのフレ ームワークに等価 第5回:新作研修「問題解決研修 基礎編 ~8ステップと考え方~」は「風土 改革」 ・ 「人財育成」に直結する! | 社員・企業研修のトヨタエンタプライズ https://kensyu.toyota-ep.co.jp/column/4880/

Slide 14

Slide 14 text

DevOps Dev vs Ops (2000 年代) Dev Ops 自動化 継続的改善

Slide 15

Slide 15 text

Dev vs Ops (2000 年代) クラウドサービスが生まれ始めた 時代 (Amazon S3 は 2006 年) Dev: 顧客に新しい価値を早く提供 したい、多少不安定になるかもし れないが運用が頑張れば良い Ops: 顧客に安定的に価値を提供し たい、新機能の追加で不安定にな ることは受け入れられない 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr

Slide 16

Slide 16 text

Dev Ops Dev vs Ops から Dev & Ops に移行 しようという提案 (2008) 「顧客に価値をすばやく安定的に 提供しよう」という提案 この提案に基づくのが DevOps DevOps: Dev と Ops の協調 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr

Slide 17

Slide 17 text

自動化: IaC (Infrastructure as Code) インフラをコードで管理 アプリケーションだけで はなく、インフラもコー ドと設定ファイルでバー ジョン管理される 自動化が進む結果、ほぼ すべてがコードと設定フ ァイルに Using Recommendations for Infrastructure as Code https://cloud.google.com/recommender/docs/tutorial-iac

Slide 18

Slide 18 text

自動化: CI/CD CI (Continuous Integration) コードをリポジトリに頻 繁にコミットする手法 CD (Continuous Deployment) 自動化によりサービスを 更新しデプロイする手法 GitHub Actions を使った継続的デプロイについて - GitHub Docs https://docs.github.com/ja/actions/about-github-actions/about-continuous- deployment-with-github-actions Google Cloud 上での DevOps と CI / CD について | Google Cloud 公式ブロ グ https://cloud.google.com/blog/ja/topics/developers-practitioners/devops- and-cicd-google-cloud-explained?hl=ja

Slide 19

Slide 19 text

継続的な改善 フィードバッ クサイクルに よる改善 単一のチーム で開発と運用 を行う Explore Continuous Improvement - Training | Microsoft Learn https://learn.microsoft.com/en- us/training/modules/characterize-devops- continous-collaboration-improvement/3-explore- continuous-improvement

Slide 20

Slide 20 text

MLOps 機械学習システムの開発における課題 MLOps CT (継続的学習)

Slide 21

Slide 21 text

機械学習システムの開 発における課題 前処理が難しい モデルの更新などの運用 が煩雑 機械学習チームの悲劇 西田 佳史, 遠藤 侑介, 有賀 康顕 著 「n 月刊ラムダノート Vol.1, No.1(2019)」 ラムダノート株式会社 2019年 https://eiyo21.com/book/9784789554596/

Slide 22

Slide 22 text

機械学習チームの悲劇 機械学習専門のチームが誕生 機械学習モデルを作成し、PoC で成果を確認 モデルをプロダクトに組み込むためのタスクが作成される モデルをプロダクトに組み込む作業の見積もりが大きくなる 典型的な機能開発のほうが小さな見積もりになり、優先度が上がる プロダクトに組み込まれないため機械学習専門のチームの成果が出 ない 投資対象を見直すことになりチーム解散

Slide 23

Slide 23 text

MLOps 機械学習の成果をスケールさせる ためのさまざまな取り組み そもそも AI は育てるもの (という お題目で PoC を乗り切った方々も 多いはず) AI を育てる活動 (Waymo など)

Slide 24

Slide 24 text

CT (継続的な 訓練) MLOps にお ける継続的な 改善の実装 モデルを継続 的に訓練して 改善 MLOps: Continuous delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops- continuous-delivery-and-automation-pipelines-in- machine-learning

Slide 25

Slide 25 text

組織における活用: Amazon Flywheel Amazon の成長を支える経 営戦略 サービスにおけるリコメ ンドの重要性も同時に示 している 5 Lakh Amazon sellers... and counting | Seller Blog https://sell.amazon.in/mr/seller-blog/5-lakh-amazon-sellers-and-counting? mons_sel_locale=mr_IN

Slide 26

Slide 26 text

How Google does machine learning 各フェーズを掘り下げる (How Google Does Machine Learning 日本語版) - Coursera https://coursera.org/share/faf9215a37a5a12c0e3653225f7020d6

Slide 27

Slide 27 text

機械学習までの ステップ 1. 小さく始める 2. 標準化 3. システム化 4. データ分析 5. 機械学習 機械学習とビジネス プロセス (How Google Does Machine Learning 日本語版) - Coursera https://www.coursera.org/learn/google-machine-learning- jp/lecture/G8qKf/ji-jie-xue-xi-tobizinesu-purosesu

Slide 28

Slide 28 text

Amazon も最初からうまくはいかなかった Ron Kohavi, Diane Tang, Ya Xu 著 大杉 直也 訳 「A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは」 KADOKAWA 2021年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 29

Slide 29 text

まとめ MLOps は機械学習の成果をスケールさせるためのさまざまな取り 組み MLOps は DevOps を ML に拡張したものであり、源流は TPS TPS は仕事を楽にすることが重要であり、データに基づいて PDCA サイクルを回すことでカイゼンを実施している DevOps はすばやい開発とフィードバックによる継続的な改善が重 要であり、そのために CI/CD パイプラインを構築し自動化している MLOps はフィードバックループを継続的な訓練により実現してお り、そのために機械学習パイプラインを構築し自動化している

Slide 30

Slide 30 text

TOC MLOps とは MLOps の技術・プロセス・文化 <- LLMOps MLOps の今後

Slide 31

Slide 31 text

MLOps の技術・プロセス・文化 Your system is your system 事例でわかる MLOps 技術 プロセス 文化 まとめ

Slide 32

Slide 32 text

Your System is Your System 機械学習の活用や生じる課題の背景はさまざまに異なる 具体的なベストプラクティスはそのまま自組織には適用できない Google のシニアエンジニア曰く「ベストプラクティスを俺に聞く な、お前のシステムのことはお前のほうがよく知っている」 一般的な原則 + 理解するための事例が重要

Slide 33

Slide 33 text

事例でわかる MLOps 技術・プロセス・文化 活用フェーズごとに整理 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 34

Slide 34 text

技術 機械学習パイプライン 推論システム 技術選定 実行環境とアクセラレーター モニタリング データの品質管理 コードの品質管理

Slide 35

Slide 35 text

機械学習パイプライン Akshay Naresh Modi and Chiu Yuen Koo and Chuan Yu Foo and Clemens Mewald and Denis M. Baylor and Eric Breck and Heng-Tze Cheng and Jarek Wilkiewicz and Levent Koc and Lukasz Lew and Martin A. Zinkevich and Martin Wicke and Mustafa Ispir and Neoklis Polyzotis and Noah Fiedel and Salem Elie Haykal and Steven Whang and Sudip Roy and Sukriti Ramesh and Vihan Jain and Xin Zhang and Zakaria Haque TFX: A TensorFlow-Based Production- Scale Machine Learning Platform, KDD 2017 (2017) https://research.google/pubs/tfx-a-tensorflow-based-production-scale-machine-learning-platform/

Slide 36

Slide 36 text

推論システム 訓練済みの機械学習モデ ルを用いて推論する 訓練時とは異なり、一般 的に高い可用性が必要 バッチ推論が第一選択 リアルタイム推論は技術 的な難易度が高くなる 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 37

Slide 37 text

事例. DeNA バッチ推論 (図 4.3) リアルタイム推論 (図 4.5) 技術的には上のほうが実 現しやすい リアルタイム推論のほう が実現できる価値が高い ことがわかった場合に実 装を選択 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 38

Slide 38 text

事例. CAM マネージド・ サービスで機 械学習基盤を 構築した例 メンバー 2 名 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわか るMLOps 機械学習の成果をスケールさせる処方 箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 39

Slide 39 text

技術選定 アーキテクチャの選択は 重大な決断 さまざまな観点で検討 GPU などのハードウェア 利用する技術に対する経 験の深さ (組織内・外) 実現すべき価値 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 40

Slide 40 text

実行環境とアクセラレーター 機械学習モデルによっては 訓練・推論時に GPU などの アクセラレーターが必要 利用すると、スループットや レイテンシーを大きく改善 できる可能性がある 利用のために追加で必要に なるプロセスには注意 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果をス ケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 41

Slide 41 text

事例. チャットボット 大規模な訓練・推論環境 低いレイテンシーの実現 短期間での開発 推論に Inferentia を採用 し、規模と低いレイテン シーを実現 それ以外は慣れた技術を 用いて短期間で開発 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 42

Slide 42 text

モニタリング エラーが発生しないまま 振る舞いが異常になるケ ースがある 連絡ミスのような単純な 原因がほとんど 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html Daniel Papasian and Todd Underwood, How ML Breaks: A Decade of Outages for One Large ML Pipeline, USENIX Association 2020 https://www.usenix.org/conference/opml20/presentation/papasian

Slide 43

Slide 43 text

データの品質管理 バイアスはデータの収集 過程においても生じる 与信審査では融資した人 だけを対象としてはダメ アノテーションは高度に 専門的な作業で労力がか かる 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html Too Good to Be True: Bots and Bad Data From Mechanical Turk - Margaret A. Webb, June P. Tangney, 2022 https://journals.sagepub.com/doi/10.1177/17456916221120027

Slide 44

Slide 44 text

事例. GO 株式会社 DRIVE CHART におけるデータ の品質管理の取り組み エッジデバイスで生じる大量 のデータから、レアなイベン トのデータをピックアップ クラウドへの通信量を抑える 取り組みも 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果をスケ ールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 45

Slide 45 text

コードの品質管理 異なるロールのメンバー が単一のコードベースで 協業するのは困難 ノートブックの利用、環 境構築の再現性、暗黙的 なノウハウで課題が発生 ロールごと別環境もアリ 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html たった3人で運用するド コモを支える機械学習基盤の作り方 ー Kubernates × Airflow × DataRobot を使ったMLOpsパイプライン ー - ENGINEERING BLOG ドコモ開発者ブログ https://nttdocomo-developers.jp/entry/202212191200_2

Slide 46

Slide 46 text

プロセス 導入フローと PoC 素早い実験を繰り返す 多様な利害関係者との協業 ビジネスの意思決定に役立つモニタリング

Slide 47

Slide 47 text

導入フローと PoC 機械学習プロジェクトは 不確実性への対応が重要 目標を明確にし、小規模 な取り組みから慎重に規 模を大きくしていく 求められる品質が徐々に 上がることにも注意 Barry W. Boehm, Software Engineering Economics, Prentice Hall, 1981 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 48

Slide 48 text

事例. AWS ML Enablement Workshop データサイエンスの活用 機会を創出するためのワ ークショップ 短期間で成果を確認する ための方法論 GitHub で公開されている GitHub - aws-samples/aws-ml-enablement-workshop: 組織横断的にチーム を組成し、機械学習による成長サイクルを実現する計画を立てるワークショ ップ https://github.com/aws-samples/aws-ml-enablement-workshop

Slide 49

Slide 49 text

素早い実験を繰り返す 市場や顧客のニーズは変 わり続ける 常に実験を行い成果の確 認が必要 実験をデザインし、正し く効果測定を行う 実験しやすい環境を整備 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 50

Slide 50 text

多様な利害関係者との協業 機械学習システムの利害関係 者は多岐にわたる チーム内だけではなく、経営 層や PdM、法務・知財関係者 などと適切なコミュニケーシ ョンが必要 期待値コントロールの失敗な ど、落とし穴もある 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果をスケ ールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 51

Slide 51 text

ビジネスの意思決定に役立 つモニタリング 一般に、入力されるデー タや期待される出力が時 間とともに変わる モデルの精度の推移の監 視が必要 精度向上が KPI を向上さ せるかの確認も必要 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 52

Slide 52 text

事例. コネヒト株式会社 ML Test Score を用いて機 械学習システムのアセス メントを行った例 実験環境を整備しダッシ ュボードを作成 2 回評価を行い、改善箇所 の検討と改善効果の可視 化を行っている 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 53

Slide 53 text

文化 成果を出しやすい組織と 出しにくい組織がある 成果を出しやすくなる要 因は不明 規模や設立からの期間、 業種は支配的ではない イノベーションへの投 資、学習する文化は重要 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 54

Slide 54 text

事例. 日本経済新聞社 日経イノベーションラボとい う研究開発部署 作業負荷の軽減や新たな顧客 体験の創出のため 将来的な課題を見据えて、新 技術に関する課題を整理し、 先んじて検証 組織的な LLM 活用を後押し 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果をスケ ールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 55

Slide 55 text

事例. サントリー 生成 AI を社内で活用して いる事例 実践により活用のための 知見を得ていった 従来型の機械学習プロジ ェクトも数多く推進 データの品質向上が精度 向上につながった 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 56

Slide 56 text

事例でわかる MLOps: はじめに もしあなたが自分の経験に自信がないにもか かわらず機械学習システムに関わらなければ いけなくなったのなら、たとえばシステム開 発に詳しくないのに開発に携わらなければい けないデータサイエンティストであったり、 機械学習に詳しくないソフトウェアエンジニ アであったりするのなら、あなたは本書が想 定する読者の一人です。 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果をスケールさせる処方箋」 講談社 2024 年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 57

Slide 57 text

まとめ 機械学習システムの置かれた状況は組織ごとに大きく異なり、 MLOps のそれぞれの原則を理解して適用する必要がある MLOps の取り組みを技術・プロセス・文化で整理した 技術面はある程度パターンが見えてきたものの、レイテンシーなど の要件で技術的な複雑さが大きく変わる点に注意が必要 プロセスにおいては複雑性に対する取り組みが重要、小さく始めて 徐々に進めること、幅広い利害関係者との協業が必要なことに注意 文化面は無視できないものの、企業の規模や業種は無関係、学習す る文化は大事

Slide 58

Slide 58 text

TOC MLOps とは MLOps の技術・プロセス・文化 LLMOps <- MLOps の今後

Slide 59

Slide 59 text

LLMOps 既存の LLMOps 既存の LLMOps の問題点 市場調査 LLM の活用における課題 Eval-Centric AI LLMOps の取り組み

Slide 60

Slide 60 text

既存の LLMOps LLM の出現時に LLMOps というドキュメントが出 現した 既存の MLOps のプラクテ ィスを LLM に適用するも の LLMOps: What it is and how it works | Google Cloud https://cloud.google.com/discover/what-is-llmops?hl=en

Slide 61

Slide 61 text

既存の LLMOps の問題点 MLOps は CT (継続的な訓練) を中心とした継続的な改善 LLM の活用においては CT を前提とできないため、フィードバック ループを構成できていない 解決したい課題を明確にしないままに MLOps をベースに定義して しまった

Slide 62

Slide 62 text

市場調査 LLM を活用しているエンジニアにインタビュー (自由形式) 似たような課題・対策を行っていることが見えてきた LLM の活用における課題を再考し、LLMOps を再定義したい

Slide 63

Slide 63 text

LLM の活用における課題 システムの正しい振る舞 いを、誰も明確に記述で きない 品質評価の観点を事前に 列挙することは困難で、 出力から事後的に得られ ることが大半 機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Slide 64

Slide 64 text

Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences Criteria Drift LLM の出力に対する評価基準 が、評価を進めるにつれてユ ーザー自身によって変化また は洗練されていく [2404.12272] Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences https://arxiv.org/abs/2404.12272

Slide 65

Slide 65 text

Eval-Centric AI

Slide 66

Slide 66 text

LLMOps の取り組み Eval-Centric を前提とした LLM の活用のための取り組みを収集 技術・プロセス・文化の観点で整理

Slide 67

Slide 67 text

LLMOps の取り組み: 技術 プロンプトエンジニアリング LLM-as-a-Judge 継続的な評価 RAG オズの魔法使いパターン ユーザーテスト トレース ガードレール プロンプトのバージョン管理

Slide 68

Slide 68 text

プロンプトエンジニアリング 入力文章を調整して、言語モ デルを効率的に使おうとする 手法群 指示文を人が見たときにわか りやすくなるよう、明確に記 述することが基本 Gemini の記事が参考になる CoT (Chain of Thought) などの テクニックもある Gemini から欲しい回答を引き出すプロンプト術|Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e

Slide 69

Slide 69 text

LLM-as-a-Judge プロンプトを用いて LLM に出力の良さを評価させ る手法 新たな評価観点が得られ た場合、その評価観点に 基づく評価方法の手順書 を書くと、その観点に基 づく評価が LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Slide 70

Slide 70 text

LLM-as-a-Judge のための プロンプトの例 新 NISA に関する問い合わ せへの回答評価デモ カットオフを考慮し、そ れ以降の制度との差分を 記述 検出したい適切ではない 回答の例を記述

Slide 71

Slide 71 text

継続的な評価による継続的な改善

Slide 72

Slide 72 text

RAG (Retrieval-Augmented Generation) 検索と LLM を組み合わせ ることで、言語モデルの 持たない外部知識を利用 可能にする 最新知識や専門知識を後 付で与える Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 73

Slide 73 text

Notebook LM & Gemini 検索と生成の分離 参照すべきドキュメント 全体を入力可能な、とて も長いコンテキストウィ ンドウ Gemini 1.5 のロングコンテキストを活かして AI を育てるアプローチ 〜 RAG の限界を軽やかに突破するために https://zenn.dev/google_cloud_jp/articles/598d52341cc56f

Slide 74

Slide 74 text

No content

Slide 75

Slide 75 text

オズの魔法使いパターン (1/2) 人間がシステムの代替を行い、実装する前に評価・検証する方法 ククリさまとは?|SpiralAI https://kukuri-sama.com/about

Slide 76

Slide 76 text

オズの魔法使いパターン (2/2) LLM においては、データがない場合に作成する方法のひとつ ククリさまとは?|SpiralAI https://kukuri-sama.com/about

Slide 77

Slide 77 text

ユーザーテスト VUI (Voice User Interface) のような 対話に基づくアプリケーションで はユーザーテストが有名 LLM が対話を行う場合、ユーザー テストは非常に有効 Cathy Pearl 著 川本 大功 監訳 高橋 信夫 訳 デザイニング・ボイスユーザーインターフェース ― 音声で対話するサービスのためのデザイン原則 オライリージャパン 2018 年

Slide 78

Slide 78 text

トレース RAG や Agent は検索や LLM を組 み合わせて使うため、望ましくな い結果が得られたときにその原因 追及が困難 最終結果を生成するまでの途中で 何が起きているのかを記録し、分 析できるようにする LangSmith や Langfuse は Trace の ための機能を実装している LangSmithによるLLMアプリケーションのトレーシング入門 https://zenn.dev/pharmax/articles/61edc477e4de17

Slide 79

Slide 79 text

ガードレール 望ましくない入出力が含 まれていることを検知す る技術 クラウドサービスでは標 準的についている Amazon Bedrock ではこれ だけを利用することも可 能 https://x.com/mayahjp/status/1855920416361201678

Slide 80

Slide 80 text

プロンプトのバージョン管理と CI プロンプトは長くなりがち (1,000 行程度にもなる) プロンプトはデグレしがち バージョン管理とともに継続的な評価を行い、デグレしていない か、改善しているか評価

Slide 81

Slide 81 text

LLMOps の取り組み: プロセス・文化 事例共有会 計測 学習する文化 セキュリティ Red Teaming AI ガバナンス

Slide 82

Slide 82 text

事例共有会 新しい技術は導入しただ けでは広まらない 事例共有を行い、有効な 事例を展開するのが効果 的 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 83

Slide 83 text

計測 効果測定はかなり大変 コールセンターのように 計測できることもある コード生成のように何を KPI とするのか設計が大変 な例も ChatGPTを活用した対話要約機能の実証実験 | Suntory Wellness TechBlog https://wellness- tech.suntory.co.jp/posts/conversation_summarize_feasibility_study/

Slide 84

Slide 84 text

学習する文化 新しい技術であり、革新 の早い技術なので、専門 的な知識を習得してから 活用するのは困難 利用を通じて技術につい て知識を得ていくほうが 現実的 「やってみなはれ」 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 85

Slide 85 text

セキュリティ OWASP や公的な機関から LLM に関するセキュリテ ィについてのドキュメン トが公開されている 単に利用する場合はかな り考慮事項が減る OWASP Dramatically Expands GenAI Security Guidance with Guides for Handling DeepFakes, Building an Ai Security Center of Excellence, and a Gen AI Security Solutions Guide. - OWASP Top 10 for LLM & Generative AI Security https://genai.owasp.org/2024/10/28/owasp-dramatically-expands- genai-security-guidance-with-guides-for-handling-deepfakes-building-an- ai-security-center-of-excellence-and-a-gen-ai-security-solutions-guide/

Slide 86

Slide 86 text

Red Teaming MLOps では「信頼できる人にシス テムを攻撃してもらえ」と言われ ていたプラクティス 複数の機関から Red Teaming のた めのドキュメントが公開されてい る AIセーフティに関するレッドチーミング手法ガイドの公開 - AISI Japan https://aisi.go.jp/effort/effort_information/240925/

Slide 87

Slide 87 text

AI ガバナンス ステークホルダーに適切な情報を 適切に提供するための体制づくり 複数の機関からドキュメントが公 開されているものの、詳細は未定 義 利用を限定的に認めてから詳細を 検討する組織のほうが活用が進ん でいる (私見) 【AIガバナンス実装WG】 「AIガバナンスの実装状況に関するワーキングペーパー」を公表 | AI Governance Association https://www.ai-governance.jp/blog/implement-wp-240807

Slide 88

Slide 88 text

まとめ LLM を実際に活用している現場では共通の課題・解決策が独立に発 見されており、初期に定義してしまった LLMOps を見直す段階に来 ている LLM の活用においては Eval-Centric (評価中心) の方法論が必要 応用上は評価が困難であり、継続的な評価を通じて必要な品質評価 の観点を徐々に明確化するのが現実的

Slide 89

Slide 89 text

TOC MLOps とは MLOps の技術・プロセス・文化 LLMOps MLOps の今後 <-

Slide 90

Slide 90 text

MLOps として取り組むべき課題 機械学習・AI の分野は進歩が早いため最新の状況への追従が必要 次の 4 つは早急に対応が必要 1. 教育 2. 生成モデル 3. 法制度・標準への対応 4. 研究者・開発者・利用者の断絶

Slide 91

Slide 91 text

教育 MLOps は複雑化した結果、新規に 取り組むには難しくなりすぎた すでにあるプロダクトや OSS の存 在を知らず、再開発を行う事例が 出てきた 書籍やコミュニティが役立つこと を期待 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果をスケールさせ る処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 92

Slide 92 text

生成モデル 生成 AI の活用におけるボ トルネックは評価 LLM の活用のためのノウ ハウは現状をまとめた 音声・動画・マルチモー ダルは未対応 Learn how to build and scale Generative AI solutions with GenOps | Google Cloud Blog https://cloud.google.com/blog/products/ai-machine- learning/learn-how-to-build-and-scale-generative-ai-solutions-with- genops?hl=en

Slide 93

Slide 93 text

Gemini 2.0: マルチモーダルな生成AI The next chapter of the Gemini era for developers - Google Developers Blog https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/

Slide 94

Slide 94 text

法制度・標準への対応 緊急かつ重大な課題 2024 年 8 月に AI Act が EU で交付 AI セーフティに関する評価観点ガイド (AI セーフティ・インスティ テュート) は LLM システムの開発フェーズを定義 MLOps の仮定するフェーズと一致しない場合、既存のノウハウが 使えなくなる 個人的に AIQMI (産総研主催) の団体に参加したものの、参加者がま だまだ不足

Slide 95

Slide 95 text

AI セーフティに関する評価観点ガイド(第 1.01 版)図 1 AIセーフティに関する評価観点ガイドの公開 - AISI Japan https://aisi.go.jp/2024/09/18/evaluation_perspectives/

Slide 96

Slide 96 text

研究者・開発者・エンドユーザーの断絶 イラストを中心として、開発者とエンドユーザーの間には深刻な断 絶が発生しており、解消する見込みがない 新聞社や報道機関との断絶もすさまじい 各種ガイドライン (AIGA, AISI, AIQM, AI 事業者ガイドライン) は公的 機関や大企業の研究者、コンサルティングファームが主導してお り、開発現場の課題や取り組みを知らない 開発者主導のコミュニティと、そのような組織との交流が必要

Slide 97

Slide 97 text

日本におけるガイドラインの現状 右は AIQM 第4版から引用 ガイドラインが既存の MLOps などの 経験知と一致するかは未確認 (AISI, AIGA などの団体も同様) 認証制度についての議論が進行中 求められる品質や指標については具 体化せずにそのままチェックリスト として運用され始めた 機械学習品質マネジメントガイドライン - 成果公開 | デジタルアーキテクチャ研究センター | 産 総研 https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html

Slide 98

Slide 98 text

まとめ MLOps は機械学習の成果をスケールさせるためのさまざまな取り 組み MLOps ではフィードバックループによる継続的な改善が最重要 MLOps の全体像について、技術・プロセス・文化でそれぞれの取 組を整理 LLMOps では継続的な評価によるフィードバックループを構築可能 MLOps の分野における課題は教育、LLM への対応、法制度・標準 への対応に加え、断絶を乗り越えるための取り組みが必要