機械学習システムアーキテクチャ入門 #1

機械学習システムアーキテクチャ入門 #1 Asei Sugiyama

主旨機械学習システムのアーキテクチャの検討の際に考慮すべき課題について共有します

まとめ「大規模なデータを扱いたい」という要求について、単一のストレージサービスですべてを賄うのは非現実的機械学習システムのアーキテクチャを考える上では、次の矛盾する要件を両立する必要がある学習と推論は大きく要件が異なるため別のインフラが必要学習と推論で共通の処理が必要 (例: 前処理) アーキテクチャの検討の際には推論におけるレイテンシやダウンタイム
に注意し、できるだけ複雑にならないように注意する

TOC 大規模なデータを扱う難しさ <- 機械学習システムの難しさ大規模なデータを扱うためのアーキテクチャ実際にはどうすべきか？

大規模なデータを扱う難しさ「なぜこんなにストレージサービスは多いのか」について次の順番で考えていきます Repro の歩み単一のサービスでは解決困難な課題トランザクションシステムと分析処理システムデータレイク・データウェアハウス・データマートなぜこんなに分析サービスは多いのかまとめ

Repro の歩み (1/3) Ruby on Rails で Google Analytics のようなシステム
を組んでいた Joker さんの資料が詳しい Architecture Evolution in Repro - Speaker Deck

補足: 典型的な Ruby on Rails アプリケーションの構成 Next.js + Railsでリニューアルした社内ニコカレシステムの技術スタックを公開します -
Fusic Tech Blog

Repro の歩み (2/3) クライアント数が増えるにつれバッチ処理に時間がかかるように集計結果を保持する中間テーブルを作成するも一時し
のぎ Architecture Evolution in Repro - Speaker Deck

Repro の歩み (3/3) Rails アプリケーションとは別にデータの集計を行うバックエンドを構築大規模集計用に Apache Cassandra,
Hive を採用リアルタイムな集計を行うように Apache Kafka によるストリーム処理

補足: なんで遅くなるの？レコード数が多くなると計算量が増える SELECT: (要 index) JOIN: (NLJ, index
なし) サービスが成長するにつれて、結合するテーブル数もテーブル内のカラムも増える O(log N) O(MN) MySQL/InnoDB の裏側 / Rails Developers Meetup 2018 Day 1 - Speaker Deck

注意: RDB = 悪ではない開発しやすいことは立上げ期において重要プロダクトが拡大していくと要件が変わっていくプロダクトの状況に合わせてアーキテクチャの変更が
必要組織と事業の急拡大に立ち向かうためのマルチテナント Amazon EKS クラスタ/ マルチアカウントアーキテクチャ / Multi-tenant EKS Muti-account architecture at Money Forward - Speaker Deck

単一のサービスでは解決困難な課題企画開発用の分析処理が困難数カ月間に渡る集計複数のデータソースにまたがる集計プロダクト (右図) とは異な
る期間での集計が必要 Architecture Evolution in Repro - Speaker Deck

トランザクションシステムと分析処理システム (1/2) オンライントランザクション処理 (OLTP): ユーザーの入力をインタラクティブに処理オンライン分析処理
(OLAP): 大量のレコードを処理 Martin Kleppmann 著斉藤太郎監訳玉川竜司訳データ指向アプリケーションデザイン―― 信頼性、拡張性、保守性の高い分散システム設計の原理 https://www.oreilly.co.jp/books/9784873118703/

トランザクションシステムと分析処理システム (2/2) プロダクトでは低いレイテンシーで大規模データを扱うクライアントが結果をすぐに知りたがっていた運用チームもそれに答えるため、できる限り安く安定的な運用基盤を目指していた企画開発チームは時間がかかってもべつに良かった社内なので1日は待てる、分析頻度も高くないプロダクトに負荷を与えてしまうことは望ましくない

データレイク・データウェアハウス・データマートプロダクトとは別に分析用システムを作成するデータレイク: データを集約データウェアハウス: 集めたデータを整形データマート:
使いやすいデータを提供 Martin Kleppmann 著斉藤太郎監訳玉川竜司訳データ指向アプリケーションデザイン ―― 信頼性、拡張性、保守性の高い分散システム設計の原理 https://www.oreilly.co.jp/books/9784873118703/

なぜこんなに分析サービスは多いのか想定しているユースケースが違うとはいえ共通するものを使っていたりもする (Athena, EMR, Glue)

まとめ大規模なデータを扱うためにはシステムのアーキテクチャについて継続的な検討が必要「大規模なデータを扱いたい」という要求について、単一のストレージサービスですべてを賄うのは非現実的今扱おうとしている業務はトランザクションシステムなのか、分析処理システムなのかの見極めが必要

TOC 大規模なデータを扱う難しさ機械学習システムの難しさ <- 大規模なデータを扱うためのアーキテクチャ実際にはどうすべきか？

機械学習システムの難しさ想定する機械学習システム学習時と推論時の非機能要件 Training/Serving Skew

想定する機械学習システム分析環境でモデルを訓練本番環境にモデルをデプロイして推論 MLOps: 機械学習における継続的デリバリーと自動化のパイプライン | Google Cloud

モデルの訓練と推論モデルの訓練は OLAP 的な特性を持つモデルの推論は OLTP 的な特性を持つこの2つは特性が違うので別
のシステムとしたい Martin Kleppmann 著斉藤太郎監訳玉川竜司訳データ指向アプリケーションデザイン―― 信頼性、拡張性、保守性の高い分散システム設計の原理 https://www.oreilly.co.jp/books/9784873118703/

Training/Serving Skew 訓練環境と推論環境とで、モデルに異なるデータが入力されることにより発生する不都合な事象原因として次のものが挙げられる訓練環境と本番環境で実装が違う訓練時から時間が経過し、データの分布が変化したモデルの利用による不都合なフィードバックループ理想的には訓練時と推論時で同じパイプライン実装を使いたい

機械学習システムのアーキテクチャで考慮すべき問「異なるシステムが必要」「同一のパイプラインが必要」という2つの要件をどう両立する？

TOC 大規模なデータを扱う難しさ機械学習システムの難しさ大規模なデータを扱うためのアーキテクチャ <- 実際にはどうすべきか？

大規模なデータを扱うためのアーキテクチャラムダアーキテクチャラムダアーキテクチャの欠点 Dataflow TensorFlow Transform + Apache Beam

ラムダアーキテクチャ同一のデータソースを2つのパスで処理 Hot path: 精度を犠牲に素早く処理 Clod path: すべてのデータ
を対象にバッチ処理ビッグデータアーキテクチャ - Azure Architecture Center | Microsoft Docs

ラムダアーキテクチャの欠点 2つのパスの保守が難しい集計の要件に変更が発生した場合両方のパスに変更が必要そもそも必然的に数値がずれる (2つのシステムの「現在」が揃うことはない) LinkedIn では Lambda
アーキテクチャを廃止した From Lambda to Lambda-less: Lessons learned | LinkedIn Engineering

Dataflow (1/2) 「すべてストリーム処理でいいじゃないか」という発想バッチ処理では何らかの集計単位でデータを区切って処理しているストリーム処理において柔軟にウィンドウを設けて集
計できれば良い The Beam Model [model evolution and details, ~45 min] - Google Slide

Dataflow (2/2) 信じがたいが本当に作った (MilWheel) Google CLoud でサービス化した (Dataflow) ストリーム処理を書きやす
いような SDK を作成し OSS にした (Apache Beam) The Beam Model [model evolution and details, ~45 min] - Google Slide

TensorFlow Transform + Apache Beam (1/2) 「前処理をストリーム処理に寄せればいいのでは」という発想学習用のデータをストリーム処理で集計し、バッチ処理推論用のデータもストリーム処理で集計し、リアルタイムに推論ストリーム処理しかないので実装は1つで良い
(!?) Data preprocessing for machine learning: options and recommendations | Cloud Architecture Center | Google Cloud

TensorFlow Transform + Apache Beam (2/2) どんな前処理でもできるわけではないので要検証 Google Cloud
のドキュメントは一読の価値あり Data preprocessing for machine learning: options and recommendations | Cloud Architecture Center | Google Cloud

TOC 大規模なデータを扱う難しさ機械学習システムの難しさ大規模なデータを扱うためのアーキテクチャ実際にはどうすべきか？ <-

実際にはどうすべきか？非機能要件に注意するストリーム処理は開発とテストを複雑にするマネージドサービスを用いる場合であっても、十分に検証を行う

非機能要件に注意する (1/2) レイテンシーと許容可能なダウンタイムについては十分注意する MLPerf のようなベンチマークを参考にする Data preprocessing
for machine learning: options and recommendations | Cloud Architecture Center | Google Cloud

非機能要件に注意する (2/2) できる限り SLA を低くできるように交渉する Mov: 機械学習バッチが正常に完了しない場合のフォールバック先を用意
m3: 機械学習 API が正常に動作しない場合の処理をプロダクトに実装 MOVの機械学習システムを支えるMLOps実践

ストリーム処理は開発とテストを複雑にする Dataflow で主にサポートしている言語は Java であり Python から利用できる機能/利用できない機能がある (継続して改善されている) Python
でも「Python...?」という見た目になる採用する場合はチーム内でのレビュー体制やスキル移転まで含めた検討が必要

Apache Beam のプログラムの例読めますか？ # The pipeline will be run
on exiting the with block. with beam.Pipeline(options=pipeline_options) as p: # Read the text file[pattern] into a PCollection. lines = p | 'Read' >> ReadFromText(known_args.input) counts = ( lines | 'Split' >> (beam.ParDo(WordExtractingDoFn()).with_output_types(str)) | 'PairWithOne' >> beam.Map(lambda x: (x, 1)) | 'GroupAndSum' >> beam.CombinePerKey(sum)) beam/wordcount.py at master · apache/beam

マネージドサービスを用いる場合であっても、十分に検証を行うクォータにより無限にはスケールしない Dataflow はノードに
IP が必要で、利用できる IP の数は意外と少ない Quotas & limits | Cloud Dataflow | Google Cloud

まとめ「大規模なデータを扱いたい」という要求について、単一のストレージサービスですべてを賄うのは非現実的機械学習システムのアーキテクチャを考える上では、次の矛盾する要件を両立する必要がある学習と推論は大きく要件が異なるため別のインフラが必要学習と推論で共通の処理が必要 (例: 前処理) アーキテクチャの検討の際には推論におけるレイテンシやダウンタイム
に注意し、できるだけ複雑にならないように注意する

Reference 大規模なデータを扱う難しさ (1/2) Architecture Evolution in Repro - Speaker Deck
Sidekiq to Kafka ストリームベースのmicro services - Speaker Deck ReproのImport/Exportを支えるサーバーレスアーキテクチャ - Speaker Deck Next.js + Railsでリニューアルした社内ニコカレシステムの技術スタックを公開します - Fusic Tech Blog

大規模なデータを扱う難しさ (2/2) Repro における Presto の安定化・パフォーマンス改善の歩み / Repro Tech Meetup
#9 - Speaker Deck MySQL/InnoDB の裏側 / Rails Developers Meetup 2018 Day 1 - Speaker Deck AWS 導入事例：株式会社マネーフォワード | AWS 組織と事業の急拡大に立ち向かうためのマルチテナント Amazon EKS クラスタ/マルチアカウントアーキテクチャ / Multi-tenant EKS Muti- account architecture at Money Forward - Speaker Deck O'Reilly Japan - データ指向アプリケーションデザイン

機械学習システムの難しさ Vertex Model Monitoring で活用する、Google の MLOps 監視手法 | Google
Cloud Blog A brief introduction to Training/Serving Skew

大規模なデータを扱うためのアーキテクチャ (1/2) Big Data + Fast Data = ラムダアーキテクチャー！ |
NTTデータ先端技術株式会社ビッグデータアーキテクチャ - Azure Architecture Center | Microsoft Docs O'Reilly Japan - データ指向アプリケーションデザイン Data preprocessing for machine learning: options and recommendations | Cloud Architecture Center | Google Cloud The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing – Google Research

大規模なデータを扱うためのアーキテクチャ (2/2) The Beam Model [model evolution and details, ~45
min] - Google スライド Streaming 101: The world beyond batch – O’Reilly From Lambda to Lambda-less: Lessons learned | LinkedIn Engineering MOVの機械学習システムを支えるMLOps実践 beam/wordcount.py at master · apache/beam Quotas & limits | Cloud Dataflow | Google Cloud

機械学習システムアーキテクチャ入門 #1

機械学習システムアーキテクチャ入門 #1

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript