DataEngConf NYC’18 セッションサマリー #2

Copyright © GREE, Inc. All Rights Reserved. グリー株式会社開発本部 DataEngineeringGroup
松岡紀⾏ DataEngConf NYCʼ18 セッションサマリー #2

Copyright © GREE, Inc. All Rights Reserved. Copyright © GREE,
Inc. All Rights Reserved. 【⽒名・所属】 • 松岡紀⾏ / Noriyuki Matsuoka • 開発本部データエンジニアリンググループエンジニアチーム【略歴】 • 2016/04 グリー株式会社⼊社 • 2016/06 データエンジニアリンググループ配属 • オンプレのHadoopやEMRベースのログ基盤を運⽤ • 2018/07 兼務で新規ゲームにクライアントエンジニアとして配属⾃⼰紹介

Inc. All Rights Reserved. • 機械学習のプロセス • Feature Engineering（特徴選択) • Prototyping（モデルの開発） • Model Training（モデルの学習） • Run in Production（モデルのデプロイ） • モデル開発には沢⼭の周辺タスクが発⽣ • データサイエンティストがモデル開発に集中できるように機械学習基盤システムを構築したい機械学習モデル開発の問題点

Inc. All Rights Reserved. 1. 特定の機械学習フレームワークに依存しない • tensorflowなど 2. GPUも利⽤できるように 3. 特定のクラウドに依存しない • NVIDIAのGPU Cloud、GoogleのCloud TPUや ASICベースのモデルトレーニングシステム • 機械学習界隈でのハードウェア・ソフトウェアエコシステムは進化が早い 4. 使いやすく・かつ柔軟性を • アカデミック出⾝の⼈にはインフラ管理に抵抗がある⼈も多いので使いやすく。 • ⼀⽅で凝った使い⽅をしたい⼈には柔軟性を。機械学習基盤システムに求める要件

Inc. All Rights Reserved. Docker Container • コンテナ技術での抽象化 • 特定のシステムに依存しなくなる Kubernetes • プラットフォームを構築するためのリッチなAPIを提供 • 複雑なワークフローを起動可能 • 容易にスケール可能 • クラウド⾮依存なAPI • ⼀⽅でローレベルなAPIも多数含まれ複雑なため、さらに抽象化して使いやすくしたい Container / Kubernetes

Inc. All Rights Reserved. • Podに対してアクセスポリシーを定義したもの Kubernetes ‒ Service Pod#01 notebook-xxxxx Pod #02 tensorboard-yy Service#01 Cluster IP: xxx.xx.xx.xx Service#02 Cluster IP: yyy.yy.yy.yy Client Port 8888 Port 6006

Inc. All Rights Reserved. • 問題: 新しいインスタンスの起動に時間がかかる • Kubernetesには負荷に応じてクラスタを⾃動的に拡張するAuto Scalerがある • ⼀⽅で新しいインスタンスの起動には AMIを使⽤しても5~10分くらいの時間がかかる • 対応 • KubernetesのPreemption機能で対応 • Pod間に Priority （優先度）をつけておき、新しい重要なPodがリソース不⾜で投⼊できない場合に優先度の低いPodを追い出すことクラスタに関する問題#2

Inc. All Rights Reserved. • 問題: ⼤量のCredentialsの管理 • Podが外部と通信等を⾏うためにはCredentialsが必要 • 例：GITHUB_TOKEN • 対応 • KubernetesのSecrets機能の利⽤ • KubernetesではSecretsを利⽤すれば安全・簡単にCredentialsを管理可能 • Base64エンコーディングで難読化 • コンテナ内で環境変数として参照可能 • LyftではGUIからユーザが簡単に設定可能クラスタに関する問題#3

Inc. All Rights Reserved. • MLモデルの実験には沢⼭の試⾏回数が必要 • Optimizerを⼊れ替える • Parameterを⼊れ替える • … • LyftにおけるTrainingのやり⽅ • NotebookでModel classやtraining methodを書く • モデルを含んだDockerファイルを作成してpush • CUDAドライバーなど必要なものがあればそれらもimport • GUIのTrainingページでモデルを選択＆実⾏をクリック Training

Inc. All Rights Reserved. • ハイパーパラメータのチューニングも時間がかかる • 何度も値を調整しながら学習を繰り返す必要がある • Katib • ハイパーパラメータチューニングフレームワーク • kubeflowプロジェクトの1つ • Google VizierをOSSで実装したもの • パラメータ空間を定義すれば、あとは指定したアルゴリズム（グリッドサーチなど）でチューニング Tuning

Inc. All Rights Reserved. • Kubernetesは特に使ったことがないのですが、強⼒な機能が揃っていることや、関連する便利なOSSが増えていることを考えると、少なくともML基盤では、あるいはそれ以外でも⾮常に魅⼒的に感じました。 • 個⼈の意⾒ですがECSと⽐べてyamlやCLIでの管理が充実していると感じたので使ってみたい • Lyftほど⼤きな企業ならともかく、普通の企業であれば kubeflowのエコシステムに乗っかったほうが良い？ • 全体的に無駄な時間の削減を強調していて、アメリカのAI スペシャリストの給与相場を考えると、切実な問題なんだろうなと思いました。所感

Inc. All Rights Reserved. • Personalized Ranking • Personalized Page Generation • Personalized Promotion • Personalized Image Selection • Learning Collaborative Search • Personalized Messaging • Personalized Marketing • Personalized Life Time Value • Personalized Content Acquisition Netflix が⾏っている機械学習

Inc. All Rights Reserved. • 以下を毎ターン繰り返す • Learner は Action を選ぶ • Environment は Action に従って Reward を返す • Learner は累積報酬を最⼤化するように⽅針をアップデートする • ポイント • 情報の探索と活⽤をバランスよく⾏う必要がある Bandits 問題 Learner (Policy) Environment Action Reward

Inc. All Rights Reserved. • 以下を毎ターン繰り返す • Environment は Context を渡す • Learner は Context を考慮しながら Action を選ぶ • Environment は Action に従って Reward を返す • Learner は累積報酬を最⼤化するように⽅針をアップデートする • Context: スロットの⼤きさ等の特徴ベクトル • 教師あり学習と異なり、正解を教えてもらえる訳ではない Contextual Bandits 問題 Learner (Policy) Environment Action Reward Context

Inc. All Rights Reserved. • APIの適⽤場所は幅広く、ピーク時は20M RPS を超える • ⼿法1: Live Compute • アクセスが有った際にモデルを適⽤（計算） • 問題点 • SLA を満たすのが難しい • 遅延を抑えるにはシンプルなアルゴリズムに制限される • ⼿法2: Online Compute • 事前にモデルを適⽤してキャッシュ • 問題点 • 適⽤されるモデルは最新じゃない可能性がある • 実際には使われないキャッシュも⽤意する必要があるオンラインでのモデルの適⽤

Inc. All Rights Reserved. • 内容としてはほぼ機械学習の話でしたが、基調講演として発表されていて、参加者も次々と質問するほど熱⼼に聞いていたのが印象的でした。データに携わる上で、教養として機械学習に関する基本的な知識は⾝につけておきたいと改めて思いました。 • 「アートワークをユーザによって変える」というアイデア⾃体個⼈的には⽬からウロコでしたが、Netflixとしては将来的に「ユーザがテレビの前にただ座っているだけで最適なコンテンツが流れ最⾼な体験ができる」世界を⽬指しているらしく、視野を拡げるために視座を⾼く保つというのは⼤事だと改めて感じました。所感

Inc. All Rights Reserved. • カンファレンスサイト（概要のみ） • https://www.dataengconf.com/speaker/artwork- personalization-at-netflix?hsLang=en-us • ブログ（画像引⽤元） • https://medium.com/netflix-techblog/artwork- personalization-c589f074ad76 参考

Inc. All Rights Reserved. • 内容 • Prestoの紹介 • 他のSQL Engineと⽐べた際のPrestoの良さとして、特定の Data sourceに依存しない、ということを強調していました • Starburstが提供するPresto Enterpriseの紹介 • 所感 • ⼈は多く、Prestoの根強い⼈気を感じました • Prestoを再評価する良いきっかけになりました • 弊社ではEMRのPrestoを使っていて、Prestoが特定のData sourceに依存しないという点はあまり意識したことはなかったですが、時代の流れとしても特定のプラットフォーム・技術⾮依存、という性質はより重視されてきていると思ったため Presto: Fast SQL-on-Anything

Inc. All Rights Reserved. • 内容 • Facebookでデータ基盤を構築・運⽤した経験から得たプライバシーやセキュリティに関するお話 • Multi-tenancyモデルでのセキュリティの問題 • GDPRの『忘れられる権利』の対応に苦労したお話 • 個⼈情報に関連するデータに対して Semantic Type を定義 • 個⼈情報を取り扱うテーブルは最低限に抑え、残りのテーブルは過去の全てのデータに対して匿名化を施した • IP -> masked IP、name -> null • 所感 • 数少ないプライバシーやセキュリティの話で、リスク削減と性能のトレードオフの難しさを再認識しました Analyzing Data in the Cloud: Privacy and Security

Inc. All Rights Reserved. • 全体の話の傾向 • 全体としてMLやAIに関するセッションがかなり多かった印象 • データ分析基盤においては処理パフォーマンスよりも、ストリーミングやスケジューラに着⽬した話が多かった印象 • Apache Kafka、Apache Airflowなど • 所感 • 概観としては、AWS・GCPなどクラウドで簡単にデータ分析基盤が構築できるようになった今、それらを組み合わせて如何に分析基盤を効率よく運⽤するか、また、データにML等を適⽤して如何に事業的価値を出せるか、ということに注⽬が集まっていると感じましたまとめ

DataEngConf NYC’18 セッションサマリー #2

DataEngConf NYC’18 セッションサマリー #2

More Decks by gree_tech

Other Decks in Technology

Featured

Transcript