Slide 1

Slide 1 text

山田 雄 株式会社リクルートライフスタイル ビッグデータアーキテクト 2019/02/01 オンプレHadoopからAWS・GCPを活用した マルチクラウドへの道のり 〜マルチクラウドのメリット、デメリット〜

Slide 2

Slide 2 text

山田 雄(Yamada Yu) @nii_yan ビッグデータアーキテクト 好物:BigData周りの技術、データ基盤コンサル、 ビール、日本酒、カップ焼きそば Photo Speaker

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

会社紹介

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

Title text 一生のうち、数回つかうサービス LIFE EVENT 日常的に、つかうサービス LIFE STYLE

Slide 8

Slide 8 text

Title text 一生のうち、数回つかうサービス LIFE EVENT 日常的に、つかうサービス LIFE STYLE

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

突然ですが・・・

Slide 11

Slide 11 text

マルチクラウドってイケてますよね! ブイブイ言わせてますよね!!

Slide 12

Slide 12 text

全然そんな事ないです! 辛い事いっぱいあります! マルチにしなくていいならしない方が良いで す!! ※山田の個人的見解です

Slide 13

Slide 13 text

ですが・・・

Slide 14

Slide 14 text

マルチクラウドを常に選択肢には入れた方が 良いと思います。

Slide 15

Slide 15 text

リクルートライフスタイル の 分析基盤変遷

Slide 16

Slide 16 text

分析基盤の変遷

Slide 17

Slide 17 text

分析基盤の変遷 ✔リクルート分社化に伴い、独自の 分析基盤Hadoop提供スタート ✔Netezza, Redshift導入 2013

Slide 18

Slide 18 text

課題 1. Hadoop はスケールアウトが辛い 2. Hive はクエリのレスポンスが遅い 3. Hadoop のアップデートが辛い

Slide 19

Slide 19 text

分析基盤の変遷 2013 2014 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshiftのノード 拡張 ✔リクルート分社化に伴い、独自の 分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入

Slide 20

Slide 20 text

課題 1. ストレージのキャパシティ管理が辛い 2. オンプレとの通信が辛い

Slide 21

Slide 21 text

分析基盤の変遷 2013 2014 2015 ✔リクルート分社化に伴い、独自の 分析基盤Hadoop提供スタート ✔Netezza, Redshift導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshiftのノード 拡張

Slide 22

Slide 22 text

課題 1. ワークロードの限界 a. データロードと、データマート作成に 1 日かかる 2. クエリ実行性能の低下 a. 常にデータロードが走っているため、クラスタの負荷が高い

Slide 23

Slide 23 text

分析基盤の変遷 2013 2014 2015 2016 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift のノード拡張 ✔リクルート分社化に伴い、独自の 分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入

Slide 24

Slide 24 text

課題 1. ワークロードの複雑化 2. 費用対効果の限界 3. 未来への対応

Slide 25

Slide 25 text

分析基盤の変遷 ✔BigQuery 導入 ✔NetezzaEOSL ✔DataLake 構成導入 ✔Exadata 導入 2013 2014 2015 2016 2017 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift のノード拡張 ✔リクルート分社化に伴い、独自の 分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入

Slide 26

Slide 26 text

課題 1. 非効率なマルチプラットフォーム構成 2. 解決しないワークロードの負荷 3. ユーザ教育のコスト増

Slide 27

Slide 27 text

分析基盤の変遷 2013 2014 2015 2016 2017 2018 ✔TreasureData を一部 BQ へ移行 ✔RedshiftSpectrum 導入 ✔Redshift を一部 BQ へ移行 ✔BigQuery 導入 ✔NetezzaEOSL ✔DataLake 構成導入 ✔Exadata 導入 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift のノード拡張 ✔リクルート分社化に伴い、独自の 分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入

Slide 28

Slide 28 text

S3 分析基盤の概要 Amazon Redshift Spectrum Oracle Exadata SPSS Treasure Data aginity CHEETAH DIGITAL Adobe Analytics CSV 外部データ アクセスログ アプリログ HPB JLN HPG 事業データ BigQuery IBM Watson Campaign Automation

Slide 29

Slide 29 text

マルチクラウドで作っているETLの例

Slide 30

Slide 30 text

マルチクラウドのメリット、デメリット

Slide 31

Slide 31 text

PublicCloudのシェア率 Company Market Share Amazon 52% Microsoft 13% Alibaba 5% Google 4% ※参考値

Slide 32

Slide 32 text

AWSのマルチクラウドに対する見解 ● 複数のシステムを学習し、その違いを理解しなくてはいけ ない ● クラウドプロバイダーのボリュームディスカウントを受ける には1つにするべき ● 一番サービスが揃っているのはAWS

Slide 33

Slide 33 text

GCPのマルチクラウドに対する見解 ● GCNextで3大戦略の1つにハイブリッド・マルチクラウド オープン戦略を押し出している

Slide 34

Slide 34 text

デメリット

Slide 35

Slide 35 text

クラウド間のデータ転送が必要

Slide 36

Slide 36 text

両方の新サービスを追えない

Slide 37

Slide 37 text

お金が単一よりかかる場合も

Slide 38

Slide 38 text

運用コストがかかる

Slide 39

Slide 39 text

メリット

Slide 40

Slide 40 text

楽しい (技術的制約がない)

Slide 41

Slide 41 text

San Francisco (Oracle,Google) Las Vegas (Amazon,Microsoft) 色んな国に行ける

Slide 42

Slide 42 text

人脈が広がる

Slide 43

Slide 43 text

まとめ

Slide 44

Slide 44 text

マルチクラウド って辛い事もあるけど楽しよ!

Slide 45

Slide 45 text

一緒にマルチクラウドを学びたいエンジニア募集中!!