Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オンプレHadoopからAWS・GCPを活用したマルチクラウドへの道のり

A84b3c763c9c543069b7c02551e2720e?s=47 yu-yamada
February 01, 2019

 オンプレHadoopからAWS・GCPを活用したマルチクラウドへの道のり

リクルートライフスタイル様では2013年から分析基盤の構築を始めました。初期構築から5年以上がたち、Hadoopから始まった分析基盤は、AWSRedshift、BigQuery、Exadataを使用するマルチハイブリッドクラウドへと成長しました。 基盤の変化の過程でどの様な課題があり、基盤が変革して行ったのか。また、マルチクラウドを選んだ理由、マルチクラウドであるメリットやデメリットをお伝えします。
リクルートライフスタイル 山田 雄(ヤマダ ユウ)

A84b3c763c9c543069b7c02551e2720e?s=128

yu-yamada

February 01, 2019
Tweet

Transcript

  1. 山田 雄 株式会社リクルートライフスタイル ビッグデータアーキテクト 2019/02/01 オンプレHadoopからAWS・GCPを活用した マルチクラウドへの道のり 〜マルチクラウドのメリット、デメリット〜

  2. 山田 雄(Yamada Yu) @nii_yan ビッグデータアーキテクト 好物:BigData周りの技術、データ基盤コンサル、 ビール、日本酒、カップ焼きそば Photo Speaker

  3. None
  4. None
  5. 会社紹介

  6. None
  7. Title text 一生のうち、数回つかうサービス LIFE EVENT 日常的に、つかうサービス LIFE STYLE

  8. Title text 一生のうち、数回つかうサービス LIFE EVENT 日常的に、つかうサービス LIFE STYLE

  9. None
  10. 突然ですが・・・

  11. マルチクラウドってイケてますよね! ブイブイ言わせてますよね!!

  12. 全然そんな事ないです! 辛い事いっぱいあります! マルチにしなくていいならしない方が良いで す!! ※山田の個人的見解です

  13. ですが・・・

  14. マルチクラウドを常に選択肢には入れた方が 良いと思います。

  15. リクルートライフスタイル の 分析基盤変遷

  16. 分析基盤の変遷

  17. 分析基盤の変遷 ✔リクルート分社化に伴い、独自の 分析基盤Hadoop提供スタート ✔Netezza, Redshift導入 2013

  18. 課題 1. Hadoop はスケールアウトが辛い 2. Hive はクエリのレスポンスが遅い 3. Hadoop のアップデートが辛い

  19. 分析基盤の変遷 2013 2014 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshiftのノード 拡張 ✔リクルート分社化に伴い、独自の

    分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入
  20. 課題 1. ストレージのキャパシティ管理が辛い 2. オンプレとの通信が辛い

  21. 分析基盤の変遷 2013 2014 2015 ✔リクルート分社化に伴い、独自の 分析基盤Hadoop提供スタート ✔Netezza, Redshift導入 ✔オンプレ- AWS

    間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshiftのノード 拡張
  22. 課題 1. ワークロードの限界 a. データロードと、データマート作成に 1 日かかる 2. クエリ実行性能の低下 a.

    常にデータロードが走っているため、クラスタの負荷が高い
  23. 分析基盤の変遷 2013 2014 2015 2016 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift

    のノード拡張 ✔リクルート分社化に伴い、独自の 分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入
  24. 課題 1. ワークロードの複雑化 2. 費用対効果の限界 3. 未来への対応

  25. 分析基盤の変遷 ✔BigQuery 導入 ✔NetezzaEOSL ✔DataLake 構成導入 ✔Exadata 導入 2013 2014

    2015 2016 2017 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift のノード拡張 ✔リクルート分社化に伴い、独自の 分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入
  26. 課題 1. 非効率なマルチプラットフォーム構成 2. 解決しないワークロードの負荷 3. ユーザ教育のコスト増

  27. 分析基盤の変遷 2013 2014 2015 2016 2017 2018 ✔TreasureData を一部 BQ

    へ移行 ✔RedshiftSpectrum 導入 ✔Redshift を一部 BQ へ移行 ✔BigQuery 導入 ✔NetezzaEOSL ✔DataLake 構成導入 ✔Exadata 導入 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift のノード拡張 ✔リクルート分社化に伴い、独自の 分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入
  28. S3 分析基盤の概要 Amazon Redshift Spectrum Oracle Exadata SPSS Treasure Data

    aginity CHEETAH DIGITAL Adobe Analytics CSV 外部データ アクセスログ アプリログ HPB JLN HPG 事業データ BigQuery IBM Watson Campaign Automation
  29. マルチクラウドで作っているETLの例

  30. マルチクラウドのメリット、デメリット

  31. PublicCloudのシェア率 Company Market Share Amazon 52% Microsoft 13% Alibaba 5%

    Google 4% ※参考値
  32. AWSのマルチクラウドに対する見解 • 複数のシステムを学習し、その違いを理解しなくてはいけ ない • クラウドプロバイダーのボリュームディスカウントを受ける には1つにするべき • 一番サービスが揃っているのはAWS

  33. GCPのマルチクラウドに対する見解 • GCNextで3大戦略の1つにハイブリッド・マルチクラウド オープン戦略を押し出している

  34. デメリット

  35. クラウド間のデータ転送が必要

  36. 両方の新サービスを追えない

  37. お金が単一よりかかる場合も

  38. 運用コストがかかる

  39. メリット

  40. 楽しい (技術的制約がない)

  41. San Francisco (Oracle,Google) Las Vegas (Amazon,Microsoft) 色んな国に行ける

  42. 人脈が広がる

  43. まとめ

  44. マルチクラウド って辛い事もあるけど楽しよ!

  45. 一緒にマルチクラウドを学びたいエンジニア募集中!!