ビッグデータ処理データベースの全体像と使い分け 2018年version

(C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータ処理データベースの全体像と使い分け 2018年version 2018/9/21
株式会社リクルートテクノロジーズデータテクノロジーラボ部渡部徹太郎 db tech showcase Tokyo 2018

(C) Recruit Technologies Co.,Ltd. All rights reserved. 自己紹介 {"ID" ："fetaro"
"名前"："渡部徹太郎" "研究"："東京工業大学でデータベースと情報検索の研究" "仕事"：{前職:["証券会社のオンライントレードシステムのWeb基盤", "オープンソースなら何でも。主にMongoDB,NoSQL"], 現職:["リクルート分析基盤のプラットフォームリーダ, BigQuery, Hortonworks, Oracle Exadata, EMR"] 副業:["コンサルタント,非常勤講師" ]} "エディタ"："emacs派", "趣味"： ["自宅サーバ","麻雀"] } 1

(C) Recruit Technologies Co.,Ltd. All rights reserved. リクルート  リクルートのサービス
 ビジネスモデル：リボンモデル 2 ・・・１００以上のサービスカスタマ（ユーザ）クライアント（企業）  主業務  分析：KPIの測定/競合分析  施策：マッチング/ユーザ属性推定/ターゲッティング  ミッション  ビッグデータ処理を駆使して売上向上・コスト削減  いろんなユースケースに併せて適材適所の基盤を用意

(C) Recruit Technologies Co.,Ltd. All rights reserved. 発表をしようと思った背景  適材適所をするためには、ビッグデータ処理技術全体を把握必要がある
3 Amazon DynamoDB Kinesis Amazon EMR Amazon Redshift Oracle Exadata Impala Azure HDInsight Atlas BigQuery Oracle ADWC Cloud Dataproc Oracle ATP Cloud Datastor e Cloud Spanner Cloud Dataproc Amazon Athena Amazon RDS Cloud SQL Cloud Firestore

(C) Recruit Technologies Co.,Ltd. All rights reserved. 目次 1. データベースの分類
2. データベースの紹介 3. その他ビッグデータ関連キーワードの説明 4. まとめ 4

(C) Recruit Technologies Co.,Ltd. All rights reserved. 重視する性能で分類：レスポンス重視 6 
オペレーショナルDB  データを操作する用途  少量のデータに対するランダムアクセス  トランザクションが重要アプリケーションサーバオペレーション用途データベース登録画面リクエスト参照更新挿入参照画面編集画面即時応答

(C) Recruit Technologies Co.,Ltd. All rights reserved. 重視する性能で分類：レスポンス重視 7 
オペレーショナルDB  行志向アクセス 1 1982年生 2 1967年生 3 2000年生 4 2000年生男女女男 ID 年齢性別 ID=2のデータを取り出すのは高速年齢の集計は低速 1 1982年生男 2 1967年生女 3 2000年生女 4 2000年生男 1 2 3 4 index この方向のアクセスが高速インデックスディスク上の配置

(C) Recruit Technologies Co.,Ltd. All rights reserved. 重視する性能で分類：スループット重視 8 
アナリティックDB  主に分析用途  大量のデータに対するデータ抽出・集計マスタデータベースＢＩツール集計バッチロード分析用途データベースレポート生成ジョブ抽出ＣＳV バッチロードレポート２０分で全件集計１０秒で全件取得

(C) Recruit Technologies Co.,Ltd. All rights reserved. 重視する性能で分類：スループット重視 9 
アナリティックDB  列志向アクセス 1 1982年生 2 1967年生 3 2000年生 4 2000年生男女女男 ID 年齢性別メモリ性別男女 1 男 4 女 1982年生 1967年生 2000年生 1 2 3 4 2 3 年齢 1982年生 1967年生 2000年生ディスク上の配置この方向のアクセスが高速 ID=2のデータ取り出すのは低速年齢の集計は高速インデックス

(C) Recruit Technologies Co.,Ltd. All rights reserved.  提供形態マネージド度合いで分類
10 H/W OS DMBS DBaaS DBMS クエリ API クエリクエリクエリサービス自前 • すべて自前 • 仮想マシンの上に DBMSをインストール • インスタンスタイプと起動時間で課金するものが多い • クエリを投げると結果が帰ってくる • クエリ単位課金や秒単位課金 • 自動スケール • クラウドに最適化オンプレクラウド DBサービスクエリサービス応答応答応答

(C) Recruit Technologies Co.,Ltd. All rights reserved. データベースの分類 11 Hadoop
RDB NoSQL クラウド DWH オンプレクエリサービス DBサービスオペレーショナルアナリティック

(C) Recruit Technologies Co.,Ltd. All rights reserved. Exadata BigQuery Amazon
RDS Amazon ElastiCache Oracle ADWC Amazon Redshift Amazon EMR Cloud Dataproc Amazon DynamoDB Oracle ATP Amazon Athena Azure HDInsight Hadoop RDB NoSQL Cloud Datastor e Cloud Spanner Amazon Aurora Cloud SQL クラウド Atlas DWH Azure SQL Data Warehouse オンプレクエリサービス DBサービス Cloud Firestor e オペレーショナルアナリティックデータベースの分類 12

RDS Amazon ElastiCache Oracle ADWC Amazon Redshift Amazon EMR Cloud Dataproc Amazon DynamoDB Oracle ATP Amazon Athena Azure HDInsight Hadoop RDB NoSQL Cloud Datastor e Cloud Spanner Amazon Aurora Cloud SQL クラウド Atlas DWH Azure SQL Data Warehouse オンプレクエリサービス DBサービス Cloud Firestor e オペレーショナルアナリティックデータベースの分類 13 速いレスポンス遅い低いスループット高い

RDS Amazon ElastiCache Oracle ADWC Amazon Redshift Amazon EMR Cloud Dataproc Amazon DynamoDB Oracle ATP Amazon Athena Azure HDInsight Hadoop RDB NoSQL Cloud Datastor e Cloud Spanner Amazon Aurora Cloud SQL クラウド Atlas DWH Azure SQL Data Warehouse オンプレクエリサービス DBサービス Cloud Firestor e オペレーショナルアナリティックデータベースの分類 14 管理不要カスタマイズできる価格弾力性

RDS Amazon ElastiCache Oracle ADWC Amazon Redshift Amazon EMR Cloud Dataproc Amazon DynamoDB Oracle ATP Amazon Athena Azure HDInsight Hadoop RDB NoSQL Cloud Datastor e Cloud Spanner Amazon Aurora Cloud SQL クラウド Atlas DWH Azure SQL Data Warehouse オンプレクエリサービス DBサービス Cloud Firestor e オペレーショナルアナリティックデータベースの登場順：オペレーショナル 15 1 2 2 3 3 4

RDS Amazon ElastiCache Oracle ADWC Amazon Redshift Amazon EMR Cloud Dataproc Amazon DynamoDB Oracle ATP Amazon Athena Azure HDInsight Hadoop RDB NoSQL Cloud Datastor e Cloud Spanner Amazon Aurora Cloud SQL クラウド Atlas DWH Azure SQL Data Warehouse オンプレクエリサービス DBサービス Cloud Firestor e オペレーショナルアナリティックデータベースの登場順：アナリティック 16 1 2 3 4 3 5 4

RDS Amazon ElastiCache Oracle ADWC Amazon Redshift Amazon EMR Cloud Dataproc Amazon DynamoDB Oracle ATP Amazon Athena Azure HDInsight Hadoop RDB NoSQL Cloud Datastor e Cloud Spanner Amazon Aurora Cloud SQL クラウド Atlas DWH Azure SQL Data Warehouse オンプレクエリサービス DBサービス Cloud Firestor e オペレーショナルアナリティックデータベースの分類：トランザクション 17 部分的サポート完全サポート部分的サポート Hive3.0でサポート

RDS Amazon ElastiCache Oracle ADWC Amazon Redshift Amazon EMR Cloud Dataproc Amazon DynamoDB Oracle ATP Amazon Athena Azure HDInsight Hadoop RDB NoSQL Cloud Datastor e Cloud Spanner Amazon Aurora Cloud SQL クラウド Atlas DWH Azure SQL Data Warehouse オンプレクエリサービス DBサービス Cloud Firestor e オペレーショナルアナリティックデータベースの分類 18 ビッグデータで使うのは主にココ越えられない壁

(C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータ処理基盤の基本的な構成 19 データ
レイクデータウェアハウス機械学習データソース BI・アプリデータ探索データマートレポート推論結果アプリ整形 DWH or （少量ならRDBも可） ↓ NoSQL ↓ オブジェクトストレージ or Hadoopのストレージ ↓ 集計加工アプリ ETL製品 or Hadoop ↓ Python等→

(C) Recruit Technologies Co.,Ltd. All rights reserved. RDBの概要  アーキテクチャの特徴
 行志向でデータ格納  インデックスを用いてデータを絞り込める  トランザクションを提供 22 オペレーショナル RDB クラウドクエリサービス DBサービスオンプレ Exadata Amazon RDS Oracle ATP Cloud Spanner Amazon Aurora Cloud SQL

(C) Recruit Technologies Co.,Ltd. All rights reserved. ストレージノードストレージノードストレージノード
Oracle Exadata  Oracle Exadata  ソフトウェアとハードウェアを密結合して、高いパフォーマンスを発揮 23 データベースノード HDD SSD 絞込み処理 HDD HDD HDD HDD SSD 絞込み処理 HDD HDD HDD HDD SSD 絞込み処理 HDD HDD HDD データベースノード CPU WHERE句を解釈し、読み込むブロックを最小化ディスクIOを削減キャッシュしてディスクIOを削減 CPUを多数搭載 40Gbpsのラック内SAN CPU CPU CPU CPU CPU 40G bps

(C) Recruit Technologies Co.,Ltd. All rights reserved. Google Cloud Spanner
 トランザクションを提供でき、かつワールドワイドで分散できるRDB  どうやっているか  トランザクションで「読み取り専用」か「ロック型読み書き」を宣言  読み取り専用の場合は、ロックを取らず、タイムスタンプで読むデータを判断する  データセンタ間で時刻を正確に同期する必要があるが、100%同期は不可能  そこで、データセンタ間の時間の差を吸収できるようにコミットを待つにする  各データセンタに原子時計を配置し、ノード間の時刻の差を最小化 →コミットの待ち時間を最小化  「RDBはスケールアウト出来ない」という時代は終わりつつある 24 tx2 tx1 tx3 t tx1完了時点のタイムスタンプのデータを読み取る

(C) Recruit Technologies Co.,Ltd. All rights reserved. Oracle ATP(Autonomous Transaction
Processing)  OracleCloudで提供されるOLTP DBサービス  2018/8に発表  99.995%のuptimeをSLAとして保証（計画停止含む）  自動オプティマイズ • DB自身が、インデックス・メモリ・パーティション・SQL実行計画などを自動的に最適化する。  高いパフォーマンス • Oracle Exadataをインフラとして動作する  高いスケーラビリティ • Oracle RAC上に構築され、物理サーバの制約を超えてスケールする  常時オンライン • 自動パッチ適用、高可用化構成、スキーマアップデートなどにより、常にオンラインを維持する 25 https://cloud.oracle.com/opc/paas/ebooks/ATP-eBook-final.pdf

(C) Recruit Technologies Co.,Ltd. All rights reserved. RDBの所感  「RDBはスケールアウトできない」という時代は終わりつつある
 RDBの代名詞であるOracle社がクラウドに全力投資。それぐらいクラウドな時代 26

(C) Recruit Technologies Co.,Ltd. All rights reserved. NoSQL  ひとことで言うと
 分散して、シンプルなオペレーションができるオペレーショナルDB  アーキテクチャの特徴  RDBとは異なり、以下の2つによりスケーラビリティを獲得 1. 「強い整合性」を犠牲にして「結果整合性」を採用 2. 分散しやすいデータモデルと、分散しやすいクエリだけを提供する 28 オペレーショナル RDB クラウドオンプレ Amazon ElastiCache Amazon DynamoDB Cloud Datastor e Atlas クエリサービス DBサービス Cloud Firestor e

(C) Recruit Technologies Co.,Ltd. All rights reserved. NoSQLがなぜスケールできるか  レガシーな手法(2PC)では整合性を保証するとスケールアウトが困難
 整合性を緩めればスケールアウトできる 29 アプリケーションアプリケーション整合性は保証される ②準備ＯＫ ④コミット ②準備ＯＫ ④コミット ②準備ＯＫ ④コミット ①コミット準備の確認 ③コミット指示アプリケーションアプリケーション待たされるＡＢＣ分散トランザクションでＡＢＣを一括更新アプリケーション待たされる待たされるアプリケーションスケールアウト構成更新一括更新はできないのでＡ→Ｂ→Ｃの順番で更新ＡＢＣ更新アプリケーションアプリケーションアプリケーションアプリケーション更新更新更新待たない更新更新割り込まれて整合性が崩れる可能性あり

(C) Recruit Technologies Co.,Ltd. All rights reserved. NoSQLがなぜスケールできるか  分散しやすいデータモデル
 データ間の参照関係を定義させない  分散しやすいクエリ  一つのデータでクエリが完結するようにする • トランザクションを提供しない • (トランザクショナルな)JOINを提供しない  最近のNoSQLでは  トランザクションも提供する  ただし、制約を設ける or 遅いことを許容してもらう 30 ユーザ１取引１取引２ユーザ１取引１トランザクション取引２参照制約結合

(C) Recruit Technologies Co.,Ltd. All rights reserved. ワイドカラムキーバリュークラウド
ドキュメントオンプレ NoSQLの分類方法 31 キー値キー値キー列 Amazon ElastiCache Amazon DynamoDB array hash 階層構造 Cloud Datastor e Atlas  データ構造での分類してもいいけど・・・クエリサービス DB サービス Cloud Firestore Cloud BigTable

(C) Recruit Technologies Co.,Ltd. All rights reserved. NoSQLの分類方法  レスポンスタイム追求型と開発容易性追求型で分類した方がよい
32 Cloud Datastor e Atlas Cloud Firestore Cloud BigTable Amazon ElastiCache レスポンスタイム追求型開発容易性追求型 Amazon DynamoDB

(C) Recruit Technologies Co.,Ltd. All rights reserved. MongoDB  MongoDB
 JSONをデータモデルとして扱うDB  Mongoクエリ言語でデータ操作  インデックスや集計など、アプリケーション開発に便利な機能が多い  アプリフレームワークに組み込まれ、JSONストアとして広く使われている  Version 4.0ではトランザクションをサポート  MongoDB Atlas  MongoDBサービス  AWS,Azure,GCP上で利用可能  Web画面からMongoDBをデプロイして利用できる  自動監視、自動アラート、自動バックアップ、ポイントインタイムリカバリ、自動ローリングアップデートなど、多くの管理タスクが自動化されている 33 db.person.find( {"name":"watanabe","age": 30 } ).limit(3)

(C) Recruit Technologies Co.,Ltd. All rights reserved. Cloud Firestore 
アプリケーション開発ベース「Firebase」で用いるNoSQL  JSONのような階層構造データを格納  クライアント間でリアルタイムにデータ同期できる  モバイルアプリ開発でよく使われている  端末がオンラインになったタイミングでサーバと同期  データをSDKに投げ込めば、他の端末と同期できる  もはやアプリケーション開発者はDBを意識しない 34 ローカルキャッシュ { "KEY","VALUE"} Cloud Firestore { "KEY","VALUE"} { "KEY","VALUE"} ローカルキャッシュ

(C) Recruit Technologies Co.,Ltd. All rights reserved. NoSQLの所感  レスポンスを追求するDBと、開発容易性を追求するDBに分かれてきた
 開発容易性を追求するDBでは以下の機能を拡張  DBサービス化、クエリサービス化  トランザクションサポート  SQLサポート  マルチモデルサポート 35

(C) Recruit Technologies Co.,Ltd. All rights reserved. Hadoop 37 アナリティクス
Hadoop クラウドオンプレ Amazon EMR Cloud Dataproc Amazon Athena Azure HDInsight クエリサービス DBサービス  ひとことで言うと  分散したファイルに、様々な分散処理をできるソフトウェア群  処理のイメージ  レスポンス：数十分〜数時間  データサイズ：全データ  計算：分散できる計算なら何でも

(C) Recruit Technologies Co.,Ltd. All rights reserved. Hadoop  アーキテクチャ
 データはファイル  ストレージと処理が分離  途中でノードがダウンしても処理を継続 38 分散ファイルシステム分散処理エンジン ABC A B C クライアント計算ノード計算ノード計算ノードコーディネータ ①データの配布 ②提出 ③計算計算結果プログラムプログラムクライアントプログラムプログラム

(C) Recruit Technologies Co.,Ltd. All rights reserved. NoSQLとHadoopの違い NoSQL 39
分散ファイルシステム (HDFS等) 分散処理フレームワーク (MapReduce, Spark等) ABC A B C クライアント計算ノード計算ノード計算ノードコーディネータ ①データの配布 ②提出 ③計算計算結果プログラムプログラムクライアントプログラムプログラム NoSQL シャードシャードシャード A クエリルータ B C アプリケーション２アプリケーション１クエリA クエリB Hadoop

(C) Recruit Technologies Co.,Ltd. All rights reserved. Hadoopの詳細な構成要素 40 プロダクト
分散ファイルシステム分散処理エンジンクラウドクエリサービス DBサービスオンプレ EMR S3 Impala Cloud Dataproc GCS Athena SQL on Hadoop S3 Azure BLOB Storage Azure HDInsight MapR FS

(C) Recruit Technologies Co.,Ltd. All rights reserved. クラウドのHadoop  特徴
 分散処理エンジンとストレージの分離  データはオブジェクトストレージに格納  計算ノードは使い捨て。負荷に応じて計算ノードの台数変更  Hortonworks, Clouderaも対応 41 Slave Slave Slave HDFS(MapR-FS) オブジェクトストレージ Master データデータコンテナデータデータコンテナデータデータデータデータ計算コンテナ Master コンテナ計算コンテナ計算コンテナオンプレのHadoop クラウドのHadoop NEW NEW データ移動が必要データ移動不要 0:00 12:00 0:00 12:00 クラスタ起動台数オンプレクラウド計算に必要なリソース

(C) Recruit Technologies Co.,Ltd. All rights reserved. 最新のHive 3.0 
DWHの機能を拡充してきている  オブジェクトストレージやRDBとJOINできるように  ACIDトランザクション  マテリアライズド・ビュー  リザルトキャッシュ  行単位・カラム単位制御  同時実行制御。重いクエリをどかして、軽いクエリが流れるようにする制御  一つのクエリで、ACIDテーブルとリアルタイムデータの両方にクエリできるように 42

(C) Recruit Technologies Co.,Ltd. All rights reserved. DWHの概要  ひとことで言うと
 データの抽出・集計に特化したRDB  処理イメージ  レスポンス：数秒、数分  データサイズ：直近１３ヶ月  計算：SQLベース  アーキテクチャの特徴  列志向で圧縮してデータ格納  データ抽出の高速化 • データのパーティショニング • ハードウェアをDWH用に最適化  UPDATEやDELETEは遅い（or できない） 45 オペレーショナル NoSQL クラウド QUERYaaS DBaaS オンプレ Exadata BigQuery Oracle ADWC Amazon Redshift Azure SQL Data Warehouse

(C) Recruit Technologies Co.,Ltd. All rights reserved. Amazon Redshift 
特徴  RedShiftの裏にS3のデータをフィルタするSpectrum Layerを用し、IOのスループットを向上  ロングクエリとショートクエリを機械学習を用いて分離し、全体最適化 46 Spectrum Layer (不可視領域) Data Catalog L C C C SQL S3 Get S S S S ・・・ S3 RedShift

(C) Recruit Technologies Co.,Ltd. All rights reserved. Google BigQuery 
BigQueryとは  GoogleがSQL on Hadoopを進化させて作ったDWH  クエリ課金  処理が高速 • H/Wの最適化 • 独自の通信プロトコル • クエリ毎に動的なリソース割当 47 分散ストレージ Colossus File System シャードシャードシャードシャードシャードミキサーミキサーミキサールートミキサー参考)オライリー・ジャパン社「BigQuery」

(C) Recruit Technologies Co.,Ltd. All rights reserved. Google BigQuery 
Webブラウザでクエリ開発  URLでテーブル共有可能  Googleアカウントとの統合  ユーザアカウント管理不要  データ共有  １クリックでデータ共有可能。ETL不要  BigQuery上で企業間データ交換できるプラットフォームが登場  機械学習：BigQueryML  BigQueryにあるデータを移動すること無く機械学習できる  pythonベースの機械学習では困難だった大量データの扱いが簡単に  スケジュールドクエリ  SQLの中にスケジュールを書くと定期実行してくれる  cronやジョブスケジューラ不要  コラボレーション：Colaboratory  jupyter notebookでBigQueryのクエリと結果をチームで共有 48

(C) Recruit Technologies Co.,Ltd. All rights reserved. snowflake  DWHサービス
 AWSとAzure上で動作するが、ユーザは意識しない  秒課金  データ共有  複数組織で使うことを想定した設計  Webブラウザから使える  ETLの同梱  管理不要  Table単位での自動バックアップとポイントインタイムリカバリ 49 https://www.slideshare.net/mmotohas/snowflake- architecture-andperformance20180421 データ計算計算計算組織A 組織B 組織C

(C) Recruit Technologies Co.,Ltd. All rights reserved. Oracle ADWC(Autonomous Data
Warehouse Cloud)  2017/10に発表  Oracle Cloud上で提供されるDWHサービス  Exadataの上に作られていて、列志向処理, 圧縮, 分散処理ができる  コンピュートとストレージの分離、ダウンタイムなし、リソース消費の料金体系  Oracle object store, S3, オンプレからデータロードできる  WebベースのSQL notebook、データ共有が可能  Redshift, SQL Serverからのマイグレーション機能  自動パッチ、バックアップ、パフォーマンス最適化 51 http://www.oracle.com/technetwork/database/bi-datawarehousing/adwc-ebook-4081945.pdf

(C) Recruit Technologies Co.,Ltd. All rights reserved. DWHの所感  BigQuery,
snowflake, Oracle ADWC, いずれもDB以外の似たような機能を拡充している。これが時代の潮流だろう。  今後のDWHでは以下の機能が実現されていくだろう。  Webブラウザから使える  標準SQL  クエリ課金  クラウドのオブジェクトストレージにあるデータを扱える  会社・組織を意識したデータ共有の仕組み  会社・組織を意識したアカウント管理  機械学習へのシームレスな連携  可視化ツールへのシームレスな連携  ETL同梱  メタデータ管理  ジョブ管理 52

(C) Recruit Technologies Co.,Ltd. All rights reserved. Spark  Spark
 データサイエンティストのために作られた分析ライブラリ群  Hadoopが無くても動く  データベースではない • データ蓄積はHadoopのHDFSでもよいし、そうでなくても良い  以下の様なものが含まれる • Spark 本体：メモリベースで集計などをする • Spark MLib：機械学習 • Spark SQL：SQLライクなインターフェース • Spark Stream：マイクロバッチ  Azure databricks / databricks on AWS  クラウドで利用できるSparkベースの分析プラットフォームサービス  Sparkクラスタの管理・ジョブ管理・notebookによるコラボレーション等、データサイエンスに集中できるような周辺機能を提供している。 54

(C) Recruit Technologies Co.,Ltd. All rights reserved. マイクロバッチ  続々と流れてくるデータに対して、短い期間で集計を行う処理
 データベースではない。データを永続化しない。  ユースケース  データレイクに入れる前のwindow集計  即時性アプリ • 初回来訪者の属性推定 / デバイス異常値検出 55 Kinesis Analytics Kinesis Streams マイクロバッチマイクロバッチ PUB （出版) SUB (購読) 分散キュークライアントクライアントクライアントクライアント Cloud PubSub データレイクアプリ

(C) Recruit Technologies Co.,Ltd. All rights reserved. Sparkとマイクロバッチの使い所 56 データ
レイクデータウェアハウス機械学習データソース BI・アプリデータ探索データマートレポート推論結果アプリ整形 DWH or （少量ならRDBも可） ↓ NoSQL ↓ オブジェクトストレージ or Hadoopのストレージ ↓ 集計加工アプリ ETL製品 or Hadoop ↓ ←Spark スピードバッチマイクロバッチ ↓ ↑ Spark Python等→

(C) Recruit Technologies Co.,Ltd. All rights reserved. まとめ  データベースを分類
 重視する性能での分類：オペレーショナル／アナリティック  マネージド度合いでの分類：オンプレ／DBサービス／クエリサービス  RDB  トランザクションがスケールする時代  RDBの代名詞Oracle社もクラウド全力投資  NoSQL  レスポンス性能追求と開発容易性追求で分類すべき  開発容易性を追求するとDBを意識しない状態になる  Hadoop  クラウド＆オブジェクトストレージ利用が当たり前に  HiveはDWHの機能を拡張  DWH  クエリサービスが今後の主戦場  DB以外の周辺機能が差別化ポイント 58

ビッグデータ処理データベースの全体像と使い分け 2018年version

ビッグデータ処理データベースの全体像と使い分け 2018年version

More Decks by Recruit Technologies

Other Decks in Technology

Featured

Transcript

ビッグデータ処理データベースの全体像と使い分け 2018年version

ビッグデータ処理データベースの全体像と使い分け 2018年version