Slide 11
Slide 11 text
11
Copyright©2016 NTT corp. All Rights Reserved.
• やること
• データを保存する
• 前処理基盤からのデータの読み書き
• データ処理基盤からデータの読み書き
• 評価軸
(データ解析特有の箇所にのみ焦点を当てて説明)
• 前処理・データ分析処理を行う際に利用する基盤からの対応状況
• 主要な方式
• NAS などのストレージへの保存
• 利点: 一般的なファイルとして扱えるため対応ツールが多い
• 欠点: 分散しずらい、分散実装のOSSがあまりない
• データベースへの保存: PostgreSQL, MySQL, Oracle DB etc.
• 利点:一般的なデータベースとして扱えるため対応ツールが多い、
データベースに組み込まれている高性能なの性能解析機能を利用可能
• 欠点:分散しずらい、スキーマが事前定義されている必要がある
• 特化型ストレージ・特化型データベースへの保存
(HDFS, S3, Cassandra, Riak, etc・Nettiza, Vertica, etc)
• 利点:専用にシステムが組まれているため特定の用途で性能面・運用面で
大きな利点があることが多い
• 欠点:専用ツールであるため対応ツールが少ないことが多い
保存
Integrating Spark at Petabyte Scaleより引用
http://goo.gl/OSEJAg