巨大なデータセットの蓄積およびデータ処理を複数の計算機に分散する 並列分散処理基盤 Hadoop Distributed File System(HDFS) • Hadoopエコシステム内のあらゆるデータ処理エンジンのデータストア • 単一のストレージサブシステムでは保持しきれない巨大なデータセット を安価に効率よく保持するファイルシステム MapReduce • 単一の計算機では時間のかかる処理を複数のノードで分担して処理 可能なデータ処理API(Java、C#、Pythonなど) • 複数ノードへのタスク分割、ノード間の排他制御などが抽象化された 分散処理プログラミングモデル • 高スループットを必要とするバッチ処理向き、OLTPには向かない Yet Another Resource Negotiator (YARN) • クラスタ内の計算リソース管理ツール • 計算リソースの死活監視、利用状況を管理し、アプリケーション (MapReduce)からのリソース要求を処理する HDFS YARN 大規模データ セットを複数ノー ドに分散して蓄 積 クラスタ内の計 算リソースを監 視、管理 複数ノードを意 識しないプログラ ミングモデル import java.io.IOException; import java.util.StringTokenizer; public class WordCount { public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); ・・・・・ ・・・・・ Example.java 2022/5/31