자원" ◦ 전제: 거대한 데이터를 싸고 빠르게 처리할 수 있는 기술의 존재. • Hadoop (2006): 빅데이터 혁명의 시발점이 된 기술 ◦ Commodity hardware 상에서 돌아가는 분산 연산 프레임워크 ◦ “일반 PC를 잔뜩 끌어모아다 설치만 하면 슈퍼컴퓨터 수준의 연산을 수행할 수 있다!” ◦ Terabyte Sort benchmark 우승 (2008) • Google 논문을 오픈소스로 구현한 것 (Yahoo) ◦ Google File System (2003), MapReduce (2004)
걸 필요로 하는 데가 있겠어? 학술적으로는 가치가 있겠지.” (feat. Google) ◦ “직접 구현하는 것 외에는 방법이 없겠군.” (feat. Doug Cutting) • Apache Nutch의 sub 프로젝트 → 독립 프로젝트 ◦ 검색 인덱스를 구축하기 위한 수단 → 범용 연산 프레임워크 ◦ 프로젝트 시작 (2006.01) ◦ 0.1.0 출시 (2006.04) ◦ 3개 기업에 의해 도입 (2007.06) ▪ Facebook을 포함, 20개 기업에 의해 도입 (2008.01)
◦ Hive: Hadoop 기반 data warehousing system ◦ HBase: Hadoop 기반 storage system ◦ Giraph: Hadoop 기반 graph computation system ◦ Pig, Sqoop, etc ... • 문제 제기 ◦ Scalability 문제 ▪ 4000 node 문제 ◦ 프로그래밍 모델에 대한 불만 ▪ MapReduce model
(2013) ◦ MapReduce 연산 모델 프레임워크 → 범용 병렬 연산 프레임워크 ◦ 설계 변경 ▪ 4000 node 문제 해결: 10000 node ~ ▪ 다양한 병렬 연산 모델을 지원하기 시작 • MapReduce 모델은 그저 연산 모델 중 하나일 뿐! • 대체, 그리고 확장 ◦ Hadoop의 요소들은 하나씩 대체 + Hadoop에 의해 필요성이 제기되었던 프로젝트들의 등장 ◦ Spark: In-memory distributed computing ◦ Kafka: Stream processing