Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Open Source, Big Data, and Everything

Lee Dongjin
October 16, 2018

Open Source, Big Data, and Everything

오픈소스, 빅데이터, 그리고 모든 것. 오픈소스와 빅데이터 처리 기술의 관계는 무엇인가?
2018년 10월, 제 2회 공개 소프트웨어 커뮤니티 데이 키노트 스피치.

The relationship between open source and big data.
Keynote speech of Open Source Community Day 2018, Seoul, Korea.

Slides: Korean. Presentation: Korean.

Lee Dongjin

October 16, 2018
Tweet

More Decks by Lee Dongjin

Other Decks in Technology

Transcript

  1. 오늘 이야기할 내용은... • 오픈소스 (Open Source) • 빅데이터 (Big

    Data) • 좀 더 구체적으로… ◦ 왜 오픈소스가 빅데이터 처리 기술을 이끌고 있는가? ◦ 빅데이터 처리에 사용되는 오픈소스 기술에는 어떤 것들이 있는가?
  2. 오픈소스: 초간단 설명 • ‘공개 개발’ (public development) ◦ 소스코드

    공개 ◦ 재창작, 재배포 허용 ◦ 커뮤니티에 의한 개발 및 배포 (암묵적 특징)
  3. 오픈소스의 장점 • 모험적인 신기술의 도입 • 커뮤니티의 확장으로 인한

    발전 • 기존 기술을 기반으로 한 추가적인 확장 ◦ 생태계(ecosystem)의 형성
  4. 사례: Apache Hadoop (2006) • "빅데이터 혁명" = "데이터가 곧

    자원" ◦ 전제: 거대한 데이터를 싸고 빠르게 처리할 수 있는 기술의 존재. • Hadoop (2006): 빅데이터 혁명의 시발점이 된 기술 ◦ Commodity hardware 상에서 돌아가는 분산 연산 프레임워크 ◦ “일반 PC를 잔뜩 끌어모아다 설치만 하면 슈퍼컴퓨터 수준의 연산을 수행할 수 있다!” ◦ Terabyte Sort benchmark 우승 (2008) • Google 논문을 오픈소스로 구현한 것 (Yahoo) ◦ Google File System (2003), MapReduce (2004)
  5. Hadoop: 모험적인 신기술의 도입 • 수요조차 없던 기술 ◦ “이런

    걸 필요로 하는 데가 있겠어? 학술적으로는 가치가 있겠지.” (feat. Google) ◦ “직접 구현하는 것 외에는 방법이 없겠군.” (feat. Doug Cutting) • Apache Nutch의 sub 프로젝트 → 독립 프로젝트 ◦ 검색 인덱스를 구축하기 위한 수단 → 범용 연산 프레임워크 ◦ 프로젝트 시작 (2006.01) ◦ 0.1.0 출시 (2006.04) ◦ 3개 기업에 의해 도입 (2007.06) ▪ Facebook을 포함, 20개 기업에 의해 도입 (2008.01)
  6. Hadoop: 커뮤니티의 확장으로 인한 발전 • 인터넷 기업들이 도입해 쓰기

    시작 ◦ Facebook, Linkedin, Twitter, eBay, … • 커뮤니티가 확장되면서 급속도로 발전 • 기존 대기업들도 도입 ◦ 전문 기업 등장 ▪ Cloudera (2008.10) ▪ Hortonworks (2011.06)
  7. Hadoop: 진화, 그리고 추가적인 확장 (1) • 주변 기술들의 등장

    ◦ Hive: Hadoop 기반 data warehousing system ◦ HBase: Hadoop 기반 storage system ◦ Giraph: Hadoop 기반 graph computation system ◦ Pig, Sqoop, etc ... • 문제 제기 ◦ Scalability 문제 ▪ 4000 node 문제 ◦ 프로그래밍 모델에 대한 불만 ▪ MapReduce model
  8. Hadoop: 진화, 그리고 추가적인 확장 (2) • Hadoop 2.0 이후

    (2013) ◦ MapReduce 연산 모델 프레임워크 → 범용 병렬 연산 프레임워크 ◦ 설계 변경 ▪ 4000 node 문제 해결: 10000 node ~ ▪ 다양한 병렬 연산 모델을 지원하기 시작 • MapReduce 모델은 그저 연산 모델 중 하나일 뿐! • 대체, 그리고 확장 ◦ Hadoop의 요소들은 하나씩 대체 + Hadoop에 의해 필요성이 제기되었던 프로젝트들의 등장 ◦ Spark: In-memory distributed computing ◦ Kafka: Stream processing
  9. 정리 • 오픈소스의 장점 ◦ 모험적인 신기술의 도입 ◦ 커뮤니티의

    확장으로 인한 발전 ◦ 기존 기술을 기반으로 한 추가적인 확장 • 빅데이터 생태계는 오픈소스의 대표적인 성공사례 ◦ Machine Learning, AI, Blockchain 등에도 적용되는 모델