Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Apache Zeppelin으로 데이터 분석하기

VCNC
January 19, 2015
2.5k

Apache Zeppelin으로 데이터 분석하기

Apache Zeppelin
- 데이터 분석가, 개발자들을 위한 웹기반 노트북, 시각화 툴
- Spark, SparkSQL의 결과를 바로 차트로 그릴 수 있음
- 2014년 12월에 Apache 소프트웨어 재단의 Incubating
프로젝트가 됨
- Apache Tajo, Apache Flink 등 다양한 엔진을 결합 시도

Zeppelin을 추천합니다
- 간단하게 데이터 분석을 시작해보려는 사람
- Spark을 처음 시작하려는 사람
- Dashboard를 빠르게 만들고 싶은 사람
- 민첩하게 이런저런 데이터를 살펴보고 분석하는 작업
- 오픈소스 프로젝트에 참여해보고 싶은 사람

VCNC

January 19, 2015
Tweet

Transcript

  1. Apache Zeppelin ਵ۽ ؘ੉ఠ ࠙ࢳೞӝ 2015-01-19 झࢎݽ (ೠҴ झ౵௼ ࢎਊ੗

    ݽ੐) https://www.facebook.com/groups/sparkkoreauser/ ӣ࢚਋, VCNC(࠺౟ਦ), Zeppelin ழ޷ఠ [email protected], [email protected] powered by
  2. Apache Zeppelin • ؘ੉ఠ ࠙ࢳо, ѐߊ੗ٜਸ ਤೠ ਢӝ߈ ֢౟࠘, दпച

    ో • Spark, SparkSQL੄ Ѿҗܳ ߄۽ ର౟۽ Ӓܾ ࣻ ੓਺ • 2014֙ 12ਘী Apache ࣗ೐౟ਝয ੤ױ੄ Incubating ೐۽ં౟о ؽ • Apache Tajo, Apache Flink ١ ׮নೠ ূ૓ਸ Ѿ೤ दب
  3. ӝઓ੄ Workflow ؘ੉ఠ ੷੢ ؘ੉ఠ ੿ઁ, ୊ܻ ਃড ؘ੉ఠ दпച

    Ҋә ࠙ࢳ • ׮নೠ ઁಿਸ ઑ೤ೞৈ ؘ੉ఠ ࠙ࢳਸ ೞחѪ੉ ੌ߈੸ • ݆਷ ূ૑פয݂੉ ೙ਃೣ • ׮ߑݶী ҃೷ ݆਷ ࠙ࢳоٜ ഑਷ ౱੄ ੹ਬޛ • ౵੉೐ۄੋ੉ ࠂ੟ೞӝী, Ҋ੢աӝ औҊ ਬ૑ࠁࣻ য۰਑
  4. ࢜۽਍ Workflow ؘ੉ఠ ੷੢ ؘ੉ఠ ੿ઁ, ୊ܻ ਃড ؘ੉ఠ दпച

    Ҋә ࠙ࢳ ؘ੉ఠ ੿ઁ, ୊ܻ, ਃড ؘ੉ఠ दпച, Ҋә ࠙ࢳө૑ ੹ࠗ Sparkҗ Zeppelinਵ۽ ೧Ѿ
  5. Notebook (3) • ৈ۞ѐ੄ ֢౟࠘ਸ ࢤࢿ, ݾ۾ਵ۽ ҙܻ оמ •

    ࠙ࢳ ੘স ௏٘ ߂ Ѿҗޛਸ ബਯ੸ਵ۽ ҙܻ
  6. Visualization • Spark SQL ࣻ೯ Ѿҗܳ Table, Line Chart, Pie

    Chart ١ ׮নೠ ഋక۽ दпച • Spark੄ જ਷ ࢿמ ؋࠙ী ؀ࠗ࠙ ௏٘о ૊द प೯غ޲۽ interactive ೞѱ ؘ੉ ఠܳ ׮ܙ ࣻ ੓ѱ ؽ
  7. Visualization (2) • HTMLਸ ಴അ оמೞ޲۽, ప੉࠶ী ੉޷૑ܳ ಴दೞѢա, linkܳ

    ֍Ѣա ೞח ١੄ ز੘੉ оמ • SparkSQL੄ рಞೠ UDF(User Defined Function) ١۾ ӝמҗ Ѿ೤ೞݶ ಞܻೣ
  8. Dashboard • Default, Simple, Report ࠭ ݽ٘ܳ ઁҕೣ • ௏٘ܳ

    о۰઱ח Report ࠭ ݽ٘ܳ ഝਊೞݶ Dashboardܳ ࡅܰѱ ٜ݅ࣻ ੓਺ • ௏٘৬ ର౟ٜ੉ ೠҵؘ ੓ਵ޲۽ ࣚऔѱ ಕ੉૑ܳ ࢜۽ ٜ݅Ҋ, ਬ૑ ҙܻ оמ
  9. Dashboard (2) • ੗୓੸ਵ۽ Schedule ӝמ ղ੢ • ݒੌ ഑਷

    ݒ दр সؘ੉౟ غח Dashboardա, Batch੘সਸ ҙܻೞӝ ਊ੉ೣ
  10. Zeppelinਸ ୶ୌ೤פ׮ • рױೞѱ ؘ੉ఠ ࠙ࢳਸ द੘೧ࠁ۰ח ࢎۈ • Sparkਸ

    ୊਺ द੘ೞ۰ח ࢎۈ • Dashboardܳ ࡅܰѱ ٜ݅Ҋ र਷ ࢎۈ • ޹୏ೞѱ ੉۠੷۠ ؘ੉ఠܳ ࢓ಝࠁҊ ࠙ࢳೞח ੘স • য়೑ࣗझ ೐۽ં౟ী ଵৈ೧ࠁҊ र਷ ࢎۈ