Dữ liệu lớn và Các bước tiếp cận Apache Spark

Dữ liệu lớn và các bước tiếp cận: Apache Spark
Ông Xuân Hồng Research engineer @ TrustingSocial

Nội dung • Tổng quan hệ thống Big Data •
RDD cơ bản • Data Frame cơ bản • Demo • Kinh nghiệm • Tìm hiểu thêm

Tổng quan hệ thống Big Data Message queue Processing Storage
Management • Amazon Kinesis • SQS • Apache Kafka • Apache Spark • Apache Storm • Apache Flink • Hadoop • AWS S3, Google storage • NoSQL • Jenkins • Git • Docker • Ansible • Travis

• RDD: Resilient Distributed Dataset. • Immutable: không thay đổi
được, chỉ có thể tạo ra RDD mới. • Lazy evaluated: tính toán để đó, chừng nào có Action mới thực thi. • Distributed: phân tán trên các cluster/workers. RDD cơ bản

RDD cơ bản • Master/Driver ◦ Chuyển program thành các
tasks cho các workers. ◦ Scheduling tasks để các workers hoạt động đồng bộ với nhau. • n-Cluster/Executors ◦ Hoàn thành các tasks và trả kết quả về Driver. ◦ Cache dữ liệu khi được yêu cầu. • SparkContext dùng để tạo RDDs.

RDD cơ bản Transformations Actions • map() • flatMap() •
filter() • distinct() • sample() • collect() • count() • countByValue() • take() • top() • takeOrdered() Các thao tác transformations chỉ được thực thi khi lệnh Actions được gọi. Ví dụ: hàm action collect() sẽ trigger hàm transformations map() thực hiện tính toán của mình.

Data Frame cơ bản • Kế thừa từ RDDs. •
Tối ưu hoá hiệu suất tính toán nhờ Spark-SQL Catalyst optimizer. • Hỗ trợ thao tác ETL dễ dàng hơn nhờ SQL-like. • Học tập từ Python/Pandas và R Dataframe mô phỏng dữ liệu dạng bảng.

Data Frame cơ bản

Demo Installation • pip • pip install virtualenv • pip
install pandas • cd ~ • mkdir virtualenv • cd virtualenv • virtualenv topdevlibs • source topdevlibs/bin/activate • pip install jupyter • brew install apache-spark • create pyspark profile ◦ export PATH=$PATH:/usr/local/Cellar/apache-spark/2.2.0/bin ◦ export PYSPARK_DRIVER_PYTHON=jupyter ◦ export PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark • pyspark

Demo Notebooks • RDD cơ bản • Dataframe cơ bản
• More about Spark

• Nên dùng Notebook để dễ code và kiểm tra
hiệu suất. • Nên dùng Schema để load đúng định dạng dữ liệu. • Binary (parquet, gzip) > Text (csv, json), File > Database. • Tự tạo dữ liệu Big Data bằng Mockaroo. • Nên sử dụng cache khi bảng dữ liệu được sử dụng nhiều lần tiếp đó. • Nên xoá cache trước khi khởi tạo cache mới để tránh tràn bộ nhớ. • Đối với bảng dữ liệu lớn nên lưu bảng tạm ra đĩa thay vì cache. • Code SparkSQL sáng sủa hơn Dataframe built-in function. • Upgrade lên version 2.0 khi có thể để tối ưu tính toán và quản lý bộ nhớ. • Học thông qua: ◦ Thực hành ◦ Cheat sheet ◦ Side project Kinh nghiệm

Tìm hiểu thêm • Thiết lập driver/workers với Zookeeper, Mesos,
Marathon, Chronos. • Configuration cho Spark • Cách deploy bằng Docker. • Databricks community. • Load dữ liệu từ các source khác (MongoDB, MySQL, PostgreSQL, S3, JDBC, Cassandra …) • Làm việc với AWS S3, Google Cloud Storage. • Python vs Scala vs R. • Spark Dataframe vs Pandas Dataframe. • Cache vs Persist. • Cài notebook cho Spark Scala. • Cấu hình hệ thống notebook cho từng yêu cầu hệ thống khác nhau (spark-small, spark-medium, spark-large, spark-extra).

Dữ liệu lớn và Các bước tiếp cận Apache Spark

Dữ liệu lớn và Các bước tiếp cận Apache Spark

Hong Ong

More Decks by Hong Ong

Other Decks in Technology

Featured

Transcript

Dữ liệu lớn và các bước tiếp cận: Apache Spark

Nội dung • Tổng quan hệ thống Big Data •

Tổng quan hệ thống Big Data Message queue Processing Storage

• RDD: Resilient Distributed Dataset. • Immutable: không thay đổi

RDD cơ bản • Master/Driver ◦ Chuyển program thành các

RDD cơ bản Transformations Actions • map() • flatMap() •

Data Frame cơ bản • Kế thừa từ RDDs. •

Data Frame cơ bản

Data Frame cơ bản

Demo Installation • pip • pip install virtualenv • pip

Demo

Demo Notebooks • RDD cơ bản • Dataframe cơ bản

• Nên dùng Notebook để dễ code và kiểm tra

Tìm hiểu thêm • Thiết lập driver/workers với Zookeeper, Mesos,