Slide 24
Slide 24 text
?
?
?
THE PROBLEM OF TRADITIONAL
D a t a P i p e l i n e s
Scalability ในแง่ของการจัดการ – การจัดการ Pipeline จำนวนมาก ทั้งใน
เรื่องของ Script และตารางเวลา (Schedule) ที่เกี่ยวข้องกับความถี่ในการรัน
Pipeline
Scalability ในแง่ของการประมวลผล – ในเรื่องของประสิทธิภาพ จะทำ
อย่างไรถ้าแต่ละ Task ใช้เวลารันนาน หรือรันไม่สำเร็จ หรือหากทรัพยากรใน
การรันไม่เพียงพอ จะขยายอย่างไร?
การเชื่อมต่อกับระบบต่าง ๆ – การเชื่อมต่อกับฐานข้อมูล เช่น RDBMS, AWS,
Hive, HDFS ฯลฯ โดยมีการตั้งค่า เช่น Host Address, Port, ID, Password,
Schema ฯลฯ จะจัดการอย่างไร?
การตรวจสอบ (Monitoring) – จะติดตามผลอย่างไรถ้ารันไม่สำเร็จ?
การรันซ้ำ (Re-running) – จะสามารถรันซ้ำในขั้นตอนเฉพาะเจาะจงได้
อย่างไร?