National Telecom Data & AI Hackathon

Slide 1

Slide 1 text

Data & AI Hackathon National Telecom Public Company Limited BOOTCAMP D A Y 4 Presented by : Date : PUNSIRI BOONYAKIAT 25 APRIL 2024

Slide 6

Slide 6 text

🤖Unsupervised Learning การเรียนรู้นี้เป็นการเรียนรู้เพื่อเข้าใจข้อมูลให้มากขึ้น แต่เป็นการป้อนข้อมูลที่ไม่มีป้ายติดกำกับ (Unlabeled Data) แตกต่างกับ Supervised Learning ที่มีคำตอบที่ถูกต้องเปรียบเสมือนการฝึกสอนอัลกอริทึม Unsupervised learning จะไม่มีคำตอบที่ถูก ต้อง และแบ่งออกเป็น 2 ประเภทหลักๆ (1)Clustering การจำแนกกลุ่มข้อมูล เช่นกลุ่มที่จำแนกโดยพฤติกรรมการสั่งซื้อ (2)Association การจำแนกข้อมูลแบบเกี่ยวข้อง เช่นกลุ่มที่มีพฤติกรรม B มักจะเป็นพฤติกรรม C ด้วย 🤖Supervised Learning เป็นการเรียนรู้โดยมีข้อมูลที่ที่ติดป้ายเอาไว้ (Labeled Data) เช่นตัวเลข หรือเป็นรูปภาพผลไม้ส้มแมนดารินที่มีการติดป้ายกำกับไว้ว่า เป็นส้มแมนดาริน การฝึนสอนอัลกอริทึมนี้จำเป็นต้องใช้ข้อมูล Labeled Data อันมหาศาล และข้อมูลเหล่านี้มีคำตอบที่ถูกต้องอยู่ เพื่อให้อัลกอริทึมมีความแม่นยำที่สุด โดย Supervised Learning แบ่งออกเป็น 2 ประเภทหลักๆ คือ (1)Classification ผลลัพธ์ เป็นแบบหมวดหมู่เช่น สีขาว หรือสีฟ้า ใช่หรือไม่ใช่ (2)Regression ผลลัพธ์เป็นตัวเลขเช่น จำนวนเงิน น้ำหนัก

Slide 12

Slide 12 text

Elbow Method เป็นเทคนิคที่ใช้สำหรับการหาจำนวนกลุ่มที่เหมาะสมในการจัดกลุ่มข้อมูล (clustering) โดยใช้ K-means clustering algorithm วิธี Elbow Method สำหรับการหาจำนวนกลุ่มที่เหมาะสมใน K-means Clustering วิธีการหาจำนวนกลุ่มที่เหมาะสม: รัน K-means clustering algorithm โดยใช้ค่า k ที่แตกต่างกันหลายค่า 1. คำนวณค่า WCSS สำหรับแต่ละค่า k 2. สร้างกราฟ Elbow Method โดยใช้ค่า WCSS และค่า k ที่คำนวณได้ 3. เลือกจำนวนกลุ่ม (k) ที่อยู่บริเวณ "elbow" 4. ในช่วงแรก ค่า WCSS จะลดลงอย่างรวดเร็ว เมื่อจำนวนกลุ่ม (k) เพิ่มขึ้น เมื่อจำนวนกลุ่ม (k) เพิ่มขึ้นถึงจุดหนึ่ง ค่า WCSS จะเริ่มลดลงช้าลง จุดที่ค่า WCSS เริ่มลดลงช้าลงนี้ เรียกว่า "elbow" หลักการของ Elbow Method: กราฟ Elbow Method จะแสดงค่า Within-Cluster Sum of Squares (WCSS) บนแกน Y ค่า WCSS คือ ผลรวมของระยะห่างระหว่างจุดข้อมูลแต่ละจุดกับจุดกึ่งกลาง (centroid) ของกลุ่มที่มันถูกจัดกลุ่มไว้ Within-Cluster Sum of Squares (WCSS)

Slide 16

Slide 16 text

PCA is not scale invariant ค่าของ PCA จะเปลี่ยนแปลงไป ถ้ามีการปรับขนาดข้อมูล (scaling) ตัวอย่างเช่น ถ้าเราเปลี่ยนหน่วยวัดจากเซนติเมตรเป็นมิลลิเมตร ผลลัพธ์ของ PCA อาจจะแตกต่างกัน ทิศทางที่มีความแปรปรวนมากที่สุดถือว่ามีความสำคัญมากที่สุด (The directions with largest variance are assumed to be of the most interest) PCA เลือกทิศทาง (แกน) ที่อธิบายความแปรปรวนของข้อมูลได้มากที่สุด ซึ่งถือว่าเป็นทิศทางที่สำคัญที่สุด ข้อจำกัดก็คือ อาจจะมีข้อมูลสำคัญแฝงอยู่ ในทิศทางที่มีความแปรปรวนน้อยกว่า PCA เหมาะสำหรับข้อมูลที่มีความสัมพันธ์กัน (If the variables are correlated, PCA can achieve dimension reduction) PCA มีประสิทธิภาพในการลดมิติของข้อมูล เมื่อตัวแปรในข้อมูลมีความสัมพันธ์กัน โดย PCA จะกำจัดมิติที่ซ้ำซ้อนออกไป ถ้าตัวแปรไม่สัมพันธ์กัน (If not, PCA just orders them according to their variances) อาจจะไม่ได้ช่วยในการลดมิติข้อมูลได้อย่างมีประสิทธิภาพ * What are the limitations of PCA?

Slide 30

Slide 30 text

Hyperparameter Tuning คือ กระบวนการในการปรับแต่งค่าพารามิเตอร์ที่ใช้ในการฝึกโมเดลของ Machine Learning ฃ เพื่อให้โมเดลมีประสิทธิภาพสูงสุดและประสิทธิภาพในการทำงานที่ดีที่สุด โมเดลใน Machine Learning มักมีการกำหนดค่าพารามิเตอร์หลายตัวที่ไม่ได้ถูกเรียนรู้จากข้อมูลตัวอย่างแต่ต้องกำหนดค่า ก่อนการฝึก (hyperparameters) เช่น ค่า K , อัตราการเรียนรู้ (learning rate) ในการฝึก เป็นต้น กระบวนการ Hyperparameter Tuning จึงเกิดขึ้นเพื่อทำการค้นหาค่าพารามิเตอร์ที่ดีที่สุดที่สามารถให้ผลลัพธ์โมเดลที่มี ประสิทธิภาพสูงสุด วิธีการที่ใช้งานมักจะเป็นการทดลองค่าพารามิเตอร์ต่าง ๆ ด้วยการวิธีทดลองแบบทดสอบและผิดพลาด (trial and error) หรือใช้เทคนิคอัลกอริทึมการค้นหา (search algorithms) เช่น Random Search, Grid Search, เพื่อ หาค่าพารามิเตอร์ที่ดีที่สุดให้กับโมเดลในแต่ละครั้งที่ฝึกและทดสอบ NT-BOOTCAMP Supervised learning - Ensemble Method Hyper parameter Tuning

Slide 31

Slide 31 text

Feature selection เป็นกระบวนการในการเลือกเฉพาะ subset ของ features (คุณลักษณะ) จากข้อมูลที่ใช้ในการสร้างโมเดล เพื่อลด ขนาดของข้อมูล ลดความซับซ้อนของโมเดล และประสิทธิภาพในการฝึกโมเดล เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด วิธีทำ feature selection สามารถ ทำได้หลากหลายวิธีตามความเหมาะสมของงานและข้อมูล เช่นดังนี้: Univariate Feature Selection: วิธีนี้เป็นการเลือก features โดยใช้ค่าสถิติหรือการทดสอบเชิงสถิติบนแต่ละ feature โดยอิง จากความสัมพันธ์ระหว่าง feature กับค่าเป้าหมาย (target) ซึ่งสามารถใช้เทคนิคต่าง ๆ เช่น SelectKBest, SelectPercentile จาก scikit-learn ใน Python เพื่อเลือก features ที่มีผลต่อค่าเป้าหมายมากที่สุด. Feature Importance from Trees: สำหรับโมเดลที่ใช้ต้นไม้ในการเรียนรู้ เช่น Decision Trees หรือ Random Forests สามารถใช้ค่าความสำคัญของ features ที่ได้จากโมเดล (เช่น Gini Importance หรือ Mean Decrease in Impurity) เพื่อเลือก features ที่มีความสำคัญสูงสุด. Recursive Feature Elimination (RFE): วิธีนี้ใช้โมเดลเพื่อเลือก features โดยเริ่มจากการฝึกโมเดลด้วยทุก features แล้วลบ features ที่มีค่าความสำคัญต่ำที่สุด จนกว่าจะเหลือจำนวน features ที่ต้องการ. NT-BOOTCAMP Supervised learning - Ensemble Method Feature Selection

Slide 47

Slide 47 text

Top-K และ Top-P เป็นเทคนิคการสุ่มตัวอย่างที่ใช้ในโมเดลภาษาขนาดใหญ่ (LLMs) เพื่อควบคุมความหลากหลายและ ความเกี่ยวข้องของผลลัพธ์ Top-K ทำงานโดยเลือกคำถัดไปที่มีแนวโน้มสูงสุด K คำจากคำศัพท์ทั้งหมด วิธีนี้ช่วยให้มั่นใจได้ว่าผลลัพธ์มีแนวโน้มที่จะถูกต้อง ตามหลักไวยากรณ์และมีความหมาย Top-P ต่างจาก Top-K ตรงที่แทนที่จะเลือกคำที่มีแนวโน้มสูงสุดเท่านั้น จะเลือกคำที่มี คะแนนความน่าจะเป็น คูณด้วย ความถี่ ที่มากกว่าเกณฑ์ P Top Probability top_p เป็นค่า parameter ที่ทาง OpenAI มีมาให้เพื่อควบคุมการสุ่ม (random) สร้างข้อความขึ้นมา โดยมีการกำหนดตัวเลข ความน่าจะเป็นของคำที่ถูกหยิบมาพิจารณาก่อนที่จะสร้างคำออกมา ค่า top_p ที่สูงขึ้นหมายความว่าข้อความที่จะถูกสร้างขึ้นจะถูก พิจารณาตัดสินใจก่อนที่จะเลือกใช้คำนั้นเพื่อให้คำตอบมีความเป็นธรรมชาติมากที่สุด Without top-k: อัลกอริทึมจะพิจารณาคำทั้งหมดในคลังศัพท์ของมันที่ทุกๆ รอบ และเลือกคำที่มีความน่าจะเป็นสูงสุด ซึ่งอาจส่งผลให้ ข้อความที่นั้นมีความซ้ำซากหรือเดาทางได้ง่าย With top-k: อัลกอริทึมจะพิจารณาเฉพาะคำที่มีความน่าจะเป็นสูงสุดเพียง k คำเท่านั้น ที่ทุกๆ รอบ ซึ่งอาจทำให้ข้อความที่มีความ หลากหลายและน่าสนใจมากขึ้น แต่ก็อาจส่งผลให้ข้อความนั้นอ่านไม่ค่อยลื่นไหลหรือไม่ถูกหลักไวยากรณ์

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text