Facebook Monitoring - Speaker Deck

Slide 1

Slide 1 text

FACEBOOK MONITORING THANH NGUYEN

Slide 2

Slide 2 text

No content

Slide 3

Slide 3 text

Facebook monitoring là gì? Facebook monitoring là một hệ thống giúp cho biên tập viên hoặc đội ngũ bán hàng theo dõi một nhãn hàng nào đó thông qua quá trình tổng hợp các bài đăng trên các trang hoặc nhóm trên facebook, sau đó dùng các phương pháp tiếp cận máy học cùng với thống kê để cho ra mức độ quan tâm của cộng động đối với nhãn hàng đó.

Slide 4

Slide 4 text

Tại sao lại phải giải bài toán facebook monitoring? Từ những phân tích về mức độ quan tâm của người dùng, chúng ta có thể có chiến lược kinh doanh phù hợp với 1 chủ đề quan tâm nào đó, giúp cho biên tập viên có thêm thông tin để hỗ trợ tốt hơn trong việc viết bài.

Slide 5

Slide 5 text

Nội dung 1.Giới thiệu về bài toán lọc rác facebook 2.Các nghiên cứu liên quan và công cụ hiện có 3.Cơ hội và thách thức 4. Phương pháp tiếp cận 5.Hiện thực hệ thống 6.Hướng phát triển trong tương lai 7.Demo

Slide 6

Slide 6 text

1.Giới thiệu về bài toán lọc rác facebook Lọc rác facebook là gì? - Đầu vào: một bài đăng trên mạng xã hội - Đầu ra: tiên đoán rác/ không rác. Rác? Trong trường hợp này là thông tin tuyển dụng, rao vặt. Không rác? Những trường hợp còn lại.

Slide 7

Slide 7 text

2.Các nghiên cứu liên quan và công cụ hiện có

Slide 8

Slide 8 text

2.Các nghiên cứu liên quan và công cụ hiện có

Slide 9

Slide 9 text

2.Các nghiên cứu liên quan và công cụ hiện có

Slide 10

Slide 10 text

3.Cơ hội và thách thức Cơ hội: Ngày nay internet phát triển, nguồn dữ liệu phong phú trong đó mạng xã hội cung cấp 1 kho dữ liệu khổng lồ, chúng ta có thể khai thác những thông tin hữu ích từ đó. Hiện tại, các quốc gia phát triển và ngay cả Việt Nam cũng có nhiều tài liệu giúp cho việc tìm hiểu là thực hành việc khai phá dữ liệu Trên internet có nhiều công cụ social monitoring để ta có thể tham khảo Việc chạy quảng cáo từ các ông lớn như google, facebook rất nhiều nhưng họ không thể biết được mức độ quan tâm của người dùng đối với các sản phẩm họ quảng cáo.

Slide 11

Slide 11 text

3.Cơ hội và thách thức Thách thức: Dữ liệu trên mạng xã hội thì nhiều nhưng trong đó có rất nhiều tin ta không quan tâm, vì vậy để thống kê được đâu là tin rác, đâu là tin không rác không hề đơn giản -Không xác định đúng keyword. -Giới hạn trong khả năng đọc và phân tích dữ liệu. -Đòi hỏi sự liên tục giám sát và điều chỉnh.

Slide 12

Slide 12 text

4.Phương pháp tiếp cận bài toán

Slide 13

Slide 13 text

4.1 GÁN NHÃN DỮ LIỆU Sau khi dữ liệu được thu thập từ facebook, ta thu thập dữ liệu những bài post thuộc chủ đề ta quan tâm, ở bài toán này nhóm em thu thập dữ liệu thuộc 3 chủ đề là rao vặt, tuyển dụng, tin tức điện thoại . Tùy theo nhu cầu mà ta sẽ gán nhãn cho bài post đó là "Rác" hoặc "Không rác". Ở đây những bài thuộc tin tức điện thoại là không rác, còn lại rao vặt và tuyển dụng được gán là rác.

Slide 14

Slide 14 text

4.2 RESAMPLING Từ tập dữ liệu mẫu cân bằng gán nhãn ta đi qua các bước tiền xử lý, index, tính tf-idf để được tập dữ liệu cung cấp cho quá trình resampling. ● Ta sẽ xem xét về tính cân bằng về tập dữ liệu mẫu sau khi tính được tf-idf. ● Nếu dữ liệu mẫu mất cân bằng ta sẽ sử dụng các thuật toán resampling để cân bằng dữ liệu. Nhằm đưa ra tập dữ liệu mẫu không bị nhiễu, có số lượng mẫu ở mỗi phân lớp nhãn bằng nhau .

Slide 15

Slide 15 text

4.3 XÂY DỰNG MÔ HÌNH ĐÀO TẠO Xây dựng mô hình đào tạo tức là dùng tập dữ liệu sau khi tính tf-idf. Ta tiến hành đào tạo theo các thuật toán phân lớp. Ở phạm vi bài toán này dùng 2 thuật toán chính đó là Naive Bayes, SVM. Kết quả cho ra là một mô hình đào tạo, ta sẽ sử dụng các mô hình đào tạo này để tiên đoán các bài post khác.

Slide 16

Slide 16 text

4.4 XÂY DỰNG HỆ THỐNG Đây là bước cuối cùng, xây dựng tool demo để áp dụng các mô hình đào tạo đã có, từ đó xây dựng các chức năng tiên đoán, thống kê từ những kết quả tiên đoán...

Slide 17

Slide 17 text

5.Hiện thực hệ thống - Crawler: lấy dữ liệu bài đăng từ các fanpage và group trên facebook, dùng facebook graph api - Mongodb: lưu trữ dữ liệu - Elasticsearch: được index dữ liệu từ mongodb, nhằm cho mục đích search nhanh - Facebook monitoring: web-based hiển thị dữ liệu thu thập và kết quả tiên đoán - Data preprocessor và predict module: hệ thống xử lý dữ liệu và tiên đoán kết quả

Slide 18

Slide 18 text

6.Hướng phát triển trong tương lai Các kết quả đạt được: Với mục tiêu tạo ra một công cụ xem xét mức độ hữu ích của thông tin, khóa luận đã đạt được một số kết quả nhất định như sau: ● Khảo sát và đánh giá các thuật toán phân lớp để xem xét mức độ hữu ích của thông tin. ● Xây dựng hệ thống xem xét mức độ hữu ích của thông tin. Hướng phát triển: Trong tương lai, hệ thống sẽ lấy thêm dữ liệu từ các trang mạng xã hội khác như Twitter, … Thêm một số chức năng như phân tích tình cảm của bài đăng.

Slide 19

Slide 19 text

7. Demo