Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Facebook Monitoring

thanhgit
June 21, 2020

Facebook Monitoring

Giới thiệu về bài toán phân loại tin trên facebook
Lý do thực hiện bài toán
Hiểu về phương pháp tiếp cận bài toán

thanhgit

June 21, 2020
Tweet

More Decks by thanhgit

Other Decks in Research

Transcript

  1. Facebook monitoring là gì? Facebook monitoring là một hệ thống

    giúp cho biên tập viên hoặc đội ngũ bán hàng theo dõi một nhãn hàng nào đó thông qua quá trình tổng hợp các bài đăng trên các trang hoặc nhóm trên facebook, sau đó dùng các phương pháp tiếp cận máy học cùng với thống kê để cho ra mức độ quan tâm của cộng động đối với nhãn hàng đó.
  2. Tại sao lại phải giải bài toán facebook monitoring? Từ

    những phân tích về mức độ quan tâm của người dùng, chúng ta có thể có chiến lược kinh doanh phù hợp với 1 chủ đề quan tâm nào đó, giúp cho biên tập viên có thêm thông tin để hỗ trợ tốt hơn trong việc viết bài.
  3. Nội dung 1.Giới thiệu về bài toán lọc rác facebook

    2.Các nghiên cứu liên quan và công cụ hiện có 3.Cơ hội và thách thức 4. Phương pháp tiếp cận 5.Hiện thực hệ thống 6.Hướng phát triển trong tương lai 7.Demo
  4. 1.Giới thiệu về bài toán lọc rác facebook Lọc rác

    facebook là gì? - Đầu vào: một bài đăng trên mạng xã hội - Đầu ra: tiên đoán rác/ không rác. Rác? Trong trường hợp này là thông tin tuyển dụng, rao vặt. Không rác? Những trường hợp còn lại.
  5. 3.Cơ hội và thách thức Cơ hội: Ngày nay internet

    phát triển, nguồn dữ liệu phong phú trong đó mạng xã hội cung cấp 1 kho dữ liệu khổng lồ, chúng ta có thể khai thác những thông tin hữu ích từ đó. Hiện tại, các quốc gia phát triển và ngay cả Việt Nam cũng có nhiều tài liệu giúp cho việc tìm hiểu là thực hành việc khai phá dữ liệu Trên internet có nhiều công cụ social monitoring để ta có thể tham khảo Việc chạy quảng cáo từ các ông lớn như google, facebook rất nhiều nhưng họ không thể biết được mức độ quan tâm của người dùng đối với các sản phẩm họ quảng cáo.
  6. 3.Cơ hội và thách thức Thách thức: Dữ liệu trên

    mạng xã hội thì nhiều nhưng trong đó có rất nhiều tin ta không quan tâm, vì vậy để thống kê được đâu là tin rác, đâu là tin không rác không hề đơn giản -Không xác định đúng keyword. -Giới hạn trong khả năng đọc và phân tích dữ liệu. -Đòi hỏi sự liên tục giám sát và điều chỉnh.
  7. 4.1 GÁN NHÃN DỮ LIỆU Sau khi dữ liệu được

    thu thập từ facebook, ta thu thập dữ liệu những bài post thuộc chủ đề ta quan tâm, ở bài toán này nhóm em thu thập dữ liệu thuộc 3 chủ đề là rao vặt, tuyển dụng, tin tức điện thoại . Tùy theo nhu cầu mà ta sẽ gán nhãn cho bài post đó là "Rác" hoặc "Không rác". Ở đây những bài thuộc tin tức điện thoại là không rác, còn lại rao vặt và tuyển dụng được gán là rác.
  8. 4.2 RESAMPLING Từ tập dữ liệu mẫu cân bằng gán

    nhãn ta đi qua các bước tiền xử lý, index, tính tf-idf để được tập dữ liệu cung cấp cho quá trình resampling. • Ta sẽ xem xét về tính cân bằng về tập dữ liệu mẫu sau khi tính được tf-idf. • Nếu dữ liệu mẫu mất cân bằng ta sẽ sử dụng các thuật toán resampling để cân bằng dữ liệu. Nhằm đưa ra tập dữ liệu mẫu không bị nhiễu, có số lượng mẫu ở mỗi phân lớp nhãn bằng nhau .
  9. 4.3 XÂY DỰNG MÔ HÌNH ĐÀO TẠO Xây dựng mô

    hình đào tạo tức là dùng tập dữ liệu sau khi tính tf-idf. Ta tiến hành đào tạo theo các thuật toán phân lớp. Ở phạm vi bài toán này dùng 2 thuật toán chính đó là Naive Bayes, SVM. Kết quả cho ra là một mô hình đào tạo, ta sẽ sử dụng các mô hình đào tạo này để tiên đoán các bài post khác.
  10. 4.4 XÂY DỰNG HỆ THỐNG Đây là bước cuối cùng,

    xây dựng tool demo để áp dụng các mô hình đào tạo đã có, từ đó xây dựng các chức năng tiên đoán, thống kê từ những kết quả tiên đoán...
  11. 5.Hiện thực hệ thống - Crawler: lấy dữ liệu bài

    đăng từ các fanpage và group trên facebook, dùng facebook graph api - Mongodb: lưu trữ dữ liệu - Elasticsearch: được index dữ liệu từ mongodb, nhằm cho mục đích search nhanh - Facebook monitoring: web-based hiển thị dữ liệu thu thập và kết quả tiên đoán - Data preprocessor và predict module: hệ thống xử lý dữ liệu và tiên đoán kết quả
  12. 6.Hướng phát triển trong tương lai Các kết quả đạt

    được: Với mục tiêu tạo ra một công cụ xem xét mức độ hữu ích của thông tin, khóa luận đã đạt được một số kết quả nhất định như sau: • Khảo sát và đánh giá các thuật toán phân lớp để xem xét mức độ hữu ích của thông tin. • Xây dựng hệ thống xem xét mức độ hữu ích của thông tin. Hướng phát triển: Trong tương lai, hệ thống sẽ lấy thêm dữ liệu từ các trang mạng xã hội khác như Twitter, … Thêm một số chức năng như phân tích tình cảm của bài đăng.