Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Facebook Monitoring

thanhgit
June 21, 2020

Facebook Monitoring

Giới thiệu về bài toán phân loại tin trên facebook
Lý do thực hiện bài toán
Hiểu về phương pháp tiếp cận bài toán

thanhgit

June 21, 2020
Tweet

More Decks by thanhgit

Other Decks in Research

Transcript

  1. FACEBOOK MONITORING
    THANH NGUYEN

    View Slide

  2. View Slide

  3. Facebook monitoring là gì?
    Facebook monitoring là một hệ thống giúp cho biên tập viên hoặc đội ngũ bán hàng theo dõi một nhãn hàng nào đó
    thông qua quá trình tổng hợp các bài đăng trên các trang hoặc nhóm trên facebook, sau đó dùng các phương pháp tiếp
    cận máy học cùng với thống kê để cho ra mức độ quan tâm của cộng động đối với nhãn hàng đó.

    View Slide

  4. Tại sao lại phải giải bài toán facebook
    monitoring?
    Từ những phân tích về mức độ quan tâm của người dùng, chúng ta có thể
    có chiến lược kinh doanh phù hợp với 1 chủ đề quan tâm nào đó, giúp cho
    biên tập viên có thêm thông tin để hỗ trợ tốt hơn trong việc viết bài.

    View Slide

  5. Nội dung
    1.Giới thiệu về bài toán lọc rác facebook
    2.Các nghiên cứu liên quan và công cụ hiện có
    3.Cơ hội và thách thức
    4. Phương pháp tiếp cận
    5.Hiện thực hệ thống
    6.Hướng phát triển trong tương lai
    7.Demo

    View Slide

  6. 1.Giới thiệu về bài toán lọc rác facebook
    Lọc rác facebook là gì?
    - Đầu vào: một bài đăng trên mạng xã hội
    - Đầu ra: tiên đoán rác/ không rác.
    Rác? Trong trường hợp này là thông tin tuyển dụng, rao vặt.
    Không rác? Những trường hợp còn lại.

    View Slide

  7. 2.Các nghiên cứu liên quan và công cụ
    hiện có

    View Slide

  8. 2.Các nghiên cứu liên quan và công cụ
    hiện có

    View Slide

  9. 2.Các nghiên cứu liên quan và công cụ
    hiện có

    View Slide

  10. 3.Cơ hội và thách thức
    Cơ hội:
    Ngày nay internet phát triển, nguồn dữ liệu phong phú trong đó mạng xã
    hội cung cấp 1 kho dữ liệu khổng lồ, chúng ta có thể khai thác những thông
    tin hữu ích từ đó.
    Hiện tại, các quốc gia phát triển và ngay cả Việt Nam cũng có nhiều tài liệu
    giúp cho việc tìm hiểu là thực hành việc khai phá dữ liệu
    Trên internet có nhiều công cụ social monitoring để ta có thể tham khảo
    Việc chạy quảng cáo từ các ông lớn như google, facebook rất nhiều nhưng
    họ không thể biết được mức độ quan tâm của người dùng đối với các sản
    phẩm họ quảng cáo.

    View Slide

  11. 3.Cơ hội và thách thức
    Thách thức:
    Dữ liệu trên mạng xã hội thì nhiều nhưng trong đó có rất nhiều tin ta không
    quan tâm, vì vậy để thống kê được đâu là tin rác, đâu là tin không rác không
    hề đơn giản
    -Không xác định đúng keyword.
    -Giới hạn trong khả năng đọc và phân tích dữ liệu.
    -Đòi hỏi sự liên tục giám sát và điều chỉnh.

    View Slide

  12. 4.Phương pháp tiếp cận bài toán

    View Slide

  13. 4.1 GÁN NHÃN DỮ LIỆU
    Sau khi dữ liệu được thu thập từ facebook, ta thu thập dữ liệu những bài
    post thuộc chủ đề ta quan tâm, ở bài toán này nhóm em thu thập dữ liệu
    thuộc 3 chủ đề là rao vặt, tuyển dụng, tin tức điện thoại . Tùy theo nhu cầu
    mà ta sẽ gán nhãn cho bài post đó là "Rác" hoặc "Không rác". Ở đây
    những bài thuộc tin tức điện thoại là không rác, còn lại rao vặt và tuyển
    dụng được gán là rác.

    View Slide

  14. 4.2 RESAMPLING
    Từ tập dữ liệu mẫu cân bằng gán nhãn ta đi qua các bước tiền xử lý, index,
    tính tf-idf để được tập dữ liệu cung cấp cho quá trình resampling.
    ● Ta sẽ xem xét về tính cân bằng về tập dữ liệu mẫu sau khi tính được
    tf-idf.
    ● Nếu dữ liệu mẫu mất cân bằng ta sẽ sử dụng các thuật toán
    resampling để cân bằng dữ liệu. Nhằm đưa ra tập dữ liệu mẫu không
    bị nhiễu, có số lượng mẫu ở mỗi phân lớp nhãn bằng nhau .

    View Slide

  15. 4.3 XÂY DỰNG MÔ HÌNH ĐÀO TẠO
    Xây dựng mô hình đào tạo tức là dùng tập dữ liệu sau khi tính tf-idf. Ta
    tiến hành đào tạo theo các thuật toán phân lớp. Ở phạm vi bài toán này
    dùng 2 thuật toán chính đó là Naive Bayes, SVM. Kết quả cho ra là một
    mô hình đào tạo, ta sẽ sử dụng các mô hình đào tạo này để tiên đoán các
    bài post khác.

    View Slide

  16. 4.4 XÂY DỰNG HỆ THỐNG
    Đây là bước cuối cùng, xây dựng tool demo để áp dụng các mô hình đào
    tạo đã có, từ đó xây dựng các chức năng tiên đoán, thống kê từ những kết
    quả tiên đoán...

    View Slide

  17. 5.Hiện thực hệ thống
    - Crawler: lấy dữ liệu bài đăng từ các
    fanpage và group trên facebook, dùng
    facebook graph api
    - Mongodb: lưu trữ dữ liệu
    - Elasticsearch: được index dữ liệu từ
    mongodb, nhằm cho mục đích search nhanh
    - Facebook monitoring: web-based hiển thị
    dữ liệu thu thập và kết quả tiên đoán
    - Data preprocessor và predict module: hệ
    thống xử lý dữ liệu và tiên đoán kết quả

    View Slide

  18. 6.Hướng phát triển trong tương lai
    Các kết quả đạt được:
    Với mục tiêu tạo ra một công cụ xem xét mức độ hữu ích của thông tin, khóa luận
    đã đạt được một số kết quả nhất định như sau:
    ● Khảo sát và đánh giá các thuật toán phân lớp để xem xét mức độ hữu ích của
    thông tin.
    ● Xây dựng hệ thống xem xét mức độ hữu ích của thông tin.
    Hướng phát triển:
    Trong tương lai, hệ thống sẽ lấy thêm dữ liệu từ các trang mạng xã hội khác như
    Twitter, … Thêm một số chức năng như phân tích tình cảm của bài đăng.

    View Slide

  19. 7. Demo

    View Slide