giúp cho biên tập viên hoặc đội ngũ bán hàng theo dõi một nhãn hàng nào đó thông qua quá trình tổng hợp các bài đăng trên các trang hoặc nhóm trên facebook, sau đó dùng các phương pháp tiếp cận máy học cùng với thống kê để cho ra mức độ quan tâm của cộng động đối với nhãn hàng đó.
những phân tích về mức độ quan tâm của người dùng, chúng ta có thể có chiến lược kinh doanh phù hợp với 1 chủ đề quan tâm nào đó, giúp cho biên tập viên có thêm thông tin để hỗ trợ tốt hơn trong việc viết bài.
2.Các nghiên cứu liên quan và công cụ hiện có 3.Cơ hội và thách thức 4. Phương pháp tiếp cận 5.Hiện thực hệ thống 6.Hướng phát triển trong tương lai 7.Demo
facebook là gì? - Đầu vào: một bài đăng trên mạng xã hội - Đầu ra: tiên đoán rác/ không rác. Rác? Trong trường hợp này là thông tin tuyển dụng, rao vặt. Không rác? Những trường hợp còn lại.
phát triển, nguồn dữ liệu phong phú trong đó mạng xã hội cung cấp 1 kho dữ liệu khổng lồ, chúng ta có thể khai thác những thông tin hữu ích từ đó. Hiện tại, các quốc gia phát triển và ngay cả Việt Nam cũng có nhiều tài liệu giúp cho việc tìm hiểu là thực hành việc khai phá dữ liệu Trên internet có nhiều công cụ social monitoring để ta có thể tham khảo Việc chạy quảng cáo từ các ông lớn như google, facebook rất nhiều nhưng họ không thể biết được mức độ quan tâm của người dùng đối với các sản phẩm họ quảng cáo.
mạng xã hội thì nhiều nhưng trong đó có rất nhiều tin ta không quan tâm, vì vậy để thống kê được đâu là tin rác, đâu là tin không rác không hề đơn giản -Không xác định đúng keyword. -Giới hạn trong khả năng đọc và phân tích dữ liệu. -Đòi hỏi sự liên tục giám sát và điều chỉnh.
thu thập từ facebook, ta thu thập dữ liệu những bài post thuộc chủ đề ta quan tâm, ở bài toán này nhóm em thu thập dữ liệu thuộc 3 chủ đề là rao vặt, tuyển dụng, tin tức điện thoại . Tùy theo nhu cầu mà ta sẽ gán nhãn cho bài post đó là "Rác" hoặc "Không rác". Ở đây những bài thuộc tin tức điện thoại là không rác, còn lại rao vặt và tuyển dụng được gán là rác.
nhãn ta đi qua các bước tiền xử lý, index, tính tf-idf để được tập dữ liệu cung cấp cho quá trình resampling. • Ta sẽ xem xét về tính cân bằng về tập dữ liệu mẫu sau khi tính được tf-idf. • Nếu dữ liệu mẫu mất cân bằng ta sẽ sử dụng các thuật toán resampling để cân bằng dữ liệu. Nhằm đưa ra tập dữ liệu mẫu không bị nhiễu, có số lượng mẫu ở mỗi phân lớp nhãn bằng nhau .
hình đào tạo tức là dùng tập dữ liệu sau khi tính tf-idf. Ta tiến hành đào tạo theo các thuật toán phân lớp. Ở phạm vi bài toán này dùng 2 thuật toán chính đó là Naive Bayes, SVM. Kết quả cho ra là một mô hình đào tạo, ta sẽ sử dụng các mô hình đào tạo này để tiên đoán các bài post khác.
đăng từ các fanpage và group trên facebook, dùng facebook graph api - Mongodb: lưu trữ dữ liệu - Elasticsearch: được index dữ liệu từ mongodb, nhằm cho mục đích search nhanh - Facebook monitoring: web-based hiển thị dữ liệu thu thập và kết quả tiên đoán - Data preprocessor và predict module: hệ thống xử lý dữ liệu và tiên đoán kết quả
được: Với mục tiêu tạo ra một công cụ xem xét mức độ hữu ích của thông tin, khóa luận đã đạt được một số kết quả nhất định như sau: • Khảo sát và đánh giá các thuật toán phân lớp để xem xét mức độ hữu ích của thông tin. • Xây dựng hệ thống xem xét mức độ hữu ích của thông tin. Hướng phát triển: Trong tương lai, hệ thống sẽ lấy thêm dữ liệu từ các trang mạng xã hội khác như Twitter, … Thêm một số chức năng như phân tích tình cảm của bài đăng.