Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Recommendation System and NLP

Recommendation System and NLP

This is my tech talk presentation

Parlinggoman Hasibuan

August 28, 2015
Tweet

More Decks by Parlinggoman Hasibuan

Other Decks in Technology

Transcript

  1. Latar Belakang 1. vidio.com belum mempunyai sistem rekomendasi (masi make

    punya orang) 2. meningkatkan retensi user di vidio.com
  2. Tujuan dan Manfaat - Tujuannya adalah mengimplementasi sistem rekomendasi pada

    vidio.com - analisa keakuratan hasil rekomendasi - Manfaat : menyediakan prediksi video kepada para pengguna vidio.com
  3. Ruang Lingkup 1. Menggunakan seluruh data video di vidio. com

    2. Menganalisa keakuratan vidio.com menggunakan MeanSquareError
  4. Tinjauan Pustaka Linden, G., Smith, B., & York, J. (2003).

    Amazon.com recommendations: item- to-item collaborative filtering. Internet Computing, IEEE , pp. 76-80. Herlocker, J., Konstan, J., Terveen, L., & Riedl, J. (2004). Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems, 5-53. Salakhutdinov, R., & Mnih, A. (2008). Probabilistic Matrix Factorization. Advances in Neural Information Processing (pp. 1257-1264). ACM Press.
  5. Sumber Data 1. Data informasi mengenai video seperti title, tag,

    description di vidio.com 2. Data event-event terhadap video seperti, cookies_id, time, video yang ditonton
  6. 1. Similar item - Mencari item yang mirip dengan item

    yang sedang ditonton - menentukan bobot kemiripan 0 - 1 antar item
  7. StringMatching title1: Ganteng Ganteng Serigala Episode 5 title2: Pemain ganteng

    ganteng Serigala melakukan aksi donor Title Count Title 2 Count ganteng 2 ganteng 2 serigala 1 serigala 1 episode 1 pemain 1 5 1 aksi 1 donor 1
  8. Weighting every word weight word = num of word /

    total word Title Weight Title 2 Count ganteng 0,4 ganteng 0,33 serigala 0,2 serigala 0,16 episode 0,2 pemain 0,16 5 0,2 aksi 0,16 donor 0,16
  9. Compute The Distance Title Weight ganteng 0,73 serigala 0,36 -

    Total of Weigh of Same Word is 1,09 which is more than 54% same. - Need to define more rule what is the minimum standard of same word The similarity Item A and Item B is 0,545
  10. Item 1 Item 2 Similiarity Item a User b 0.8

    Item a Item c 0.4 Item a Item d 0.6 Item a Item e 0 Item a Item f 0 Item a Item g 0 Item a Item h 0 1. Similar Item (cont)
  11. Problem 1. Total videos 107.164 2. Hasil rekomendasi monoton (balik

    ke audience nya lagi sih dengan retention nya) 3. Tergantung dengan corpus a. kasus jika kita memiliki nama orang “Dan” sedangkan “dan” itu stop word. Maka akan jadi problem
  12. 2. Similar User step1 : Langkah pertama adalah melakukan filter

    item antara user yang menonton dengan user yang lain. Item yang digunakan adalah item yang sama-sama pernah ditonton.
  13. User 1 User 2 Correlation User a User b 0.8

    User a User c 0.4 User a User d 0.6 User a User e 0 User a User f -0,2 User a User g -0.3 User a User h -0.9 2. Similar User (cont)
  14. 2. Similar User (cont) - User b, c, and d

    memiliki kemiripan dengan kita (user a) - Ambil setiap item (dimulai dari user yang memiliki kemiripan tertinggi) b = {ggs1, ggs2, ggs3} b = {elif 1, elif 2, elif 3} c = {gojigo1, gojigo2, gojigo3} hasil akhirnya adalah {ggs1, ggs2, ggs3, gojigo1, gojigo2, gojigo3, elif1, elif2, elif3}
  15. Problem New Baby effect => ketika ada item baru yang

    berupa outlier contoh dengan title “asdkxzciicjozixc” dan yang menonton adalah seorang user baru yang pertama kali membuka vidio.com
  16. 3. Matrix Factorization Koren, Yehuda, Bell Robert, Volinsky Cris, 2009

    MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS