Slide 25
Slide 25 text
04 Feature Extraction from Text
▪ Bagian dari rekayasa fitur untuk mengubah teks menjadi bentuk vektor
(numerik) agar dapat diproses oleh algoritma pembelajaran.
▪ Teknik klasik: bag-of-words (BoW).
▪ BoW mempelajari kosa kata dari seluruh dokumen, kemudian
memodelkan tiap dokumen dengan menghitung frekuensi kemunculan
kata.
Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022
D1 film bagus
D2 film film seru
D3 akting jelek
“film:0”, “bagus:1”, “seru:2”,
“akting:3”, “jelek:4”
film bagus seru akting jelek
D1 1 1 0 0 0
D2 2 0 1 0 0
D3 0 0 0 1 1
Dokumen Kumpulan Kosa Kata
(Bag of Words)
Representasi Teks / Vektorisasi