Slide 1

Slide 1 text

Natural Language Processing (NLP) Implementation Kuncahyo Setyo Nugroho

Slide 2

Slide 2 text

Hello! Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 Kuncahyo Setyo Nugroho {Cahyo} Background Computer Science Research Interest Affective Computing, Natural Language Processing ksnugroho.my.id [email protected] | [email protected] Artificial Intelligence Mentor – Orbit Future Academy

Slide 3

Slide 3 text

Talk Outline Introduction to AI and NLP 01. NLP General Pipeline 02. Hands-on: Sentiment Analysis for Moview Review 03. Challenges and Future of NLP 04. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 4

Slide 4 text

Introduction to AI and NLP 01. Pengenalan kecerdasan buatan, pemrosesan bahasa alami serta area aplikasinya. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 5

Slide 5 text

Artificial Intelligence (AI) Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 Kecerdasan Buatan Segala upaya untuk membuat mesin (komputer) meniru perilaku cerdas manusia.

Slide 6

Slide 6 text

Artificial Intelligence Domain Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 AI Data Science Natural Language Processing Computer Vision

Slide 7

Slide 7 text

Natural Language ▪ Bahasa adalah alat komunikasi dan pembawa pemikiran manusia. Bahasa menyumbang lebih dari 80% dari total pengetahuan manusia. ▪ Bahasa alami adalah Bahasa yang diucapkan, ditulis, atau diisyaratkan (secara visual atau isyarat lain) oleh manusia yang terdiri dari kosa kata (vocabulary) dan tata bahasa (grammar). Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 8

Slide 8 text

Natural Language Processing (NLP) Cabang AI untuk membuat komputer dapat memahami, menafsirkan, dan memanipulasi bahasa alami manusia. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 9

Slide 9 text

NLP and Linguistics Sumber: J. Tsujii, “Natural Language Processing and Computational Linguistics,” Computational Linguistics, pp. 1–21, Dec. 2021. https://doi.org/10.1162/coli_a_00420 Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 10

Slide 10 text

NLP Components NLP adalah kemampuan komputer memproses bahasa alami manusia dalam bentuk tertulis (teks) dan verbal (suara ucapan). ▪ NLU → pemahaman bahasa alami dengan sintaksis, semantik, dan pragmatik (membaca). ▪ NLG → menghasilkan kalimat bermakna pada bahasa alami (menulis). Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 11

Slide 11 text

NLP Tasks and Application Areas Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 Tahukah Anda penerapan NLP di sekitar kita?

Slide 12

Slide 12 text

NLP Task: Information Retrieval Kemampuan komputer untuk mencari dokumen yang relevan berdasarkan query (kata kunci) dari suatu kumpulan informasi yang diberikan pengguna. Contoh: ▪ Pencarian Google ▪ Pencarian dokumen pada file explorer Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 13

Slide 13 text

NLP Task: Question Answering System Kemampuan komputer untuk menjawab pertanyaan yang diberikan oleh pengguna. Contoh: ▪ Frequently Asked Question (FAQ) ▪ Artikel how-to Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 14

Slide 14 text

NLP Task: Text Classification Kemampuan komputer untuk mengkategorikan dokumen ke satu atau lebih kategori secara otomatis. Contoh: ▪ Deteksi email atau sms spam ▪ Klasifikasi artikel berita ▪ Analisis sentimen ▪ Deteksi emosi pada media sosial Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 15

Slide 15 text

NLP Task: Text Summarization Kemampuan komputer untuk meringkas dokumen dengan mencari informasi paling penting atau relevan dari dokumen aslinya. Contoh: ▪ Grammarly ▪ Quillbot Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 16

Slide 16 text

NLP Task: Machine Translation Kemampuan komputer untuk menerjemahkan dokumen dari satu bahasa ke bahasa lain secara otomatis. Contoh: ▪ Google translate ▪ Amazon translate ▪ Microsoft translator Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 17

Slide 17 text

NLP Task: Speech Recognition Kemampuan komputer untuk mengenali dan menerjemahkan bahasa lisan (suara ucapan) ke dalam teks secara otomatis. Contoh: ▪ Google Assistant, Apple Siri, Amazon Alexa ▪ Speech emotion recognition Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 18

Slide 18 text

Which one is harder? Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 19

Slide 19 text

NLP General Pipeline 02. Tahapan umum dalam pengembangan sistem berbasis pemrosesan bahasa alami. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 20

Slide 20 text

NLP General Pipeline Sumber: Practical Natural Language Processing by Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. June 2020, Page: 38 Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 21

Slide 21 text

01 Data Acquisition Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 Public Dataset Web Scraping Product Intervention Data Augmentati- on

Slide 22

Slide 22 text

02 Text Cleaning ▪ Mengekstrak teks mentah dengan menghapus semua informasi non- tekstual, seperti metadata dan HMTL tag. ▪ Mengkonversi teks ke format yang diperlukan. ▪ Bersifat opsional, tergantung format data yang tersedia. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 23

Slide 23 text

03 Pre-Processing ▪ Mempersiapkan teks agar lebih terstruktur melalaui serangkaian tahapan. ▪ Tidak ada aturan baku mengenai urutan dan tahapan apa saja yang dilakukan. Tergantung masalah apa yang akan diselesaikan. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 Case Folding Word Normalization Stop Word Removal Stemming Tokenization

Slide 24

Slide 24 text

04 Feature Engineering ▪ Teknik untuk mengekstrak, memilih, memanipulasi, dan mengubah data teks mentah menjadi fitur. ▪ Pada NLP, dapat disebut representasi teks. ▪ Langkah penting karena dapat mempengaruhui performa model yang dihasilkan. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 25

Slide 25 text

04 Feature Extraction from Text ▪ Bagian dari rekayasa fitur untuk mengubah teks menjadi bentuk vektor (numerik) agar dapat diproses oleh algoritma pembelajaran. ▪ Teknik klasik: bag-of-words (BoW). ▪ BoW mempelajari kosa kata dari seluruh dokumen, kemudian memodelkan tiap dokumen dengan menghitung frekuensi kemunculan kata. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 D1 film bagus D2 film film seru D3 akting jelek “film:0”, “bagus:1”, “seru:2”, “akting:3”, “jelek:4” film bagus seru akting jelek D1 1 1 0 0 0 D2 2 0 1 0 0 D3 0 0 0 1 1 Dokumen Kumpulan Kosa Kata (Bag of Words) Representasi Teks / Vektorisasi

Slide 26

Slide 26 text

04 Feature Extraction: ML vs DL Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 Sumber: Practical Natural Language Processing by Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. June 2020, Page: 61

Slide 27

Slide 27 text

05 Modelling ▪ Latih algoritma pada kumpulan data latih (proses pembelajaran) untuk menghasilkan suatu model dengan mempelajari pola dari data. ▪ Algoritma berbasis deep learning menghasilkan performa yang tinggi, tetapi membutuhkan komputasi yang juga tinggi. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 28

Slide 28 text

06 Evaluation (Classification Task) ▪ Mengukur performa model. ▪ Menggunakan model yang telah dilatih untuk melakukan prediksi pada kumpulan data uji. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 29

Slide 29 text

07 Deployment Integrasi model ke lingkungan produksi agar dapat digunakan secara luas. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 30

Slide 30 text

Hands-On: Sentiment Analysis 03. Melakukan analisis sentimen untuk opini film Bahasa Indonesia Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 31

Slide 31 text

Solution Steps Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 Deploy- ment Model Evaluati- on Modelling Splitting Data: Train & Test Data Feature Extraction Pre- Processi- ng Data Acquisiti- on Github Case Folding, Word Normalization, Stopwords Removal, Stemming Bag of Words Bag of Words Machine Learning Accuracy, Precision, Recall

Slide 32

Slide 32 text

Code and Tools Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 s.id/sem-nlp-unikama

Slide 33

Slide 33 text

Challenges and Future of NLP 04. Tantangan, masa depan, dan industri berbasis Natural Language Processing Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 34

Slide 34 text

Challenges ▪ Ironi dan Sarkasme. ▪ Ambiguitas. ▪ Kesalahan penulisan dan ucapan. ▪ Penggunaan bahasa gaul yang terus berkembang. ▪ Bahasa untuk domain tertentu. Contohnya sejarah, kesehatan, dll. ▪ Ketersedian sumber bahasa yang terbatas. Contohnya bahasa daerah. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 35

Slide 35 text

Future Directions ▪ Pemahaman kontekstual. ▪ Pengenalan dan respon emosi manusia. ▪ Bahasa berkembang secara dinamis, sehingga analisis sintaks seperti struktur Bahasa akan terus ada dan dibutuhkan. ▪ Big data menyebabkan data tidak terstruktur semakin banyak. Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 36

Slide 36 text

NLP Startups in Indonesia Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022

Slide 37

Slide 37 text

Join with Us! Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022 https://www.instagram.com/orbitfutureacademyid

Slide 38

Slide 38 text

Thanks! Do you have any questions? ksnugroho.my.id [email protected] | [email protected] Natural Language Processing Implementation Kuncahyo Setyo Nugroho © 2022