Data Science per la SEO: nozioni di scienza dei dati applicate alla SEO (e non solo)

Slide 1

Slide 1 text

Data Science per la SEO: nozioni di scienza dei dati applicate alla SEO (e non solo) Gianluca Campo Twitter: @giancampo Email: [email protected] #SMConnect

Slide 2

Slide 2 text

Chi sono Gianluca Campo Head of SEO & Analytics @ Nucleus NON SONO • uno sviluppatore • un matematico/statistico

Slide 3

Slide 3 text

Indice 1. Alcuni concetti di statistica 2. EDA – Analisi esplorativa dei dati 1. Comprendere le variabili 2. Pulire il proprio dataset 3. Analizzare le relazioni tra variabili 3. Forecasting 1. Regressione lineare 2. Smorzamento esponenziale 4. Text mining 1. Il modello bag of words (BOW) 5. Clustering 1. Algoritmo K-means 2. DBSCAN Excel e il componente aggiuntivo Analysis Toolpak (disponibile anche per Google Sheets) Python e librerie aggiuntive (Pandas, Scikit-learn, NLTK) Strumenti

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

Possiamo manipolare una miriade di dati! • Crawling • Log dei web server • Backlink • Comportamento utenti • Processi d’acquisto • Query degli utenti • Ranking in SERP • Caratteristiche delle SERP • Uso di app • Trending topics • Knowledge bases e entità • …

Slide 6

Slide 6 text

Meglio fare una pizza che acquistarla!

Slide 7

Slide 7 text

Alcuni concetti di statistica

Slide 8

Slide 8 text

Introduzione / Parleremo della distribuzione normale (o di Gauss) • È la nozione di statistica più importante per la comprensione e la valutazione di ipotesi • Il punto forte della distribuzione gaussiana è che offre un riferimento statistico a cui paragonare altre distribuzioni • In natura infatti non esistono solo distribuzioni normali

Slide 9

Slide 9 text

Introduzione / Caratteristiche della distribuzione normale 68% 95% 99,7% 2,5% 2,5% Deviazioni standard dalla media Significatività statistica P-value ≤ 0,05 (5%) Media / Mediana / Moda

Slide 10

Slide 10 text

EDA – Analisi esplorativa dei dati

Slide 11

Slide 11 text

EDA / Cos'è l'analisi esplorativa dei dati • L'acronimo EDA sta per Exploratory Data Analysis • Sviluppata dal matematico e statistico John Wilder Tukey (1915-2000) • Obiettivo della EDA è studiare i dati partendo dai dati stessi

Slide 12

Slide 12 text

EDA / Obiettivi dell'analisi esplorativa dei dati • estrarre variabili importanti • tralasciare le variabili inutili 1. Comprendere le variabili di un dataset • identificare valori anomali, mancanti e errori umani • massimizzare le informazioni del dataset 2. Pulire il proprio dataset • comprendere la relazione • valutare la mancanza di relazione tra variabili 3. Analizzare le relazioni tra variabili

Slide 13

Slide 13 text

EDA / Installare Analysis Toolpak in Excel #1

Slide 14

Slide 14 text

EDA / Installare Analysis Toolpak in Excel #2

Slide 15

Slide 15 text

EDA / Installare Analysis Toolpak in Excel #3

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

Statistica descrittiva / 1. Analisi di dati GA su content grouping e landing

Slide 18

Slide 18 text

Statistica descrittiva / 2. Attiviamo lo strumento di statistica descrittiva 1 2 3

Slide 19

Slide 19 text

Statistica descrittiva / 3. Applichiamo al dataset

Slide 20

Slide 20 text

Statistica descrittiva / 4. Esaminiamo i risultati

Slide 21

Slide 21 text

Statistica descrittiva / 4. Esaminiamo i risultati Media dei valori analizzati Mediana e moda: altre misure di tendenza centrale Deviazione standard: più è alta più variano i dati rispetto alla media

Slide 22

Slide 22 text

Statistica descrittiva / 4. Esaminiamo i risultati Curtosi: più è alta maggiore è l’altezza della distribuzione rispetto ad una distribuzione normale (0 = curtosi uguale alla distribuzione normale)

Slide 23

Slide 23 text

Statistica descrittiva / 4. Esaminiamo i risultati Asimmetria (detta anche skewness): • 0 = simmetrica • -1 a +1 = abbastanza simmetrica • <-1 o >+1 = asimmetrica

Slide 24

Slide 24 text

Statistica descrittiva / 4. Esaminiamo i risultati Intervallo: differenza tra valori minimo e massimo Valore minimo e valore massimo Conteggio dei valori

Slide 25

Slide 25 text

Statistica descrittiva / 4. Esaminiamo i risultati

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

Box plot / 1. Analisi di query GSC categorizzate

Slide 29

Slide 29 text

Box plot / 2. Generiamo un box plot per il rank

Slide 30

Slide 30 text

Box plot / 3. Suddividiamo il dato per categoria di query 1 2 3

Slide 31

Slide 31 text

Box plot / 4. Capiamo il box plot Il più piccolo tra valore massimo o 75° percentile + 1,5 * IQR 75° percentile 50° percentile (la mediana) 25° percentile Il più grande tra valore minimo o 25° percentile - 1,5 * IQR IQR* *Intervallo interquartile (Interquartile Range) Media

Slide 32

Slide 32 text

Box plot / 4. Capiamo il box plot Valori anomali (outliers)

Slide 33

Slide 33 text

Box plot / 5. Interpretiamo le informazioni 1. Le query sull’abbigliamento hanno minori query con posizioni anomale 2. Le query sull’abbigliamento hanno una posizione media maggiore delle altre categorie 3. In generale, i dati delle query sull’abbigliamento risultano migliori delle altre

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

Identificare i dati anomali / 1. Calcoliamo alcune metriche =QUARTILE(F:F;1) (25° percentile) =QUARTILE(F:F;3) (75° percentile) =Terzo Quartile -Primo Quartile =Primo Quartile -(1,5*IQR) =Terzo Quartile +(1,5*IQR)

Slide 36

Slide 36 text

Identificare i dati anomali / 2. Conteggiamo i valori anomali =SE(O(Valore in esame < Limite inferiore; Valore in esame > Limite superiore); ‘’Sì’’;’’No’’)

Slide 37

Slide 37 text

Identificare i dati anomali / 3. Analizziamo i dati anomali di abbigliamento

Slide 38

Slide 38 text

No content

Slide 39

Slide 39 text

Carta di controllo / 1. Partiamo dai dati storici di GSC

Slide 40

Slide 40 text

Carta di controllo / 2. Calcoliamo media e deviazione standard =MEDIA(Colonna clic) =DEV.ST.P(Colonna clic)

Slide 41

Slide 41 text

Carta di controllo / 3. Calcoliamo le linee (a 3 deviazioni standard) =media+(3*deviazione standard) =media-(3*deviazione standard) =media

Slide 42

Slide 42 text

Carta di controllo / 4. Creiamo la carta di controllo dei clic di GSC - 10.000 20.000 30.000 40.000 50.000 60.000 Clic Media Linea di controllo superiore Linea di controllo inferiore

Slide 43

Slide 43 text

Carta di controllo / 5. Possiamo modificare le linee a 1 deviazione standard - 10.000 20.000 30.000 40.000 50.000 60.000 Clic Media Linea di controllo superiore Linea di controllo inferiore

Slide 44

Slide 44 text

No content

Slide 45

Slide 45 text

Correlazione / 1. Torniamo ai dati di GA su content grouping e landing

Slide 46

Slide 46 text

Correlazione / 2. Attiviamo lo strumento di correlazione 1 2 3

Slide 47

Slide 47 text

Correlazione / 3. Applichiamo al dataset

Slide 48

Slide 48 text

Correlazione / 4. Il risultato è la matrice di correlazione Coefficienti di correlazione Variabili Variabili

Slide 49

Slide 49 text

Correlazione / 5. Interpretiamo la matrice Significato dei coefficienti di correlazione: • -1 = correlazione negativa • 0 = correlazione nulla • +1 = correlazione positiva Nuovi utenti, transazioni e revenue crescono al crescere delle sessioni Transazioni e revenue crescono al crescere dei nuovi utenti Le revenue crescono al crescere delle transazioni

Slide 50

Slide 50 text

Correlazione / 6. Visualizziamo la correlazione di sessioni e revenue

Slide 51

Slide 51 text

Correlazione / 7. Ottimizziamo la visualizzazione

Slide 52

Slide 52 text

Correlazione / Perché gli studi di correlazione nella SEO non sono affidabili? • Non tengono in considerazione le feature delle SERP come Top Stories ecc • Non considerano la diversità di risultati in SERP causate da intenti differenti

Slide 53

Slide 53 text

Correlazione / Pro e contro Vantaggi (+) Quantifica la forza di una relazione tra variabili (+) Ottimo punto di partenza per ulteriori analisi (+) La relazione tra variabili potrebbe sintetizzare una causalità Svantaggi (-) Correlation is not causation (-) Se abbiamo pochi dati la correlazione può non essere attendibile (-) In presenza di valori anomali la correlazione perde efficacia (-) Le variabili confrontate devono essere distribuite normalmente

Slide 54

Slide 54 text

No content

Slide 55

Slide 55 text

Correlazione / Testiamo la significatività della correlazione (di Pearson) =PEARSON(Sessioni;Revenue) =CONTA.NUMERI(Sessioni) =(Coeff. Pearson * RADQ(Conteggio valori-2))/(RADQ(1- Coeff. Pearson ^2)) =Conteggio valori-2 =DISTRIB.T.2T(T Statistic;DF) p-value < 0,05 quindi la correlazione è significativa!

Slide 56

Slide 56 text

Correlazione / Testiamo anche il coeff. di Spearman (per distr. non normali) =RANGO.MEDIA(Singolo valore Sessioni;Colonna Sessioni;Ordine crescente) =RANGO.MEDIA(Singolo valore Sessioni;Colonna Sessioni;Ordine crescente)

Slide 57

Slide 57 text

Correlazione / Testare la correlazione con il coefficiente di Spearman la correlazione è significativa, ma il coefficiente di Spearman è molto vicino allo zero =CORRELAZIONE(Rank Sessioni;Rank Revenue)

Slide 58

Slide 58 text

Forecasting

Slide 59

Slide 59 text

Forecasting / Cos’è il forecasting • E’ l’attività di previsione di dati futuri basati su serie temporali storiche e analisi di trend e stagionalità • Esistono diverse tecniche di forecasting, qui vedremo la regressione lineare e lo smorzamento esponenziale

Slide 60

Slide 60 text

No content

Slide 61

Slide 61 text

Regressione lineare / 1. Prendiamo una serie temporale: i clic da GSC

Slide 62

Slide 62 text

Regressione lineare / 2. Attiviamo lo strumento di regressione 1 2 3

Slide 63

Slide 63 text

Regressione lineare / 3. Applichiamo al dataset

Slide 64

Slide 64 text

Regressione lineare / 4. Significato delle opzioni Colonna della variabile dipendente = quella da predire Colonna della variabile indipendente = quella conosciuta Grafici e dati sui risultati della regressione

Slide 65

Slide 65 text

Regressione lineare / 5. Trasformiamo il tracciato delle approssimazioni Equazione della regressione y = mx + b

Slide 66

Slide 66 text

Regressione lineare / 6. Analizziamo i risultati Coefficiente di correlazione (di Pearson) Coefficiente di determinazione = il 20% della variabilità dei click può essere spiegata dalla data (il resto è legato ad altri fattori In media, le distanze dei punti dalla linea di regressione è di 8653 clic Intercetta (la b dell’equazione) Coeff. angolare (la m dell’equazione)

Slide 67

Slide 67 text

Regressione lineare / 6. Analizziamo i risultati Equivalente del p-value per la correlazione. < 0,05 dunque la correlazione è significativa !

Slide 68

Slide 68 text

Regressione lineare / 7. Valori stimati VS valori osservati A B C + = Valori stimati dalla regressione Valori osservati

Slide 69

Slide 69 text

Regressione lineare / 8. Aggiungiamo le date e calcoliamo i valori futuri =(Coeff. angolare * Data)+Intercetta cioè l’equazione della regressione y = mx + b Nota: per rapidità si può usare la formula seguente =PREVISIONE.LINEARE(Data;Colon na dei click;Colonna delle date)

Slide 70

Slide 70 text

Regressione lineare / 9. Disegniamo il grafico con i valori futuri

Slide 71

Slide 71 text

Regressione lineare / Pro e contro Vantaggi (+) Facile da implementare e interpretare (+) Algoritmo molto flessibile, tra i più usati dai data scientist, non solo per il forecasting Svantaggi (-) Previsioni molto semplici, che non tengono conto delle stagionalità (-) I valori anomali impattano molto i risultati

Slide 72

Slide 72 text

No content

Slide 73

Slide 73 text

Smorzamento / 1. Torniamo alla serie temporale: i clic da GSC

Slide 74

Slide 74 text

Smorzamento / 2. Attiviamo lo strumento foglio previsione 1 2 3

Slide 75

Slide 75 text

Smorzamento / 3. Vediamo le opzioni dello strumento Data fino a cui effettuare la previsione Intervallo di confidenza: dati entro cui rientra la previsione futura Stagionalità: nel nostro caso 7 gg vanno bene perché i clic hanno una microstagionalità settimanale

Slide 76

Slide 76 text

Smorzamento / Pro e contro Vantaggi (+) Molto veloce da applicare ai propri dataset (+) Più accurato della regressione lineare perché tiene conto delle stagionalità (+) Flessibile e ricco di opzioni Svantaggi (-) Piuttosto accurato, ma solo nel breve termine (-) Non ancora all’altezza di una canonica sfera di cristallo ☺

Slide 77

Slide 77 text

Text mining

Slide 78

Slide 78 text

Text mining / Cos’è il text mining • Sono le tecniche volte a trasformare il testo - non strutturato - in dati strutturati e normalizzati e ad elaborarlo • Il text mining estrae significato dai testi grazie alla conversione delle informazioni in un linguaggio comprensibile alle machine, dunque senza una comprensione semantica.

Slide 79

Slide 79 text

Text mining / Il processo. Le possibili 6 fasi della pipeline di text mining Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre-elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment

Slide 80

Slide 80 text

Text mining / Il processo. Step #1 Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment La lettura dei dati di testo può avvenire secondo modalità diverse Nel web i dati sono già disponibili in formato tabella, oppure si può fare scraping Su Python si usano le librerie: • Pandas per gestire i cosiddetti dataframe • Scrapy, BeautifulSoup, Selenium per fare scraping

Slide 81

Slide 81 text

Text mining / Il processo. Step #2 Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment I testi vengono convertiti in oggetti documento e tokenizzati La tokenizzazione è il processo di suddivisione del testo in unità più piccole Segue l’assegnazione di identificativi a ciascuna parola del testo L’obiettivo è dunque creare un indice completo di parole da processare

Slide 82

Slide 82 text

No content

Slide 83

Slide 83 text

Text mining / Il processo. Step #3 Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment I token vengono arricchiti con informazioni aggiuntive Ad esempio si possono taggare alcune parti di testo come titolo, sommario ecc Sempre in questa fase è possible arricchire i token con delle entità (persone, città ecc)

Slide 84

Slide 84 text

No content

Slide 85

Slide 85 text

Text mining / Il processo. Step #4 Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment In questa fase si procede con la semplificazione dei token mediante stemming e/o lemmatizzazione Si possono anche eliminare testi troppo corti, cifre, stop words, tag non necessari

Slide 86

Slide 86 text

No content

Slide 87

Slide 87 text

Text mining / Il processo. Step #5 Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment I termini vengono raccolti nelle cosiddette Bag of Words Ad ogni termine viene assegnato un punteggio basato sulla sua frequenza nel testo Se si lavora con troppi termini, questi possono essere sintetizzate in keywords

Slide 88

Slide 88 text

No content

Slide 89

Slide 89 text

Text mining / Il processo. Step #6 Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment Con la codifica, ai termini viene assegnato 0 o 1 se presenti o meno all’interno di un documento L’embedding è un processo simile ma più complesso

Slide 90

Slide 90 text

No content

Slide 91

Slide 91 text

Text mining / Il processo. Step #7 Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment L’ultima fase è quella in cui si impiegano delle tecniche più specifiche per l’identificazione del sentiment o degli argomenti trattati

Slide 92

Slide 92 text

Text mining / Fasi in genere presenti negli script per la SEO Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre-elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment

Slide 93

Slide 93 text

No content

Slide 94

Slide 94 text

BOW / Esempio di conversione in Bag of Words Review 1: This movie is very scary and long Review 2: This movie is not scary and is slow Review 3: This movie is spooky and good

Slide 95

Slide 95 text

BOW / Trasformazione in vettori per l’elaborazione matematica Review 1: This movie is very scary and long Review 2: This movie is not scary and is slow Review 3: This movie is spooky and good Vettore di Review 1: [1 1 1 1 1 1 1 0 0 0 0] Vettore di Review 2: [1 1 2 0 0 1 1 0 1 0 0] Vettore di Review 3: [1 1 1 0 0 0 1 0 0 1 1]

Slide 96

Slide 96 text

BOW / In alternativa, avremmo potuto usare gli n-grammi

Slide 97

Slide 97 text

BOW / Calcolo della Term Frequency (TF) Review 2: This movie is not scary and is slow TF per il termine “this“ = numero di occorrenze per “this“ (1) numero di termini in Review 2 (8) = 1/8

Slide 98

Slide 98 text

BOW / Calcolo della Term Frequency (TF) Review 2: This movie is not scary and is slow TF per il termine “this“ = numero di occorrenze per “this“ (1) numero di termini in Review 2 (8) = 1/8 Ricorda qualcosa?

Slide 99

Slide 99 text

No content

Slide 100

Slide 100 text

BOW / Calcolo della Inverse Document Frequency (IDF) IDF per il termine “this“ = log Numero di documenti (3) Numero di documenti con il termine “this“ (3) = log(3/3) = log(1) = 0 In parole povere, un termine è meno importante tanto più è presente nel corpus di documenti (ad es. le stop words)

Slide 101

Slide 101 text

BOW / TF-IDF e le fondamenta dell’information retrieval TF-IDF per il termine “this“ in Review 2 = TF ( “this“) * IDF (“this“) = 0 La metrica TF-IDF è una delle prime ad essere utilizzate in information retrieval e dai primi motori di ricerca

Slide 102

Slide 102 text

BOW / John Mueller sul TF-IDF nella SEO “With regards to trying to understand which are the relevant words on a page, we use a ton of different techniques from information retrieval. And there’s tons of these metrics that have come out over the years.” “ …My general recommendation here is not to focus on these kinds of artificial metrics… because it’s something where on the one hand you can’t reproduce this metric directly because it’s based on the overall index of all of the content on the web. ” https://www.searchenginejournal.com/google-tf-idf/304361/

Slide 103

Slide 103 text

Clustering

Slide 104

Slide 104 text

Clustering / Significato e tipologie di algoritmi • Il clustering – anche detto analisi dei gruppi – è un insieme di tecniche che hanno l’obiettivo di raggruppare elementi omogenei tra loro • È tra i principali algoritmi di unsupervised learning, cioè applicabile a dataset poco strutturati (tecnicamente non etichettati) • Gli algoritmi di clustering si possono suddividere in tre macro-gruppi: o partizionali, in cui si formano dei gruppi in base alla distanza dei punti da un centro o gerarchici, i gruppi si formano per rappresentazione ad albero (ad es. per dendrogramma) o density-based, i gruppi si formano analizzando lo spazio intorno ad ogni punto • Nel prosieguo ci soffermiamo sul clustering partizionale (K-means) e density-based (DBSCAN)

Slide 105

Slide 105 text

Clustering / Clustering partizionale (ad es. K-means) 1. Si decide un numero di cluster (e relativi centroidi*) 2. Si calcolano le distanze dei punti dai centroidi (ad es. distanza euclidea) 3. Si assegnano i punti al cluster più vicino 4. Si spostano i centroidi in una nuova posizione 5. Si ripete il processo dal punto 2 per un certo numero di volte * I centroidi sono punti principali attorno a cui creare un cluster

Slide 106

Slide 106 text

1. Dataset iniziale 2. Input random dei primi centroidi 3. Primo calcolo delle distanze 4. Si spostano i centroidi 5. Secondo calcolo delle distanze 6. Dataset finale

Slide 107

Slide 107 text

Clustering / Clustering density-based (ad es. DBSCAN) 1. Per ogni punto si calcola un intorno, cioè i punti più vicini 2. Per definire l’intorno di punti occorre decidere: 1. Il raggio massimo dell’intorno 2. Il numero minimo di punti nell’intorno

Slide 108

Slide 108 text

Raggio massimo entro cui individuare punti simili Punti minimi all’interno del gruppo Punto centrale nel cui intorno ci sono almeno 4 punti Punto nel cui intorno NON ci sono 4 punti

Slide 109

Slide 109 text

No content

Slide 110

Slide 110 text

K-means / Clustering di query da GSC e identificazione opportunità Google Colab qui: https://colab.research.google.com/drive/15V y2pU93DNtVYSAQe5q4PD2_xrOCTp11?usp= sharing Fonte originale: https://www.shrikar.com/blog/python-for- seo-using-google-search-console

Slide 111

Slide 111 text

K-means / 1. Carichiamo il file su Colab Per il funzionamento dello script è necessario modificare questa intestazione nel csv Carichiamo il csv

Slide 112

Slide 112 text

K-means / 2. Come funziona lo script Importiamo le librerie necessarie Creiamo la BOW Applichiamo il modello K-means con 20 centroidi Per ogni cluster stampiamo i termini che contiene

Slide 113

Slide 113 text

K-means / 3. Esempio di clusterizzazione

Slide 114

Slide 114 text

K-means / 4. Come funziona lo script Generiamo una mappa di nomi per i cluster Assegniamo i nomi, calcoliamo il CTR e ordiniamo i cluster nel dataframe creato Generiamo un file di risutlati e stampiamo un grafico con la posizione dei cluster

Slide 115

Slide 115 text

K-means / 5. Interpretare il grafico I cluster Volantino e Friggitrici generano poche impressioni e CTR bassi: da dismettere? Volantino Friggitrici Letto Camerette Cucina e camerette hanno alti CTR ma impressioni basse: meritano più attenzione! Query su Letto e Divano Letto registrano molte impressioni e un alto CTR: le più performanti! Cucina Divano letto

Slide 116

Slide 116 text

No content

Slide 117

Slide 117 text

DBSCAN / Clustering di keyword da GSC o da GAds Google Colab qui: https://colab.research.google.com/drive/1F9 XkBZkx0P1WKXfexNPFU2K3I_qNi6Ez?usp=sh aring Fonte originale: https://www.pemavor.com/seo-keyword- clustering-with-python/

Slide 118

Slide 118 text

DBSCAN / 1. Come funziona lo script Importiamo le librerie necessarie Creiamo una funzione per la generazione di parole dopo stemming

Slide 119

Slide 119 text

DBSCAN / 1. Come funziona lo script Leggiamo il file e ne creiamo una lista con stemming (applicando la funziona creata in precedenza) Generiamo la BOW e applichiamo DBSCAN Raccogliamo i risultati e creiamo un file di output