Data Science per la SEO: nozioni di scienza dei dati applicate alla SEO (e non solo)

Data Science per la SEO: nozioni di scienza dei dati
applicate alla SEO (e non solo) Gianluca Campo Twitter: @giancampo Email: [email protected] #SMConnect

Chi sono Gianluca Campo Head of SEO & Analytics @
Nucleus NON SONO • uno sviluppatore • un matematico/statistico

Indice 1. Alcuni concetti di statistica 2. EDA – Analisi
esplorativa dei dati 1. Comprendere le variabili 2. Pulire il proprio dataset 3. Analizzare le relazioni tra variabili 3. Forecasting 1. Regressione lineare 2. Smorzamento esponenziale 4. Text mining 1. Il modello bag of words (BOW) 5. Clustering 1. Algoritmo K-means 2. DBSCAN Excel e il componente aggiuntivo Analysis Toolpak (disponibile anche per Google Sheets) Python e librerie aggiuntive (Pandas, Scikit-learn, NLTK) Strumenti

Possiamo manipolare una miriade di dati! • Crawling • Log
dei web server • Backlink • Comportamento utenti • Processi d’acquisto • Query degli utenti • Ranking in SERP • Caratteristiche delle SERP • Uso di app • Trending topics • Knowledge bases e entità • …

Meglio fare una pizza che acquistarla!

Alcuni concetti di statistica

Introduzione / Parleremo della distribuzione normale (o di Gauss) •
È la nozione di statistica più importante per la comprensione e la valutazione di ipotesi • Il punto forte della distribuzione gaussiana è che offre un riferimento statistico a cui paragonare altre distribuzioni • In natura infatti non esistono solo distribuzioni normali

Introduzione / Caratteristiche della distribuzione normale 68% 95% 99,7% 2,5%
2,5% Deviazioni standard dalla media Significatività statistica P-value ≤ 0,05 (5%) Media / Mediana / Moda

EDA – Analisi esplorativa dei dati

EDA / Cos'è l'analisi esplorativa dei dati • L'acronimo EDA
sta per Exploratory Data Analysis • Sviluppata dal matematico e statistico John Wilder Tukey (1915-2000) • Obiettivo della EDA è studiare i dati partendo dai dati stessi

EDA / Obiettivi dell'analisi esplorativa dei dati • estrarre variabili
importanti • tralasciare le variabili inutili 1. Comprendere le variabili di un dataset • identificare valori anomali, mancanti e errori umani • massimizzare le informazioni del dataset 2. Pulire il proprio dataset • comprendere la relazione • valutare la mancanza di relazione tra variabili 3. Analizzare le relazioni tra variabili

EDA / Installare Analysis Toolpak in Excel #1

Statistica descrittiva / 1. Analisi di dati GA su content
grouping e landing

Statistica descrittiva / 2. Attiviamo lo strumento di statistica descrittiva
1 2 3

Statistica descrittiva / 3. Applichiamo al dataset

Statistica descrittiva / 4. Esaminiamo i risultati

Statistica descrittiva / 4. Esaminiamo i risultati Media dei valori
analizzati Mediana e moda: altre misure di tendenza centrale Deviazione standard: più è alta più variano i dati rispetto alla media

Statistica descrittiva / 4. Esaminiamo i risultati Curtosi: più è
alta maggiore è l’altezza della distribuzione rispetto ad una distribuzione normale (0 = curtosi uguale alla distribuzione normale)

Statistica descrittiva / 4. Esaminiamo i risultati Asimmetria (detta anche
skewness): • 0 = simmetrica • -1 a +1 = abbastanza simmetrica • <-1 o >+1 = asimmetrica

Statistica descrittiva / 4. Esaminiamo i risultati Intervallo: differenza tra
valori minimo e massimo Valore minimo e valore massimo Conteggio dei valori

Statistica descrittiva / 4. Esaminiamo i risultati

Box plot / 1. Analisi di query GSC categorizzate

Box plot / 2. Generiamo un box plot per il
rank

Box plot / 3. Suddividiamo il dato per categoria di
query 1 2 3

Box plot / 4. Capiamo il box plot Il più
piccolo tra valore massimo o 75° percentile + 1,5 * IQR 75° percentile 50° percentile (la mediana) 25° percentile Il più grande tra valore minimo o 25° percentile - 1,5 * IQR IQR* *Intervallo interquartile (Interquartile Range) Media

Box plot / 4. Capiamo il box plot Valori anomali
(outliers)

Box plot / 5. Interpretiamo le informazioni 1. Le query
sull’abbigliamento hanno minori query con posizioni anomale 2. Le query sull’abbigliamento hanno una posizione media maggiore delle altre categorie 3. In generale, i dati delle query sull’abbigliamento risultano migliori delle altre

Identificare i dati anomali / 1. Calcoliamo alcune metriche =QUARTILE(F:F;1)
(25° percentile) =QUARTILE(F:F;3) (75° percentile) =Terzo Quartile -Primo Quartile =Primo Quartile -(1,5*IQR) =Terzo Quartile +(1,5*IQR)

Identificare i dati anomali / 2. Conteggiamo i valori anomali
=SE(O(Valore in esame < Limite inferiore; Valore in esame > Limite superiore); ‘’Sì’’;’’No’’)

Identificare i dati anomali / 3. Analizziamo i dati anomali
di abbigliamento

Carta di controllo / 1. Partiamo dai dati storici di
GSC

Carta di controllo / 2. Calcoliamo media e deviazione standard
=MEDIA(Colonna clic) =DEV.ST.P(Colonna clic)

Carta di controllo / 3. Calcoliamo le linee (a 3
deviazioni standard) =media+(3*deviazione standard) =media-(3*deviazione standard) =media

Carta di controllo / 4. Creiamo la carta di controllo
dei clic di GSC - 10.000 20.000 30.000 40.000 50.000 60.000 Clic Media Linea di controllo superiore Linea di controllo inferiore

Carta di controllo / 5. Possiamo modificare le linee a
1 deviazione standard - 10.000 20.000 30.000 40.000 50.000 60.000 Clic Media Linea di controllo superiore Linea di controllo inferiore

Correlazione / 1. Torniamo ai dati di GA su content
grouping e landing

Correlazione / 2. Attiviamo lo strumento di correlazione 1 2
3

Correlazione / 3. Applichiamo al dataset

Correlazione / 4. Il risultato è la matrice di correlazione
Coefficienti di correlazione Variabili Variabili

Correlazione / 5. Interpretiamo la matrice Significato dei coefficienti di
correlazione: • -1 = correlazione negativa • 0 = correlazione nulla • +1 = correlazione positiva Nuovi utenti, transazioni e revenue crescono al crescere delle sessioni Transazioni e revenue crescono al crescere dei nuovi utenti Le revenue crescono al crescere delle transazioni

Correlazione / 6. Visualizziamo la correlazione di sessioni e revenue

Correlazione / 7. Ottimizziamo la visualizzazione

Correlazione / Perché gli studi di correlazione nella SEO non
sono affidabili? • Non tengono in considerazione le feature delle SERP come Top Stories ecc • Non considerano la diversità di risultati in SERP causate da intenti differenti

Correlazione / Pro e contro Vantaggi (+) Quantifica la forza
di una relazione tra variabili (+) Ottimo punto di partenza per ulteriori analisi (+) La relazione tra variabili potrebbe sintetizzare una causalità Svantaggi (-) Correlation is not causation (-) Se abbiamo pochi dati la correlazione può non essere attendibile (-) In presenza di valori anomali la correlazione perde efficacia (-) Le variabili confrontate devono essere distribuite normalmente

Correlazione / Testiamo la significatività della correlazione (di Pearson) =PEARSON(Sessioni;Revenue)
=CONTA.NUMERI(Sessioni) =(Coeff. Pearson * RADQ(Conteggio valori-2))/(RADQ(1- Coeff. Pearson ^2)) =Conteggio valori-2 =DISTRIB.T.2T(T Statistic;DF) p-value < 0,05 quindi la correlazione è significativa!

Correlazione / Testiamo anche il coeff. di Spearman (per distr.
non normali) =RANGO.MEDIA(Singolo valore Sessioni;Colonna Sessioni;Ordine crescente) =RANGO.MEDIA(Singolo valore Sessioni;Colonna Sessioni;Ordine crescente)

Correlazione / Testare la correlazione con il coefficiente di Spearman
la correlazione è significativa, ma il coefficiente di Spearman è molto vicino allo zero =CORRELAZIONE(Rank Sessioni;Rank Revenue)

Forecasting

Forecasting / Cos’è il forecasting • E’ l’attività di previsione
di dati futuri basati su serie temporali storiche e analisi di trend e stagionalità • Esistono diverse tecniche di forecasting, qui vedremo la regressione lineare e lo smorzamento esponenziale

Regressione lineare / 1. Prendiamo una serie temporale: i clic
da GSC

Regressione lineare / 2. Attiviamo lo strumento di regressione 1
2 3

Regressione lineare / 3. Applichiamo al dataset

Regressione lineare / 4. Significato delle opzioni Colonna della variabile
dipendente = quella da predire Colonna della variabile indipendente = quella conosciuta Grafici e dati sui risultati della regressione

Regressione lineare / 5. Trasformiamo il tracciato delle approssimazioni Equazione
della regressione y = mx + b

Regressione lineare / 6. Analizziamo i risultati Coefficiente di correlazione
(di Pearson) Coefficiente di determinazione = il 20% della variabilità dei click può essere spiegata dalla data (il resto è legato ad altri fattori In media, le distanze dei punti dalla linea di regressione è di 8653 clic Intercetta (la b dell’equazione) Coeff. angolare (la m dell’equazione)

Regressione lineare / 6. Analizziamo i risultati Equivalente del p-value
per la correlazione. < 0,05 dunque la correlazione è significativa !

Regressione lineare / 7. Valori stimati VS valori osservati A
B C + = Valori stimati dalla regressione Valori osservati

Regressione lineare / 8. Aggiungiamo le date e calcoliamo i
valori futuri =(Coeff. angolare * Data)+Intercetta cioè l’equazione della regressione y = mx + b Nota: per rapidità si può usare la formula seguente =PREVISIONE.LINEARE(Data;Colon na dei click;Colonna delle date)

Regressione lineare / 9. Disegniamo il grafico con i valori
futuri

Regressione lineare / Pro e contro Vantaggi (+) Facile da
implementare e interpretare (+) Algoritmo molto flessibile, tra i più usati dai data scientist, non solo per il forecasting Svantaggi (-) Previsioni molto semplici, che non tengono conto delle stagionalità (-) I valori anomali impattano molto i risultati

Smorzamento / 1. Torniamo alla serie temporale: i clic da
GSC

Smorzamento / 2. Attiviamo lo strumento foglio previsione 1 2
3

Smorzamento / 3. Vediamo le opzioni dello strumento Data fino
a cui effettuare la previsione Intervallo di confidenza: dati entro cui rientra la previsione futura Stagionalità: nel nostro caso 7 gg vanno bene perché i clic hanno una microstagionalità settimanale

Smorzamento / Pro e contro Vantaggi (+) Molto veloce da
applicare ai propri dataset (+) Più accurato della regressione lineare perché tiene conto delle stagionalità (+) Flessibile e ricco di opzioni Svantaggi (-) Piuttosto accurato, ma solo nel breve termine (-) Non ancora all’altezza di una canonica sfera di cristallo ☺

Text mining

Text mining / Cos’è il text mining • Sono le
tecniche volte a trasformare il testo - non strutturato - in dati strutturati e normalizzati e ad elaborarlo • Il text mining estrae significato dai testi grazie alla conversione delle informazioni in un linguaggio comprensibile alle machine, dunque senza una comprensione semantica.

Text mining / Il processo. Le possibili 6 fasi della
pipeline di text mining Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre-elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment

Text mining / Il processo. Step #1 Lettura dati di
testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment La lettura dei dati di testo può avvenire secondo modalità diverse Nel web i dati sono già disponibili in formato tabella, oppure si può fare scraping Su Python si usano le librerie: • Pandas per gestire i cosiddetti dataframe • Scrapy, BeautifulSoup, Selenium per fare scraping

testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment I testi vengono convertiti in oggetti documento e tokenizzati La tokenizzazione è il processo di suddivisione del testo in unità più piccole Segue l’assegnazione di identificativi a ciascuna parola del testo L’obiettivo è dunque creare un indice completo di parole da processare

testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment I token vengono arricchiti con informazioni aggiuntive Ad esempio si possono taggare alcune parti di testo come titolo, sommario ecc Sempre in questa fase è possible arricchire i token con delle entità (persone, città ecc)

testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment In questa fase si procede con la semplificazione dei token mediante stemming e/o lemmatizzazione Si possono anche eliminare testi troppo corti, cifre, stop words, tag non necessari

testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment I termini vengono raccolti nelle cosiddette Bag of Words Ad ogni termine viene assegnato un punteggio basato sulla sua frequenza nel testo Se si lavora con troppi termini, questi possono essere sintetizzate in keywords

testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment Con la codifica, ai termini viene assegnato 0 o 1 se presenti o meno all’interno di un documento L’embedding è un processo simile ma più complesso

testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre- elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment L’ultima fase è quella in cui si impiegano delle tecniche più specifiche per l’identificazione del sentiment o degli argomenti trattati

Text mining / Fasi in genere presenti negli script per
la SEO Lettura dati di testo Conversione in documento e Tokenizzazione Arricchimento Pulizia dataset e pre-elaborazione Estrazione keyword / Bag Of Words Codifica / embedding Analisi argomenti e sentiment

BOW / Esempio di conversione in Bag of Words Review
1: This movie is very scary and long Review 2: This movie is not scary and is slow Review 3: This movie is spooky and good

BOW / Trasformazione in vettori per l’elaborazione matematica Review 1:
This movie is very scary and long Review 2: This movie is not scary and is slow Review 3: This movie is spooky and good Vettore di Review 1: [1 1 1 1 1 1 1 0 0 0 0] Vettore di Review 2: [1 1 2 0 0 1 1 0 1 0 0] Vettore di Review 3: [1 1 1 0 0 0 1 0 0 1 1]

BOW / In alternativa, avremmo potuto usare gli n-grammi

BOW / Calcolo della Term Frequency (TF) Review 2: This
movie is not scary and is slow TF per il termine “this“ = numero di occorrenze per “this“ (1) numero di termini in Review 2 (8) = 1/8

BOW / Calcolo della Term Frequency (TF) Review 2: This
movie is not scary and is slow TF per il termine “this“ = numero di occorrenze per “this“ (1) numero di termini in Review 2 (8) = 1/8 Ricorda qualcosa?

BOW / Calcolo della Inverse Document Frequency (IDF) IDF per
il termine “this“ = log Numero di documenti (3) Numero di documenti con il termine “this“ (3) = log(3/3) = log(1) = 0 In parole povere, un termine è meno importante tanto più è presente nel corpus di documenti (ad es. le stop words)

BOW / TF-IDF e le fondamenta dell’information retrieval TF-IDF per
il termine “this“ in Review 2 = TF ( “this“) * IDF (“this“) = 0 La metrica TF-IDF è una delle prime ad essere utilizzate in information retrieval e dai primi motori di ricerca

BOW / John Mueller sul TF-IDF nella SEO “With regards
to trying to understand which are the relevant words on a page, we use a ton of different techniques from information retrieval. And there’s tons of these metrics that have come out over the years.” “ …My general recommendation here is not to focus on these kinds of artificial metrics… because it’s something where on the one hand you can’t reproduce this metric directly because it’s based on the overall index of all of the content on the web. ” https://www.searchenginejournal.com/google-tf-idf/304361/

Clustering

Clustering / Significato e tipologie di algoritmi • Il clustering
– anche detto analisi dei gruppi – è un insieme di tecniche che hanno l’obiettivo di raggruppare elementi omogenei tra loro • È tra i principali algoritmi di unsupervised learning, cioè applicabile a dataset poco strutturati (tecnicamente non etichettati) • Gli algoritmi di clustering si possono suddividere in tre macro-gruppi: o partizionali, in cui si formano dei gruppi in base alla distanza dei punti da un centro o gerarchici, i gruppi si formano per rappresentazione ad albero (ad es. per dendrogramma) o density-based, i gruppi si formano analizzando lo spazio intorno ad ogni punto • Nel prosieguo ci soffermiamo sul clustering partizionale (K-means) e density-based (DBSCAN)

Clustering / Clustering partizionale (ad es. K-means) 1. Si decide
un numero di cluster (e relativi centroidi*) 2. Si calcolano le distanze dei punti dai centroidi (ad es. distanza euclidea) 3. Si assegnano i punti al cluster più vicino 4. Si spostano i centroidi in una nuova posizione 5. Si ripete il processo dal punto 2 per un certo numero di volte * I centroidi sono punti principali attorno a cui creare un cluster

1. Dataset iniziale 2. Input random dei primi centroidi 3.
Primo calcolo delle distanze 4. Si spostano i centroidi 5. Secondo calcolo delle distanze 6. Dataset finale

Clustering / Clustering density-based (ad es. DBSCAN) 1. Per ogni
punto si calcola un intorno, cioè i punti più vicini 2. Per definire l’intorno di punti occorre decidere: 1. Il raggio massimo dell’intorno 2. Il numero minimo di punti nell’intorno

Raggio massimo entro cui individuare punti simili Punti minimi all’interno
del gruppo Punto centrale nel cui intorno ci sono almeno 4 punti Punto nel cui intorno NON ci sono 4 punti

K-means / Clustering di query da GSC e identificazione opportunità
Google Colab qui: https://colab.research.google.com/drive/15V y2pU93DNtVYSAQe5q4PD2_xrOCTp11?usp= sharing Fonte originale: https://www.shrikar.com/blog/python-for- seo-using-google-search-console

K-means / 1. Carichiamo il file su Colab Per il
funzionamento dello script è necessario modificare questa intestazione nel csv Carichiamo il csv

K-means / 2. Come funziona lo script Importiamo le librerie
necessarie Creiamo la BOW Applichiamo il modello K-means con 20 centroidi Per ogni cluster stampiamo i termini che contiene

K-means / 3. Esempio di clusterizzazione

K-means / 4. Come funziona lo script Generiamo una mappa
di nomi per i cluster Assegniamo i nomi, calcoliamo il CTR e ordiniamo i cluster nel dataframe creato Generiamo un file di risutlati e stampiamo un grafico con la posizione dei cluster

K-means / 5. Interpretare il grafico I cluster Volantino e
Friggitrici generano poche impressioni e CTR bassi: da dismettere? Volantino Friggitrici Letto Camerette Cucina e camerette hanno alti CTR ma impressioni basse: meritano più attenzione! Query su Letto e Divano Letto registrano molte impressioni e un alto CTR: le più performanti! Cucina Divano letto

DBSCAN / Clustering di keyword da GSC o da GAds
Google Colab qui: https://colab.research.google.com/drive/1F9 XkBZkx0P1WKXfexNPFU2K3I_qNi6Ez?usp=sh aring Fonte originale: https://www.pemavor.com/seo-keyword- clustering-with-python/

DBSCAN / 1. Come funziona lo script Importiamo le librerie
necessarie Creiamo una funzione per la generazione di parole dopo stemming

DBSCAN / 1. Come funziona lo script Leggiamo il file
e ne creiamo una lista con stemming (applicando la funziona creata in precedenza) Generiamo la BOW e applichiamo DBSCAN Raccogliamo i risultati e creiamo un file di output

DBSCAN / 2. Esempio di clusterizzazione

Grazie!

Data Science per la SEO: nozioni di scienza dei...

Data Science per la SEO: nozioni di scienza dei dati applicate alla SEO (e non solo)

More Decks by Gianluca Campo

Other Decks in Marketing & SEO

Featured

Transcript