Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LE ENTITÀ, L’UNIVERSO E TUTTO QUANTO

LE ENTITÀ, L’UNIVERSO E TUTTO QUANTO

Guida pratica ad un possibile uso del Natural Language Processing nelle attività SEO quotidiane.
Vi mostriamo come usiamo NLP e NER nell'analisi dei contenuti in Facile.it!

Link al Google Forms: https://forms.gle/Pt4i1hdeXqS7iUhZ7

Cerchiamo un SEO Manager: https://inrecruiting.intervieweb.it/facileit/jobs/seo-manager-361055/it/

Cerchiamo un SEO Frontend Software Engineer: https://inrecruiting.intervieweb.it/facileit/jobs/seo-frontend-software-engineer-367262/it/

Alessandro D'Andrea

May 04, 2023
Tweet

Other Decks in Marketing & SEO

Transcript

  1. LE ENTITÀ, L’UNIVERSO E TUTTO
    QUANTO
    Guida pratica ad un possibile uso del Natural Language
    Processing nelle attività SEO quotidiane

    View Slide

  2. Il Team SEO di Facile.it
    Linda
    Montemurro
    Alessandro
    D’Andrea
    Simone
    Razzano
    Elena
    Dell’Orfanello

    View Slide

  3. Terrestri, prestate attenzione prego…
    ● 2012: Lancio del Knowledge Graph
    ○ Per la prima volta topic e non stringhe.
    ○ Database di dominio pubblico.
    ● 2013: Hummingbird
    ○ Introduzione di NLP (Natural Language Processing).
    ○ Non più match di stringhe query⇔testo ma la pagina deve rispondere al contesto di
    ricerca.
    ● 2015: RankBrain
    ○ Introduzione di AI per migliorare la comprensione del contesto in cui una query viene
    cercata.
    ○ Una pagina può rankare per una query a prescindere dal fatto che la contenga al suo
    interno.

    View Slide

  4. Terrestri, prestate attenzione prego…
    ● 2019: BERT: Bidirectional encoder representation from transformers.
    ○ Un sistema di intelligenza artificiale che Google usa e che permette di comprendere
    come combinazioni di parole possano determinare significati ed intenti diversi.
    ● 2021: MUM: multitask unified model
    ○ Evoluzione di BERT, dichiarato essere 1000 volte più potente.
    ○ È in grado di scrivere, non solo di interpretare linguaggio.
    ○ Training su 75 lingue, ogni market rilevante per Google è stato coperto.
    ● 2022 (Agosto): MUM per individuare position zero inutili.
    ● 2022 (Settembre): Helpful content update e system.

    View Slide

  5. Non fatevi prendere dal panico
    Esistono tanti SEO e tante risorse dalle quali farsi rassicurare.
    ● Video di Massimiliano Geraci e Giorgio Taverniti a proposito di entità e dati strutturati:
    https://youtu.be/7FFuUqRYE8U
    ● Video di Massimiliano Geraci e WordLift sull’arricchimento semantico:
    https://youtu.be/fZoav1uJpvk
    ● Jason Barnard: https://jasonbarnard.com/
    ● InLinks: https://inlinks.net/p/
    ● OnCrawl: https://www.oncrawl.com/blog/
    ● SEO by the sea: https://www.seobythesea.com/
    ● Olaf Kopp: https://www.kopp-online-marketing.com/blog
    ● Wordlift: https://wordlift.io/blog/en/
    ● Marco Giordano: https://twitter.com/GiordMarco96
    ● Koray Tuğberk GÜBÜR: https://www.holisticseo.digital/

    View Slide

  6. Asciugamani ed altri oggetti utili
    TextRazor API Natural Language Google SpaCy
    Costo Free: 500 giorno Free: 5000 mese Free
    Modello in italiano si si si
    Tipologia API REST, Library REST, Library Library, CLI
    Built-in parser HTML, Plain Text HTML, Plain Text Plain Text
    Rilevamento entità si si si
    Linking entità Wikipedia, Wikidata,
    Freebase, DBPedia
    Wikipedia custom Knowledge
    Base
    Categorizzazione testo si si no
    Analisi sentiment no si no
    Word2Vec no no si

    View Slide

  7. Asciugamani ed altri oggetti utili
    Tutte le librerie precedenti permettono di:
    ● Disambiguare entità con lo stesso nome deducendo la tipologia in base al contesto del
    contenuto (ingegner Ferrari=> Person, Rosso Ferrari => Thing, La Ferrari =>
    Organization).
    ● Calcolare un Salience/Relevance Score che indichi quanto una data entità viene
    riconosciuta come rilevante nel documento esaminato, in modo da stabilire una footprint
    tra i vari contenuti.
    ● Estrarre i riferimenti a Knowledge Graph noti (Wikipedia su tutti) delle entità individuate
    nel testo.

    View Slide

  8. IL CONTENUTO AL TERMINE
    DELL’UNIVERSO
    Un caso pratico, lo script che usiamo e metrica e processo
    che abbiamo creato: l’Entity Footprint

    View Slide

  9. Quali problemi vogliamo risolvere?
    L’adozione di un metodo basato su API e su NLP non nasce nel vuoto, ma perché tutti, chi più
    chi meno, almeno una volta:
    ● Abbiamo voluto capire cosa c’era di così galattico nei testi dei competitor da farli rankare
    bene.
    ● Abbiamo avuto qualche problema di stesura dei contenuti, e sarebbe stato necessario un
    metodo quantitativo per definire cosa fosse da rivedere e cosa andasse bene.

    View Slide

  10. Che obiettivi ci siamo posti?
    ● Migliorare la rilevanza di un contenuto rispetto a specifici argomenti.
    ● Verificare che il contenuto contenga tutti gli argomenti presenti nella pagine che rankano
    meglio.
    ● Identificare l’entity footprint dei contenuti analizzati.
    ● Supportare l’editor nella valutazione del proprio lavoro.
    ● Risparmiare tempo.
    ● Evitare rilavorazioni.
    ● Capire meglio il motore di ricerca, e soddisfare la nostra curiosità.

    View Slide

  11. Caratteristiche del software e dell’output
    ● Creato in Python in ambiente cloud.
    ● Integrato con API NLP.
    ● In grado di analizzare più di un testo.
    ● In grado di estrarre e confrontare le entità presenti in ogni testo, e calcolarne una metrica
    di pertinenza rispetto al testo in cui è stata trovata, al fine di creare un ranking di entità e
    una footprint finale.
    ● In grado di evidenziare la frase da cui è stata estratta una specifica entità.
    ● In grado di essere rilavorato e consultato o condiviso semplicemente, attraverso un
    normale CSV.

    View Slide

  12. Entity Matrix
    Entity Matrix: l’entità
    esiste nel testo
    analizzato?

    View Slide

  13. Salience / Relevance Score
    Relevance
    Score: quanto
    viene rilevata
    importante
    l’entità nel
    bilancio della
    pagina?

    View Slide

  14. Mentions
    Mentions: dove viene rilevata
    l’entità?

    View Slide

  15. Entity Footprint

    View Slide

  16. Entity Footprint
    Definizione:
    Un valore che individua l’insieme delle entità presenti e condivise nei contenuti presi in
    esame, ordinato in base alla popolarità e alla media dei valori dell’indice di ranking della
    Salience dove l’entità è richiamata.

    View Slide

  17. Aumentare la rilevanza delle entità
    Per aumentare la rilevanza di entità specifiche all’interno del testo seguiamo 4
    step:
    1.Individuiamo le entità rilevate nei contenuti analizzati, e creiamo la footprint ordinando in un
    indice da 1 ad n le entità di ogni competitor sulla base della Sailence in ordine decrescente.
    2.Identifichiamo le entità non presenti o non rilevate nel nostro testo.
    3.Identifichiamo le entità già presenti nel nostro testo, ma da migliorare. Sono quelle con un
    valore di indice di relevance score differente rispetto alla footprint.
    4.Ripetiamo il confronto per valutare la rilevanza delle entità nella nuova bozza.
    L’obiettivo, quindi, è generare una footprint degli argomenti delle pagine, e capire
    quali siano gli argomenti principali delle pagine dei competitor.

    View Slide

  18. Entità Mancanti o Non Rilevate
    Sono le entità pertinenti con l’argomento della pagina in esame e rilevate nei testi dei competitor, ma non
    presenti o non rilevate nel nostro.
    Che fare?
    ● Introdurle all’interno di nuovi paragrafi, se rilevate correlate rispetto all’argomento principale. Da
    valutare soprattutto se le entità mancanti ruotano intorno a uno o più sotto argomenti specifici.
    ● Introdurle riformulando alcune frasi, rendendo la sintassi della frase più chiara o espandendo gli
    argomenti trattati nella pagina.
    Se invece gli argomenti sono presenti nel contenuto potrebbe esser necessario utilizzare un nome
    specifico per le entità che si vogliono intercettare (es: Responsabilità civile autoveicoli VS RC Auto). (non
    sono state usate terminologie proprie dell’argomento associato alle entità individuate sulle pagine dei
    competitor).

    View Slide

  19. Entità da Migliorare
    Sono le entità più pertinenti per l’argomento ma che non rispettano i valori della footprint. Ne dovrebbe
    essere aumentata la rilevanza come da footprint.
    Che fare?
    Una revisione controllata del contenuto facendo attenzione a:
    ● Introdurre più punteggiatura e ridurre la lunghezza delle frasi → Facilita la lettura del testo, la
    capacità delle API di tokenizzare un testo, ottenendo maggiore affidabilità nell’attribuzione della
    Salience.
    ● Modificare la struttura sintattica → Usare forme attive anziché passive aumenta la rilevanza dell’entità
    nel testo.
    ● Modificare la struttura del contenuto -> La posizione in cui vengono individuate le entità contribuisce
    alla footprint.
    Quindi creare un testo più semplice da leggere e da capire!

    View Slide

  20. Esempio concreto - Prima
    •Veicoli: 0.16
    •Moto: 0.13
    •Assicurazione: 0.12
    •Copertura: 0.12

    View Slide

  21. Esempio concreto - Dopo
    •Moto: 0.34
    •Assicurazione: 0.30
    •Copertura: 0.11
    •Veicoli: 0.09

    View Slide

  22. Iterazione del processo
    Una volta preparata la nuova bozza, dobbiamo valutarla il più oggettivamente possibile.
    Come?
    ● Ripetere il confronto del nuovo testo vs. i competitor e il testo di partenza e se
    necessario:
    ○ Ridurre il testo per avere maggior focus su specifici argomenti aumentandone la
    rilevanza.
    ○ Riformulare ulteriormente parti del testo.
    ● Confrontare il testo in esame con altre pagine affini del proprio dominio per verificare
    potenziale cannibalizzazione.
    ● Verificare che la footprint delle entità in pagina sia simile tra la nostra pagina e quella dei
    competitor principali.

    View Slide

  23. Iterazione del processo
    Una volta preparata la nuova bozza è necessario confrontarla con i testi presi in esame.
    Ma quando considero concluso il processo?
    1. Tutte le entità mancanti nel proprio testo dovranno essere rilevate.
    2. Le entità principali avranno una posizione ritenuta soddisfacente ed in linea con
    l’obiettivo della pagina.
    3. La classifica di pertinenza delle entità della bozza dovrà esser similare alla classifica
    generale.

    View Slide

  24. Un esempio di risultato
    Non c’è né conferma né prova che la scrittura dei testi seguendo questo processo sia fattore di ranking.
    Testatelo pure, ma non garantiamo alcun miglioramento dei posizionamenti.

    View Slide

  25. ADDIO E GRAZIE PER TUTTE LE
    ENTITÀ

    View Slide

  26. Relevance Score != Keyword Density
    ● Non esiste una percentuale giusta per le entità più importanti: ogni contenuto ha
    peculiarità proprie. Un contenuto più breve potrebbe mostrare un valore di Salience più
    alto di uno più lungo. Ciò non significa sia migliore in assoluto.
    ● La ripetizione delle parole che attivano il riconoscimento delle entità non contribuisce in
    alcun modo ad aumentare la rilevanza di queste nel contenuto. Ci ricorda qualcosa?

    View Slide

  27. Arricchimento Semantico ed Entity SEO
    Il processo descritto prepara un testo all’utilizzo di dati strutturati che evidenziano quali sono
    le entità più rilevanti contenute al suo interno, attraverso l’utilizzo di:
    ● about
    ● mentions
    ● knowsAbout
    ● sameAs
    In questo modo, possiamo mantenere una coerenza tra quanto presente nei dati strutturati e
    quanto presente nel testo della pagina.

    View Slide

  28. Il SEO Copy non è morto. Il copy meno che mai
    ● Il tool è un supporto al processo di scrittura;
    ● La competenza specifica di un editor riguardo un particolare argomento rimane
    fondamentale;
    ● La creatività del copywriter rimane al centro del processo, garantendo ottimizzazione e
    una pagina scritta bene.

    View Slide

  29. Il nostro asciugamano
    ● Compila il form per ricevere lo script Python che usiamo per le analisi!
    https://forms.gle/Pt4i1hdeXqS7iUhZ7
    ● In Facile.it cerchiamo un SEO Manager! -> Inrecruiting | SEO Manager (intervieweb.it)
    ● In Facile.it cerchiamo un SEO Frontend Software Engineer -> Inrecruiting | SEO Frontend Software
    Engineer (intervieweb.it)

    View Slide

  30. GRAZIE

    View Slide