Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LE ENTITÀ, L’UNIVERSO E TUTTO QUANTO

LE ENTITÀ, L’UNIVERSO E TUTTO QUANTO

Guida pratica ad un possibile uso del Natural Language Processing nelle attività SEO quotidiane.
Vi mostriamo come usiamo NLP e NER nell'analisi dei contenuti in Facile.it!

Link al Google Forms: https://forms.gle/Pt4i1hdeXqS7iUhZ7

Cerchiamo un SEO Manager: https://inrecruiting.intervieweb.it/facileit/jobs/seo-manager-361055/it/

Cerchiamo un SEO Frontend Software Engineer: https://inrecruiting.intervieweb.it/facileit/jobs/seo-frontend-software-engineer-367262/it/

Alessandro D'Andrea

May 04, 2023
Tweet

Other Decks in Marketing & SEO

Transcript

  1. LE ENTITÀ, L’UNIVERSO E TUTTO QUANTO Guida pratica ad un

    possibile uso del Natural Language Processing nelle attività SEO quotidiane
  2. Terrestri, prestate attenzione prego… • 2012: Lancio del Knowledge Graph

    ◦ Per la prima volta topic e non stringhe. ◦ Database di dominio pubblico. • 2013: Hummingbird ◦ Introduzione di NLP (Natural Language Processing). ◦ Non più match di stringhe query⇔testo ma la pagina deve rispondere al contesto di ricerca. • 2015: RankBrain ◦ Introduzione di AI per migliorare la comprensione del contesto in cui una query viene cercata. ◦ Una pagina può rankare per una query a prescindere dal fatto che la contenga al suo interno.
  3. Terrestri, prestate attenzione prego… • 2019: BERT: Bidirectional encoder representation

    from transformers. ◦ Un sistema di intelligenza artificiale che Google usa e che permette di comprendere come combinazioni di parole possano determinare significati ed intenti diversi. • 2021: MUM: multitask unified model ◦ Evoluzione di BERT, dichiarato essere 1000 volte più potente. ◦ È in grado di scrivere, non solo di interpretare linguaggio. ◦ Training su 75 lingue, ogni market rilevante per Google è stato coperto. • 2022 (Agosto): MUM per individuare position zero inutili. • 2022 (Settembre): Helpful content update e system.
  4. Non fatevi prendere dal panico Esistono tanti SEO e tante

    risorse dalle quali farsi rassicurare. • Video di Massimiliano Geraci e Giorgio Taverniti a proposito di entità e dati strutturati: https://youtu.be/7FFuUqRYE8U • Video di Massimiliano Geraci e WordLift sull’arricchimento semantico: https://youtu.be/fZoav1uJpvk • Jason Barnard: https://jasonbarnard.com/ • InLinks: https://inlinks.net/p/ • OnCrawl: https://www.oncrawl.com/blog/ • SEO by the sea: https://www.seobythesea.com/ • Olaf Kopp: https://www.kopp-online-marketing.com/blog • Wordlift: https://wordlift.io/blog/en/ • Marco Giordano: https://twitter.com/GiordMarco96 • Koray Tuğberk GÜBÜR: https://www.holisticseo.digital/
  5. Asciugamani ed altri oggetti utili TextRazor API Natural Language Google

    SpaCy Costo Free: 500 giorno Free: 5000 mese Free Modello in italiano si si si Tipologia API REST, Library REST, Library Library, CLI Built-in parser HTML, Plain Text HTML, Plain Text Plain Text Rilevamento entità si si si Linking entità Wikipedia, Wikidata, Freebase, DBPedia Wikipedia custom Knowledge Base Categorizzazione testo si si no Analisi sentiment no si no Word2Vec no no si
  6. Asciugamani ed altri oggetti utili Tutte le librerie precedenti permettono

    di: • Disambiguare entità con lo stesso nome deducendo la tipologia in base al contesto del contenuto (ingegner Ferrari=> Person, Rosso Ferrari => Thing, La Ferrari => Organization). • Calcolare un Salience/Relevance Score che indichi quanto una data entità viene riconosciuta come rilevante nel documento esaminato, in modo da stabilire una footprint tra i vari contenuti. • Estrarre i riferimenti a Knowledge Graph noti (Wikipedia su tutti) delle entità individuate nel testo.
  7. IL CONTENUTO AL TERMINE DELL’UNIVERSO Un caso pratico, lo script

    che usiamo e metrica e processo che abbiamo creato: l’Entity Footprint
  8. Quali problemi vogliamo risolvere? L’adozione di un metodo basato su

    API e su NLP non nasce nel vuoto, ma perché tutti, chi più chi meno, almeno una volta: • Abbiamo voluto capire cosa c’era di così galattico nei testi dei competitor da farli rankare bene. • Abbiamo avuto qualche problema di stesura dei contenuti, e sarebbe stato necessario un metodo quantitativo per definire cosa fosse da rivedere e cosa andasse bene.
  9. Che obiettivi ci siamo posti? • Migliorare la rilevanza di

    un contenuto rispetto a specifici argomenti. • Verificare che il contenuto contenga tutti gli argomenti presenti nella pagine che rankano meglio. • Identificare l’entity footprint dei contenuti analizzati. • Supportare l’editor nella valutazione del proprio lavoro. • Risparmiare tempo. • Evitare rilavorazioni. • Capire meglio il motore di ricerca, e soddisfare la nostra curiosità.
  10. Caratteristiche del software e dell’output • Creato in Python in

    ambiente cloud. • Integrato con API NLP. • In grado di analizzare più di un testo. • In grado di estrarre e confrontare le entità presenti in ogni testo, e calcolarne una metrica di pertinenza rispetto al testo in cui è stata trovata, al fine di creare un ranking di entità e una footprint finale. • In grado di evidenziare la frase da cui è stata estratta una specifica entità. • In grado di essere rilavorato e consultato o condiviso semplicemente, attraverso un normale CSV.
  11. Entity Footprint Definizione: Un valore che individua l’insieme delle entità

    presenti e condivise nei contenuti presi in esame, ordinato in base alla popolarità e alla media dei valori dell’indice di ranking della Salience dove l’entità è richiamata.
  12. Aumentare la rilevanza delle entità Per aumentare la rilevanza di

    entità specifiche all’interno del testo seguiamo 4 step: 1.Individuiamo le entità rilevate nei contenuti analizzati, e creiamo la footprint ordinando in un indice da 1 ad n le entità di ogni competitor sulla base della Sailence in ordine decrescente. 2.Identifichiamo le entità non presenti o non rilevate nel nostro testo. 3.Identifichiamo le entità già presenti nel nostro testo, ma da migliorare. Sono quelle con un valore di indice di relevance score differente rispetto alla footprint. 4.Ripetiamo il confronto per valutare la rilevanza delle entità nella nuova bozza. L’obiettivo, quindi, è generare una footprint degli argomenti delle pagine, e capire quali siano gli argomenti principali delle pagine dei competitor.
  13. Entità Mancanti o Non Rilevate Sono le entità pertinenti con

    l’argomento della pagina in esame e rilevate nei testi dei competitor, ma non presenti o non rilevate nel nostro. Che fare? • Introdurle all’interno di nuovi paragrafi, se rilevate correlate rispetto all’argomento principale. Da valutare soprattutto se le entità mancanti ruotano intorno a uno o più sotto argomenti specifici. • Introdurle riformulando alcune frasi, rendendo la sintassi della frase più chiara o espandendo gli argomenti trattati nella pagina. Se invece gli argomenti sono presenti nel contenuto potrebbe esser necessario utilizzare un nome specifico per le entità che si vogliono intercettare (es: Responsabilità civile autoveicoli VS RC Auto). (non sono state usate terminologie proprie dell’argomento associato alle entità individuate sulle pagine dei competitor).
  14. Entità da Migliorare Sono le entità più pertinenti per l’argomento

    ma che non rispettano i valori della footprint. Ne dovrebbe essere aumentata la rilevanza come da footprint. Che fare? Una revisione controllata del contenuto facendo attenzione a: • Introdurre più punteggiatura e ridurre la lunghezza delle frasi → Facilita la lettura del testo, la capacità delle API di tokenizzare un testo, ottenendo maggiore affidabilità nell’attribuzione della Salience. • Modificare la struttura sintattica → Usare forme attive anziché passive aumenta la rilevanza dell’entità nel testo. • Modificare la struttura del contenuto -> La posizione in cui vengono individuate le entità contribuisce alla footprint. Quindi creare un testo più semplice da leggere e da capire!
  15. Iterazione del processo Una volta preparata la nuova bozza, dobbiamo

    valutarla il più oggettivamente possibile. Come? • Ripetere il confronto del nuovo testo vs. i competitor e il testo di partenza e se necessario: ◦ Ridurre il testo per avere maggior focus su specifici argomenti aumentandone la rilevanza. ◦ Riformulare ulteriormente parti del testo. • Confrontare il testo in esame con altre pagine affini del proprio dominio per verificare potenziale cannibalizzazione. • Verificare che la footprint delle entità in pagina sia simile tra la nostra pagina e quella dei competitor principali.
  16. Iterazione del processo Una volta preparata la nuova bozza è

    necessario confrontarla con i testi presi in esame. Ma quando considero concluso il processo? 1. Tutte le entità mancanti nel proprio testo dovranno essere rilevate. 2. Le entità principali avranno una posizione ritenuta soddisfacente ed in linea con l’obiettivo della pagina. 3. La classifica di pertinenza delle entità della bozza dovrà esser similare alla classifica generale.
  17. Un esempio di risultato Non c’è né conferma né prova

    che la scrittura dei testi seguendo questo processo sia fattore di ranking. Testatelo pure, ma non garantiamo alcun miglioramento dei posizionamenti.
  18. Relevance Score != Keyword Density • Non esiste una percentuale

    giusta per le entità più importanti: ogni contenuto ha peculiarità proprie. Un contenuto più breve potrebbe mostrare un valore di Salience più alto di uno più lungo. Ciò non significa sia migliore in assoluto. • La ripetizione delle parole che attivano il riconoscimento delle entità non contribuisce in alcun modo ad aumentare la rilevanza di queste nel contenuto. Ci ricorda qualcosa?
  19. Arricchimento Semantico ed Entity SEO Il processo descritto prepara un

    testo all’utilizzo di dati strutturati che evidenziano quali sono le entità più rilevanti contenute al suo interno, attraverso l’utilizzo di: • about • mentions • knowsAbout • sameAs In questo modo, possiamo mantenere una coerenza tra quanto presente nei dati strutturati e quanto presente nel testo della pagina.
  20. Il SEO Copy non è morto. Il copy meno che

    mai • Il tool è un supporto al processo di scrittura; • La competenza specifica di un editor riguardo un particolare argomento rimane fondamentale; • La creatività del copywriter rimane al centro del processo, garantendo ottimizzazione e una pagina scritta bene.
  21. Il nostro asciugamano • Compila il form per ricevere lo

    script Python che usiamo per le analisi! https://forms.gle/Pt4i1hdeXqS7iUhZ7 • In Facile.it cerchiamo un SEO Manager! -> Inrecruiting | SEO Manager (intervieweb.it) • In Facile.it cerchiamo un SEO Frontend Software Engineer -> Inrecruiting | SEO Frontend Software Engineer (intervieweb.it)