$30 off During Our Annual Pro Sale. View Details »

Advanced Link Analysis: nozioni ed esempi di automazione

Advanced Link Analysis: nozioni ed esempi di automazione

L'automazione consente di rendere scalabili attività che in genere richiederebbero tempi molto lunghi. Le attività di valorizzazione, classificazione e scoperta di nuove opportunità di link sono tra le più onerose: vediamo come velocizzarle con strumenti ed esempi pratici.

Gianluca Campo

September 29, 2020
Tweet

More Decks by Gianluca Campo

Other Decks in Marketing & SEO

Transcript

  1. Advanced Link Analysis: nozioni ed esempi di automazione Gianluca Campo

    Twitter: @giancampo Email: gianluca.campo@nucleusagency.com
  2. Chi sono Gianluca Campo Head of SEO @ Nucleus Geek,

    non Nerd NON SONO: • uno sviluppatore • tantomeno un matematico
  3. Agenda e obiettivi 1. Nozioni di base 1. Teoria dei

    grafi e analisi delle reti 2. PageRank 3. Calcolo del PageRank 4. Evoluzione del PageRank 5. Cosa sappiamo oggi sui link 2. Distribuzione del PageRank 1. TIPR: True Internal PageRank 2. Screaming Frog 3. Python e Colab 1. Capire davvero come funziona(va) il PageRank, senza averne paura 2. Analizzare il PageRank per migliorarne la distribuzione 3. Perché no, avvicinare alla programmazione
  4. Nozioni di base

  5. Teoria dei grafi e analisi delle reti

  6. E’ possibile attraversare tutti i ponti una volta sola?

  7. La prima formalizzazione di un problema sui grafi fu realizzata

    da Eulero nel 1736, con Il problema dei sette ponti di Koenigsberg Eulero è stato il primo a dimostrare che una passeggiata che attraversasse tutti ponti una volta sola è impossibile Un qualsiasi grafo è percorribile se e solo se ha tutti i nodi di grado pari, o due di essi sono di grado dispari [...] Ce lo spiega la teoria dei grafi
  8. Vediamo meglio cosa sono i grafi Sono configurazioni costituite da:

    • nodi o vertici (punti) • collegamenti (linee) Se i collegamenti: • non sono orientati si parla di spigoli e di grafo non orientato o semplice • sono orientati si parla di archi e di grafo orientato o digrafo Si parla di grado per indicare il numero di collegamenti verso un particolare nodo Grafo non orientato Digrafo (orientato)
  9. Dai grafi alle reti sociali La Social Network Analysis (SNA)

    è nata molto prima della nascita del Web Jacob Levi Moreno nel 1934 ha infatti pubblicato il primo libro con sociogrammi, rappresentazioni grafiche di reti sociali: Who shall survive? La teoria delle reti sociali studia le connessioni e le distanze nei grafi e attinge a piene mani dalla teoria dei grafi
  10. A metà anni ‘90 gli studi in information retrieval hanno

    cominciato a concentrarsi sull’uso: • di link e testi per migliorare la classificazione in argomenti • dei link per stimare popolarità e autorità in modo da restringere il set di risposte dei motori di ricerca In quegli anni si è iniziato ad applicare lo studio delle reti per studiare il Web Arriviamo alla SEO
  11. Quale nodo è il più importante? E’ una delle domande

    principali che si pone lo studio delle reti La misura dell’importanza di un nodo in una rete è detta centralità ?
  12. La risposta è... dipende Degree Centrality Quanti nodi può raggiungere

    direttamente questo nodo? Obiettivo: trovare i nodi che possono trasmettere informazioni al maggior numero possibile di altri nodi 2 4 4 3 1 1 1
  13. La risposta è... dipende Eigenvector Centrality* Quanto questo nodo è

    connesso ad altri nodi molto connessi? Obiettivo: trovare i nodi con collegamenti più rilevanti 2 3 2 2 1 1 1 *calcolo semplificato
  14. PageRank

  15. Ideato a fine anni ‘90 http://infolab.stanford.edu/~backrub/google.html

  16. PageRank ≈ Eigenvector Centrality Il PageRank è una variante della

    Eigenvector Centrality. La differenza è che PageRank si applica ad un digrafo perché tiene in conto link in entrata e in uscita.
  17. Calcolo del PageRank

  18. Come si calcola il PageRank della pagina A? PageRank (A)

    = PageRank (B) + PageRank (C) + PageRank (D) B C D A
  19. Ma occorre dividere per i link in uscita B C

    D A PageRank (A) = PageRank (B) / 3 + PageRank (C) / 1 + PageRank (D) / 3
  20. E il PageRank della pagina B? B C D A

    PageRank (B) = PageRank (D) / 3
  21. E il PageRank della pagina C? B C D A

    PageRank (C) = PageRank (A) / 1 + PageRank (B) / 3 + PageRank (D) / 3
  22. E il PageRank della pagina D? B C D A

    PageRank (D) = PageRank (B) / 3
  23. Occorre ripetere più volte il calcolo Start Iterazione 1 Iterazione

    2 Iterazione N PageRank (A) 0,25 PR(B)/3 + PR(C)/1 + PR(D)/3 = 0,42 PR(B)/3 + PR(C)/1 + PR(D)/3 = 0,47 PR(A) PageRank (B) 0,25 PR(D)/3 = 0,08 PR(D)/3 = 0,03 PR(B) PageRank (C) 0,25 PR(A)/1 + PR(B)/3 + PR(D)/3 = 0,42 PR(A)/1 + PR(B)/3 + PR(D)/3 = 0,47 PR(C) PageRank (D) 0,25 PR(B)/3 = 0,08 PR(B)/3 = 0,03 PR(D) TOT PageRank 1 1 1 1
  24. Fino a “convergere” http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf

  25. Ma smorziamo con il random surfer model Il PageRank intende

    simulare il modello di comportamento di un utente sul Web Il cd. random surfer model prevede che: 1. l’utente clicchi casualmente i link in pagina 2. ad un certo punto cambi pagina senza seguire alcun link Per rispettare il secondo punto, al calcolo visto si aggiunge un damping factor (fattore di “smorzamento”) 1 link link link link link link link link link 2 link link link link link link link link link
  26. Evoluzione del PageRank

  27. Alcune caratteristiche menzionate nel brevetto Associate ai link: • dimensione

    del font • posizione del link • parole usate nell’anchor text Associate alle pagg. linkanti: • il topical cluster a cui appartiene • numero di link in pagina Infine, altre caratteristiche riguardano: • le pagg. di di destinazione • dati sul comportamento utente Un brevetto di Google - depositato nel 2004 e concesso nel 2010 - sembra suggerire un nuovo approccio [...] reasonable surfer model that indicates that when a surfer accesses a document with a set of links, the surfer will follow some of the links with higher probability than others. [...] Il brevetto cita in modo esplicito alcune caratteristiche che possono essere usate per valutare l’importanza di un link Il reasonable surfer model (2004/2010) patents.google.com seobythesea.com
  28. Le seed pages (2006/2015) In un altro brevetto Google introduce

    il concetto di seed pages, cioè pagine di fiducia da cui ricavare informazioni su pagine da rankare. [...] One possible variation of PageRank that would reduce the effect of these techniques is to select a few “trusted“ pages (also referred to as the seed pages) [...] [...] The system next computes shortest distances from the set of seed pages to each page in the set of pages based on the lengths of the links between the pages. [...] patents.google.com seobythesea.com
  29. Modifiche al reasonable surfer model (2012/2016) Nel 2012 Google aggiorna

    il brevetto con un continuation patent, modificando alcuni claim. Nel nuovo brevetto Google sembra focalizzarsi meno sui documenti e sul comportamento dell’utente. Sembra che nel continuation patent ci sia un maggior focus sui link e - secondo Bill Slawski - sugli anchor text patents.google.com seobythesea.com
  30. Un PageRank esiste ancora? Nel 2019 un ex ingegnere di

    Google su HackerNews spiega che “il PageRank non è più utilizzato dal 2006” “L’algoritmo che lo sostituisce viene ancora chiamato PageRank in Google quindi tecnicamente è vero che esiste ancora” Spiega infine che il nuovo algoritmo effettua computazioni più rapide, necessarie a causa della forte crescita del Web. https://www.seroundtable.com/google-hasnt-used-pagerank-since-2006-27891.html https://news.ycombinator.com/item?id=20440079
  31. Sì, una forma di PageRank comunque esiste ancora https://twitter.com/JohnMu/status/1232014208180592641 https://twitter.com/methode/status/829755916895535104

  32. Cosa sappiamo oggi sui link

  33. Quanto incide la posizione di un link? Dicevamo che secondo

    il reasonable surfer model la posizione di un link può impattare nel calcolo del PageRank Dalla versione 13 anche Screaming Frog ha introdotto la posizione dei link, facilmente personalizzabile
  34. Esperimento: link nel menu VS link nel footer 1 2

    1 2 Inserisco due link a pagg. con pari possibilità di posizionarsi per una chiave inventata Google premia la pag. con link nel menu
  35. Il nofollow è oggi solo un suggerimento? A settembre 2019

    Google ha introdotto gli attributi rel=”sponsored”, rel=”ugc” Ha inoltre comunicato che: 1. da quel momento in avanti nofollow sarebbe stato considerato un suggerimento lato ranking 2. a marzo 2020 il nofollow sarebbe diventato solo un suggerimento anche lato scansione e indicizzazione 1 2 https://webmasters.googleblog.com/2019/09/evolving-nofollow-new- ways-to-identify.html
  36. Esperimento: inserimento nofollow 1 2 1 2 Inserisco due link

    a pagg. con pari possibilità di posizionarsi per una chiave inventata Google premia la pag. con link nel menu
  37. In effetti sembra ancora non sia così A metà giugno,

    nel podcast “Search Off The record”, Gary Ilyes ha affermato che (minuto 2:32): • Google si è “concesso” di considerare nofollow un suggerimento • non hanno ancora nulla di nuovo da annunciare • stanno lavorando su alcune cose che potrebbero essere utili a web e webmaster http://search-off-the-record.googledevelopers.libsynpro.com/pop-filters- nofollow-core-web-vitals-and-more
  38. Distribuzione del PageRank

  39. TIPR: True Internal PageRank

  40. Kevin Indig (ex Head of Tech SEO di Atlassian/Trello/Jira) al

    Tech SEO Boost 2019 ha presentato questo modello JR Oakes, (celebre Tech SEO) ha realizzato uno script che automatizza il processo descritto da Indig Come nasce il True Internal PageRank https://twitter.com/jroakes/status/1101954879810093056
  41. Il PageRank classifica i nodi di una rete in base

    al numero di link in ingresso mettendo in risalto i nodi molto conosciuti e popolari Il CheiRank si limita a invertire la direzione dei collegamenti rispetto al PageRank, quindi classifica i nodi in base al numero di link in uscita mettendo in risalto i nodi più comunicativi Prima una nota sul CheiRank
  42. Come funziona il TIPR 1. Calcolare il PageRank per individuare

    i nodi che ne ottengono più valore 2. Calcolare il CheiRank per identificare i nodi che trasmettono più valore 3. Inserire i backlink nelle computazioni in modo da ponderare PR e CR 4. Monitorare i file di log per verificare come Google recepisce le modifiche ai link interni (maggiori info qui) https://www.kevin-indig.com/internal-link-optimization-with-tipr/
  43. Come funziona il TIPR 1. Calcolare il PageRank per individuare

    i nodi che ne ottengono più valore 2. Calcolare il CheiRank per identificare i nodi che trasmettono più valore 3. Inserire i backlink nelle computazioni in modo da ponderare PR e CR 4. Monitorare i file di log per verificare come Google recepisce le modifiche ai link interni (maggiori info qui) https://www.kevin-indig.com/internal-link-optimization-with-tipr/
  44. Screaming Frog

  45. Scansioniamo le pagine più interessanti

  46. Attiviamo le API di MOZ

  47. Esportiamo i file necessari internal_html.csv allinlinks.csv

  48. Python e Colab

  49. Introduzione a Google Colab https://colab.research.google.com/notebooks/intro.ipynb

  50. Copiare il notebook sul proprio Colab/Drive https://colab.research.google.com/drive/1OcqhCSr7yWCfIDLYTO7qcYZYDYNQMfm8?usp=sharing

  51. Eseguire la prima cella e seguire le istruzioni per collegare

    Drive
  52. Installare/importare le librerie necessarie e inserire alcune variabili

  53. Creiamo delle funzioni da usare dopo per consolidare le URL

  54. Carichiamo e leggiamo internal_html.csv

  55. Carichiamo e leggiamo allinlinks.csv

  56. Costruiamo i grafi, quindi ne calcoliamo PR e CR

  57. Adesso possiamo disegnare le distribuzioni di PR e CR Decommentare

    se si desidera un file .graphml da importare in Gephi o Cytoscape
  58. E soprattutto esportare i dati in csv

  59. Analizziamo le metriche External equity normalizzata (fonte: Moz) # normalizzato

    di outgoing links per pag. Valori normalizzati di PR e CR Valore normalizzato di equity per link
  60. PRO • Offre una stima il più possibile vicina a

    quello che potrebbe essere ancora oggi il funzionamento del PageRank • Uno dei pochi modelli ad offrire un sistema di monitoraggio così efficace sulla distribuzione di PageRank, tenendo anche conto di backlink esterni e log CONTRO • I segnali di ranking di Google sono molti più che il solo PageRank Conclusioni • Non esiste ancora un peso ben definito delle componenti EVOLUTIVE • Predire il successo di una struttura di link interni a partire da ambienti di staging • Inserire elementi come la posizione dei link tra i pesi iniziali da dare in input al modello
  61. Grazie!