$30 off During Our Annual Pro Sale. View Details »

Advanced Link Analysis: nozioni ed esempi di automazione

Advanced Link Analysis: nozioni ed esempi di automazione

L'automazione consente di rendere scalabili attività che in genere richiederebbero tempi molto lunghi. Le attività di valorizzazione, classificazione e scoperta di nuove opportunità di link sono tra le più onerose: vediamo come velocizzarle con strumenti ed esempi pratici.

Gianluca Campo

September 29, 2020
Tweet

More Decks by Gianluca Campo

Other Decks in Marketing & SEO

Transcript

  1. Advanced Link Analysis: nozioni
    ed esempi di automazione
    Gianluca Campo
    Twitter: @giancampo
    Email: [email protected]

    View Slide

  2. Chi sono
    Gianluca Campo
    Head of SEO @ Nucleus
    Geek, non Nerd
    NON SONO:

    uno sviluppatore

    tantomeno un matematico

    View Slide

  3. Agenda e obiettivi
    1. Nozioni di base
    1. Teoria dei grafi e analisi delle reti
    2. PageRank
    3. Calcolo del PageRank
    4. Evoluzione del PageRank
    5. Cosa sappiamo oggi sui link
    2. Distribuzione del PageRank
    1. TIPR: True Internal PageRank
    2. Screaming Frog
    3. Python e Colab
    1. Capire davvero come funziona(va) il
    PageRank, senza averne paura
    2. Analizzare il PageRank per migliorarne la
    distribuzione
    3. Perché no, avvicinare alla
    programmazione

    View Slide

  4. Nozioni di base

    View Slide

  5. Teoria dei grafi e analisi delle reti

    View Slide

  6. E’ possibile attraversare tutti i ponti una volta
    sola?

    View Slide

  7. La prima formalizzazione di un problema sui
    grafi fu realizzata da Eulero nel 1736, con Il
    problema dei sette ponti di Koenigsberg
    Eulero è stato il primo a dimostrare che una
    passeggiata che attraversasse tutti ponti
    una volta sola è impossibile
    Un qualsiasi grafo è percorribile se e solo se ha
    tutti i nodi di grado pari, o due di essi sono di
    grado dispari [...]
    Ce lo spiega la teoria dei grafi

    View Slide

  8. Vediamo meglio cosa sono i grafi
    Sono configurazioni costituite da:
    • nodi o vertici (punti)
    • collegamenti (linee)
    Se i collegamenti:
    • non sono orientati si parla di spigoli e
    di grafo non orientato o semplice
    • sono orientati si parla di archi e di
    grafo orientato o digrafo
    Si parla di grado per indicare il numero di
    collegamenti verso un particolare nodo
    Grafo non
    orientato
    Digrafo
    (orientato)

    View Slide

  9. Dai grafi alle reti sociali
    La Social Network Analysis (SNA) è nata
    molto prima della nascita del Web
    Jacob Levi Moreno nel 1934 ha infatti
    pubblicato il primo libro con sociogrammi,
    rappresentazioni grafiche di reti sociali: Who
    shall survive?
    La teoria delle reti sociali studia le
    connessioni e le distanze nei grafi e
    attinge a piene mani dalla teoria dei grafi

    View Slide

  10. A metà anni ‘90 gli studi in information retrieval hanno cominciato a concentrarsi sull’uso:
    • di link e testi per migliorare la classificazione in argomenti
    • dei link per stimare popolarità e autorità in modo da restringere il set di risposte dei motori
    di ricerca
    In quegli anni si è iniziato ad applicare lo studio delle reti per studiare il Web
    Arriviamo alla SEO

    View Slide

  11. Quale nodo è il più importante?
    E’ una delle domande principali che si pone
    lo studio delle reti
    La misura dell’importanza di un nodo in
    una rete è detta centralità
    ?

    View Slide

  12. La risposta è... dipende
    Degree Centrality
    Quanti nodi può raggiungere direttamente
    questo nodo?
    Obiettivo: trovare i nodi che possono
    trasmettere informazioni al maggior numero
    possibile di altri nodi
    2
    4
    4
    3
    1
    1
    1

    View Slide

  13. La risposta è... dipende
    Eigenvector Centrality*
    Quanto questo nodo è connesso ad altri
    nodi molto connessi?
    Obiettivo: trovare i nodi con collegamenti più
    rilevanti
    2
    3
    2
    2
    1
    1
    1
    *calcolo semplificato

    View Slide

  14. PageRank

    View Slide

  15. Ideato a fine anni ‘90
    http://infolab.stanford.edu/~backrub/google.html

    View Slide

  16. PageRank ≈ Eigenvector Centrality
    Il PageRank è una variante della
    Eigenvector Centrality.
    La differenza è che PageRank si applica ad
    un digrafo perché tiene in conto link in
    entrata e in uscita.

    View Slide

  17. Calcolo del PageRank

    View Slide

  18. Come si calcola il PageRank della pagina A?
    PageRank (A)
    = PageRank (B)
    + PageRank (C)
    + PageRank (D)
    B
    C
    D
    A

    View Slide

  19. Ma occorre dividere per i link in uscita
    B
    C
    D
    A
    PageRank (A)
    = PageRank (B) / 3
    + PageRank (C) / 1
    + PageRank (D) / 3

    View Slide

  20. E il PageRank della pagina B?
    B
    C
    D
    A
    PageRank (B)
    = PageRank (D) / 3

    View Slide

  21. E il PageRank della pagina C?
    B
    C
    D
    A
    PageRank (C)
    = PageRank (A) / 1
    + PageRank (B) / 3
    + PageRank (D) / 3

    View Slide

  22. E il PageRank della pagina D?
    B
    C
    D
    A
    PageRank (D)
    = PageRank (B) / 3

    View Slide

  23. Occorre ripetere più volte il calcolo
    Start Iterazione 1 Iterazione 2 Iterazione N
    PageRank (A) 0,25
    PR(B)/3 + PR(C)/1
    + PR(D)/3 =
    0,42
    PR(B)/3 + PR(C)/1
    + PR(D)/3 =
    0,47
    PR(A)
    PageRank (B) 0,25
    PR(D)/3 =
    0,08
    PR(D)/3 =
    0,03
    PR(B)
    PageRank (C) 0,25
    PR(A)/1 + PR(B)/3
    + PR(D)/3 =
    0,42
    PR(A)/1 + PR(B)/3
    + PR(D)/3 =
    0,47
    PR(C)
    PageRank (D) 0,25
    PR(B)/3 =
    0,08
    PR(B)/3 =
    0,03
    PR(D)
    TOT PageRank 1 1 1 1

    View Slide

  24. Fino a “convergere”
    http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf

    View Slide

  25. Ma smorziamo con il random surfer model
    Il PageRank intende simulare il modello di
    comportamento di un utente sul Web
    Il cd. random surfer model prevede che:
    1. l’utente clicchi casualmente i link in
    pagina
    2. ad un certo punto cambi pagina senza
    seguire alcun link
    Per rispettare il secondo punto, al calcolo
    visto si aggiunge un damping factor
    (fattore di “smorzamento”)
    1
    link
    link
    link
    link
    link
    link
    link
    link
    link
    2
    link
    link
    link
    link
    link
    link
    link
    link
    link

    View Slide

  26. Evoluzione del PageRank

    View Slide

  27. Alcune caratteristiche menzionate nel
    brevetto
    Associate ai link:
    • dimensione del font
    • posizione del link
    • parole usate nell’anchor text
    Associate alle pagg. linkanti:
    • il topical cluster a cui appartiene
    • numero di link in pagina
    Infine, altre caratteristiche riguardano:
    • le pagg. di di destinazione
    • dati sul comportamento utente
    Un brevetto di Google - depositato nel 2004
    e concesso nel 2010 - sembra suggerire un
    nuovo approccio
    [...] reasonable surfer model that indicates that
    when a surfer accesses a document with a set
    of links, the surfer will follow some of the
    links with higher probability than others.
    [...]
    Il brevetto cita in modo esplicito alcune
    caratteristiche che possono essere usate
    per valutare l’importanza di un link
    Il reasonable surfer model (2004/2010)
    patents.google.com
    seobythesea.com

    View Slide

  28. Le seed pages (2006/2015)
    In un altro brevetto Google introduce il
    concetto di seed pages, cioè pagine di
    fiducia da cui ricavare informazioni su
    pagine da rankare.
    [...] One possible variation of PageRank that
    would reduce the effect of these techniques is to
    select a few “trusted“ pages (also referred to as
    the seed pages) [...]
    [...] The system next computes shortest
    distances from the set of seed pages to
    each page in the set of pages based on the
    lengths of the links between the pages. [...]
    patents.google.com
    seobythesea.com

    View Slide

  29. Modifiche al reasonable surfer model (2012/2016)
    Nel 2012 Google aggiorna il brevetto con un
    continuation patent, modificando alcuni
    claim.
    Nel nuovo brevetto Google sembra
    focalizzarsi meno sui documenti e sul
    comportamento dell’utente.
    Sembra che nel continuation patent ci sia un
    maggior focus sui link e - secondo Bill
    Slawski - sugli anchor text
    patents.google.com
    seobythesea.com

    View Slide

  30. Un PageRank esiste ancora?
    Nel 2019 un ex ingegnere di Google su
    HackerNews spiega che “il PageRank non è
    più utilizzato dal 2006”
    “L’algoritmo che lo sostituisce viene ancora
    chiamato PageRank in Google quindi
    tecnicamente è vero che esiste ancora”
    Spiega infine che il nuovo algoritmo effettua
    computazioni più rapide, necessarie a
    causa della forte crescita del Web.
    https://www.seroundtable.com/google-hasnt-used-pagerank-since-2006-27891.html
    https://news.ycombinator.com/item?id=20440079

    View Slide

  31. Sì, una forma di PageRank comunque esiste
    ancora
    https://twitter.com/JohnMu/status/1232014208180592641
    https://twitter.com/methode/status/829755916895535104

    View Slide

  32. Cosa sappiamo oggi sui link

    View Slide

  33. Quanto incide la posizione di un link?
    Dicevamo che secondo il reasonable surfer
    model la posizione di un link può
    impattare nel calcolo del PageRank
    Dalla versione 13 anche Screaming Frog ha introdotto la posizione
    dei link, facilmente personalizzabile

    View Slide

  34. Esperimento: link nel menu VS link nel footer
    1
    2
    1
    2
    Inserisco due link a pagg. con pari possibilità di posizionarsi per una chiave inventata Google premia la pag. con link nel menu

    View Slide

  35. Il nofollow è oggi solo un suggerimento?
    A settembre 2019 Google ha introdotto gli
    attributi rel=”sponsored”, rel=”ugc”
    Ha inoltre comunicato che:
    1. da quel momento in avanti nofollow
    sarebbe stato considerato un
    suggerimento lato ranking
    2. a marzo 2020 il nofollow sarebbe
    diventato solo un suggerimento anche
    lato scansione e indicizzazione
    1
    2
    https://webmasters.googleblog.com/2019/09/evolving-nofollow-new-
    ways-to-identify.html

    View Slide

  36. Esperimento: inserimento nofollow
    1
    2
    1
    2
    Inserisco due link a pagg. con pari possibilità di posizionarsi per una chiave inventata Google premia la pag. con link nel menu

    View Slide

  37. In effetti sembra ancora non sia così
    A metà giugno, nel podcast “Search Off The
    record”, Gary Ilyes ha affermato che
    (minuto 2:32):
    • Google si è “concesso” di considerare
    nofollow un suggerimento
    • non hanno ancora nulla di nuovo da
    annunciare
    • stanno lavorando su alcune cose che
    potrebbero essere utili a web e
    webmaster
    http://search-off-the-record.googledevelopers.libsynpro.com/pop-filters-
    nofollow-core-web-vitals-and-more

    View Slide

  38. Distribuzione del PageRank

    View Slide

  39. TIPR: True Internal PageRank

    View Slide

  40. Kevin Indig (ex Head of Tech SEO di
    Atlassian/Trello/Jira) al Tech SEO Boost 2019
    ha presentato questo modello
    JR Oakes, (celebre Tech SEO) ha realizzato
    uno script che automatizza il processo
    descritto da Indig
    Come nasce il True Internal PageRank
    https://twitter.com/jroakes/status/1101954879810093056

    View Slide

  41. Il PageRank classifica i nodi di una rete in
    base al numero di link in ingresso mettendo
    in risalto i nodi molto conosciuti e
    popolari
    Il CheiRank si limita a invertire la direzione
    dei collegamenti rispetto al PageRank, quindi
    classifica i nodi in base al numero di link in
    uscita mettendo in risalto i nodi più
    comunicativi
    Prima una nota sul CheiRank

    View Slide

  42. Come funziona il TIPR
    1. Calcolare il PageRank per
    individuare i nodi che ne ottengono
    più valore
    2. Calcolare il CheiRank per
    identificare i nodi che trasmettono più
    valore
    3. Inserire i backlink nelle
    computazioni in modo da ponderare
    PR e CR
    4. Monitorare i file di log per verificare
    come Google recepisce le modifiche ai
    link interni (maggiori info qui)
    https://www.kevin-indig.com/internal-link-optimization-with-tipr/

    View Slide

  43. Come funziona il TIPR
    1. Calcolare il PageRank per
    individuare i nodi che ne ottengono
    più valore
    2. Calcolare il CheiRank per
    identificare i nodi che trasmettono più
    valore
    3. Inserire i backlink nelle
    computazioni in modo da ponderare
    PR e CR
    4. Monitorare i file di log per verificare
    come Google recepisce le modifiche ai
    link interni (maggiori info qui)
    https://www.kevin-indig.com/internal-link-optimization-with-tipr/

    View Slide

  44. Screaming Frog

    View Slide

  45. Scansioniamo le pagine più interessanti

    View Slide

  46. Attiviamo le API di MOZ

    View Slide

  47. Esportiamo i file necessari
    internal_html.csv allinlinks.csv

    View Slide

  48. Python e Colab

    View Slide

  49. Introduzione a Google Colab
    https://colab.research.google.com/notebooks/intro.ipynb

    View Slide

  50. Copiare il notebook sul proprio Colab/Drive
    https://colab.research.google.com/drive/1OcqhCSr7yWCfIDLYTO7qcYZYDYNQMfm8?usp=sharing

    View Slide

  51. Eseguire la prima cella e seguire le istruzioni per collegare Drive

    View Slide

  52. Installare/importare le librerie necessarie e inserire alcune variabili

    View Slide

  53. Creiamo delle funzioni da usare dopo per consolidare le URL

    View Slide

  54. Carichiamo e leggiamo internal_html.csv

    View Slide

  55. Carichiamo e leggiamo allinlinks.csv

    View Slide

  56. Costruiamo i grafi, quindi ne calcoliamo PR e CR

    View Slide

  57. Adesso possiamo disegnare le distribuzioni di PR e CR
    Decommentare se si desidera un file .graphml da
    importare in Gephi o Cytoscape

    View Slide

  58. E soprattutto esportare i dati in csv

    View Slide

  59. Analizziamo le metriche
    External equity
    normalizzata
    (fonte: Moz)
    # normalizzato di
    outgoing
    links per pag.
    Valori normalizzati
    di PR e CR
    Valore
    normalizzato di
    equity per link

    View Slide

  60. PRO
    • Offre una stima il più possibile vicina a
    quello che potrebbe essere ancora
    oggi il funzionamento del PageRank
    • Uno dei pochi modelli ad offrire un
    sistema di monitoraggio così efficace
    sulla distribuzione di PageRank,
    tenendo anche conto di backlink
    esterni e log
    CONTRO
    • I segnali di ranking di Google sono
    molti più che il solo PageRank
    Conclusioni
    • Non esiste ancora un peso ben
    definito delle componenti
    EVOLUTIVE
    • Predire il successo di una struttura di
    link interni a partire da ambienti di
    staging
    • Inserire elementi come la posizione dei
    link tra i pesi iniziali da dare in input al
    modello

    View Slide

  61. Grazie!

    View Slide