Dal Nome della rosa al web semantico

Dal Nome della rosa al web semantico Information Retrieval &
SEO Potenzialità e promesse del web semantico [email protected]

NON SOLO WEB SEMANTICO • Come si impara il web
semantico? teoria (regole) vs pratica (applicazione) come l’elettrotecnica, l’inglese, il javascript… ma è particolarmente noioso • Terza via: comprendere le ragioni soddisfazione e utilità si assimilano e si ricordano meglio le regole

TROVABILITÀ • Ề fondamentale: prima di operare è necessario trovare...
• Trovabilità ⇔ Possesso: non trovare è come non avere, trovare è possedere? • Rendere trovabile: punto di vista “professionale” • Accessibilità e Ricerca: dipende da accessibilità e si ottiene con una ricerca (navigazione o “motore”)

ACCESSIBILITÀ • Accessibilità: esistenza + diritti di accesso + raggiungibile
in tempo utile • Progresso: conoscenza sempre più accessibile dal Nome della rosa al web… sommerso? • Società: accessibilità della conoscenza modella la società e viceversa (tutto o niente, specializzazione, un po’ di tutto per tutti: abbiamo visto cose...)

ACCESSIBILITÀ

ACCESSIBILITÀ 2mld indexed docs Vs. 550 mld

TIPOLOGIE DI RICERCA • Due estremi: obiettivo noto vs. esplorazione
per scoperta (noto non significa necessariamente conosciuto) • Dove si colloca? non c’è soluzione di continuità: in qualche punto della scala • Più ricerche in parallelo: non siamo macchine sempre diversi interessi oltre al focus del momento => serendipity

CRITERI DI RICERCA • Esprimere i criteri: a parole, in
un’altra lingua, in un linguaggio formale: renderli espliciti... • Linguaggi formali vs. linguaggio “naturale”: rigidità ma controllo vs. semplicità “naturale” compreso o tollerato? • Interattività: autocomplete guida criteri e aiuta ricerca • Criteri scriteriati: soggettivi o errati (fraintendimenti, incoerenze, errori di ortografia)

CRITERI DI RICERCA cognomi di tutti gli utenti che si
chiamano gianni in ordine alfabetico SQL SELECT cognome FROM utenti WHERE nome=’gianni’ ORDER BY cognome ASC Solr /utenti/select?fl=cognome&q=gianni&sort=cognome asc MongoDB db.utenti.find({nome: 'gianni'}, {cognome: 1}).sort({cognome: 1})

CRITERI DI RICERCA

RISULTATO DELLA RICERCA E VALUTAZIONE • Recall & Precision: tutti
e soli gli elementi pertinenti/rilevanti rispetto ai criteri • Valutazione: automatica e oggettiva è un paradosso • Ordinamento: la rilevanza non è assoluta score, fattore di pertinenza • Precisione o Recupero? ricerca o scoperta

OBIETTIVI • Servizio o sito-azienda: la soddisfazione dell’ utente è
centrale o solo utile (numero verde o assistenza a pagamento) • Più accessi, meno rimbalzi: sempre (da valutare se/come sfruttare le ricerche parallele fuori focus) • Più conversioni: una ricerca (interna o esterna) efficiente può essere il fine o il mezzo o addirittura controproducente (navigazione per simili, “taroccamenti”)

OTTIMIZZAZIONE DELLA RICERCA • Ricerca interna: far trovare i contenuti
nel sito bravi come Google senza Google? Google vs. le ricerche interne: sembra facile ma è una sfida impossibile • SEO: far trovare il sito, far trovare i contenuti, seguire le regole... come e quali?

OTTIMIZZAZIONE DELLA RICERCA

REALIZZAZIONE DELLA RICERCA Internet è la più grande biblioteca del
mondo. È solo che tutti i libri sono sparsi sul pavimento. John Allen Paulos

REALIZZAZIONE DELLA RICERCA • Per ogni documento accessibile verificare match
con i criteri di ricerca • Marcare i documenti già controllati stop se/quando trovato o tutti controllati; facile? • Ordinamento: riduzione tempi da N a log2N ma dispendioso, non esiste sempre ordinamento totale, solo per un criterio

ORGANIZZAZIONE DEI DOCUMENTI “CLASSICA” • Classificazione: ordinamento parziale, raggruppamento e
sottoclassi un solo posto per ogni cosa, predefinita da esperti, rigida e limitata (Google su Yahoo) • Composizione: mix di ordinamenti e classificazioni siti, librerie, videoteche: dipende da numero di elementi e priorità, ma il mix è l’unica strada

ORGANIZZAZIONE DEI DOCUMENTI “CLASSICA” CLASSIFICAZIONE SCIENTIFICA (Linneana)

ORGANIZZAZIONE DEI DOCUMENTI “WEB” • Categorie: classificazione ma meno rigida
(blog, e- commerce, classified) • Faccette: caratteristiche e valori pre-conteggio risultati (e-commerce, classified) • Tag: folksonomie vs. tassonomie social, dal basso, destrutturazione e libertà, nuvole e elementi simili per calcolo pertinenza organizzare contenuti e risultati, da usare in modo proprio, sono diversi!

ORGANIZZAZIONE DEI DOCUMENTI “WEB”

CATALOGAZIONE DEI DOCUMENTI (INDEX) • Indexing: raccolta “personale” di info
rilevanti precalcolate, puntamento all’ origine (indirizzo) • Cache: memoria parallela velocità ma disallineamento (invalidazione, refresh) • Ề indispensabile in molti contesti altrimenti tempi di risposta improponibili

CATALOGAZIONE DEI DOCUMENTI (INDEX)

INFORMATION RETRIEVAL • Ranking: calcolo di uno score, punteggio che
esprime pertinenza per ordinamento dei risultati in base alla rilevanza • tf-idf: formula di base dalla teoria dell’information retrieval dipende dal contenuto informativo del termine = quanto è interessante (inverso della frequenza), distribuzione informatività (legge di zipf) f = c/i

INFORMATION RETRIEVAL tf rilevanza del termine nel documento = frequenza
(non solo quantità) idf interesse, quantità di informazione del termine = quanto è raro/significativo tf - idf term frequency – inverse document frequency

STRUTTURAZIONE DEI DOCUMENTI E SEO • Strutturazione e riassunti: gradi
di importanza per facilitazione e miglioramento ricerca definibili se si ha controllo/gestione dei dati (ambito locale) • SEO: funziona se collaborazione interessata per avere strutturazione e riassunti nei documenti web (meta nascoste, quasi nascoste, markup… si può barare?)

CALCOLO DELLA RILEVANZA • Strutturazione e boost somma pesata dei
punteggi delle componenti in base all’ importanza (titolo vs testo...) • Conoscenza linguistica trattamento sinonimi e polisemia, stemming e declinazioni, stopwords ad hoc in base alla struttura • Semantica: struttura delle frasi per comprendere importanza dei termini (per favore vorrei trovare l’ultimo libro di…)

SW PER INFORMATION RETRIEVAL

SEMANTICA Ho mangiato gli spaghetti con le bacchette Ho mangiato
gli spaghetti con le polpette

IL WEB SEMANTICO • Metadati: dati su (altri) dati per
descrivere relazioni tra entità e le loro proprietà facilmente elaborabili • Ontologie: tassonomia delle entità rappresentabili e delle loro propretà definita a monte metadati => ontologia • Do ut des: l’autore ha l’onere di specificare i “giusti” metadati in cambio? • VS SEO: migliore contenuto informativo basta compromessi (es. h1)

IL WEB SEMANTICO: OpenGraph • Outsider: Facebook • Usa metatag
proprietari (og:type, og:url) con valori specifici e predefiniti serve “per far capire a FaceBook” cosa si sta commentando/like • Grafo delle relazioni rappresenta le relazioni sociali inserite direttamente dagli utenti (piace, commenta, amico di) e ne può comprendere molte altre (leggo, visito, cucino)

IL WEB SEMANTICO: OpenGraph <html prefix="og: http://ogp.me/ns#"> <head> <title>The Rock
(1996)</title> <meta property="og:title" content="The Rock" /> <meta property="og:type" content="video.movie" /> <meta property="og:url" content="http://www.imdb.com/title/tt0117500/" /> <meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" /> ... </head> ... </html>

IL WEB SEMANTICO: RDF • Il primo il più completo
e il più complesso • Documenti esterni alle pagine web quindi “scomodo” • Scritti in XML estensibile uso di namespaces • Asserzioni (statement) su risorse (entità) proprietà e valori di proprietà Resource Description Framework

IL WEB SEMANTICO: RDF <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:v="http://rdf.data-vocabulary.org/#" >
<rdf:Description rdf:about="http://www.bakeca.it/chi-siamo/flavio-portis/"> <v:name>Flavio Portis</v:name> <v:title>programmatore</v:title> <v:affiliation">Bakeca.it</v:affiliation"> </rdf:Description> </rdf:RDF>

IL WEB SEMANTICO: RDFa • Markup interno embedded nelle pagine
web nei normali tag html • Usa attributi proprietari (typeof, property) con valori specifici e predefiniti definiti nei namespaces • Molto estensibile forse troppo... ma utilizzato e adottato Resource Description Framework in Attribute

IL WEB SEMANTICO: RDFa <div> Mi chiamo Flavio Portis, lavoro
come programmatore in Bakeca. </div> <div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Person"> Mi chiamo <span property="v:name">Flavio Portis</span>, lavoro come <span property="v:title">programmatore</span> in <span property="v:affiliation">Bakeca.it</span>. </div>

IL WEB SEMANTICO: RDFa

IL WEB SEMANTICO: Microformati • Markup interno embedded nelle pagine
web nei normali tag html • Usa attributo class con valori specifici e predefiniti attenzione a collisioni con css • Molto semplice forse troppo...

IL WEB SEMANTICO: Microformati <div> Mi chiamo Flavio Portis, lavoro
come programmatore in Bakeca.it. </div> <div class="vcard"> Mi chiamo <span class="fn">Flavio Portis</span>, lavoro come <span class="title">programmatore</span> in <span class="org">Bakeca.it</span>. </div>

IL WEB SEMANTICO: Microdati - schema.org • Markup interno embedded
nelle pagine web nei normali tag html • Usa attributi proprietari (itemscope, itemtype, itemprop) con valori che si riferiscono all’ontologia • Ontologia che definisce la semantica “globale” con classi ad eredità multipla http://www.schema. org/docs/full.html • Progetto nato e sponsorizzato (anche) da Google

IL WEB SEMANTICO: Microdati - schema.org <div> Mi chiamo Flavio
Portis, lavoro come programmatore in Bakeca.it. </div> <div itemscope itemtype="http://schema.org/Person"> Mi chiamo <span itemprop="name">Flavio Portis</span>, lavoro come <span itemprop="title">programmatore</span> in <span itemprop="affiliation">Bakeca.it</span>. </div>

IL WEB SEMANTICO: Microdati - schema.org

IL WEB SEMANTICO: Microdati - schema.org Google Validator: http://www.google.com/webmasters/tools/richsnippets

[email protected]

Dal Nome della rosa al web semantico

Dal Nome della rosa al web semantico

More Decks by weLaika

Other Decks in Programming

Featured

Transcript