Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Dal Nome della rosa al web semantico

weLaika
November 04, 2014

Dal Nome della rosa al web semantico

weLaika

November 04, 2014
Tweet

More Decks by weLaika

Other Decks in Programming

Transcript

  1. NON SOLO WEB SEMANTICO • Come si impara il web

    semantico? teoria (regole) vs pratica (applicazione) come l’elettrotecnica, l’inglese, il javascript… ma è particolarmente noioso • Terza via: comprendere le ragioni soddisfazione e utilità si assimilano e si ricordano meglio le regole
  2. TROVABILITÀ • Ề fondamentale: prima di operare è necessario trovare...

    • Trovabilità ⇔ Possesso: non trovare è come non avere, trovare è possedere? • Rendere trovabile: punto di vista “professionale” • Accessibilità e Ricerca: dipende da accessibilità e si ottiene con una ricerca (navigazione o “motore”)
  3. ACCESSIBILITÀ • Accessibilità: esistenza + diritti di accesso + raggiungibile

    in tempo utile • Progresso: conoscenza sempre più accessibile dal Nome della rosa al web… sommerso? • Società: accessibilità della conoscenza modella la società e viceversa (tutto o niente, specializzazione, un po’ di tutto per tutti: abbiamo visto cose...)
  4. TIPOLOGIE DI RICERCA • Due estremi: obiettivo noto vs. esplorazione

    per scoperta (noto non significa necessariamente conosciuto) • Dove si colloca? non c’è soluzione di continuità: in qualche punto della scala • Più ricerche in parallelo: non siamo macchine sempre diversi interessi oltre al focus del momento => serendipity
  5. CRITERI DI RICERCA • Esprimere i criteri: a parole, in

    un’altra lingua, in un linguaggio formale: renderli espliciti... • Linguaggi formali vs. linguaggio “naturale”: rigidità ma controllo vs. semplicità “naturale” compreso o tollerato? • Interattività: autocomplete guida criteri e aiuta ricerca • Criteri scriteriati: soggettivi o errati (fraintendimenti, incoerenze, errori di ortografia)
  6. CRITERI DI RICERCA cognomi di tutti gli utenti che si

    chiamano gianni in ordine alfabetico SQL SELECT cognome FROM utenti WHERE nome=’gianni’ ORDER BY cognome ASC Solr /utenti/select?fl=cognome&q=gianni&sort=cognome asc MongoDB db.utenti.find({nome: 'gianni'}, {cognome: 1}).sort({cognome: 1})
  7. RISULTATO DELLA RICERCA E VALUTAZIONE • Recall & Precision: tutti

    e soli gli elementi pertinenti/rilevanti rispetto ai criteri • Valutazione: automatica e oggettiva è un paradosso • Ordinamento: la rilevanza non è assoluta score, fattore di pertinenza • Precisione o Recupero? ricerca o scoperta
  8. OBIETTIVI • Servizio o sito-azienda: la soddisfazione dell’ utente è

    centrale o solo utile (numero verde o assistenza a pagamento) • Più accessi, meno rimbalzi: sempre (da valutare se/come sfruttare le ricerche parallele fuori focus) • Più conversioni: una ricerca (interna o esterna) efficiente può essere il fine o il mezzo o addirittura controproducente (navigazione per simili, “taroccamenti”)
  9. OTTIMIZZAZIONE DELLA RICERCA • Ricerca interna: far trovare i contenuti

    nel sito bravi come Google senza Google? Google vs. le ricerche interne: sembra facile ma è una sfida impossibile • SEO: far trovare il sito, far trovare i contenuti, seguire le regole... come e quali?
  10. REALIZZAZIONE DELLA RICERCA Internet è la più grande biblioteca del

    mondo. È solo che tutti i libri sono sparsi sul pavimento. John Allen Paulos
  11. REALIZZAZIONE DELLA RICERCA • Per ogni documento accessibile verificare match

    con i criteri di ricerca • Marcare i documenti già controllati stop se/quando trovato o tutti controllati; facile? • Ordinamento: riduzione tempi da N a log2N ma dispendioso, non esiste sempre ordinamento totale, solo per un criterio
  12. ORGANIZZAZIONE DEI DOCUMENTI “CLASSICA” • Classificazione: ordinamento parziale, raggruppamento e

    sottoclassi un solo posto per ogni cosa, predefinita da esperti, rigida e limitata (Google su Yahoo) • Composizione: mix di ordinamenti e classificazioni siti, librerie, videoteche: dipende da numero di elementi e priorità, ma il mix è l’unica strada
  13. ORGANIZZAZIONE DEI DOCUMENTI “WEB” • Categorie: classificazione ma meno rigida

    (blog, e- commerce, classified) • Faccette: caratteristiche e valori pre-conteggio risultati (e-commerce, classified) • Tag: folksonomie vs. tassonomie social, dal basso, destrutturazione e libertà, nuvole e elementi simili per calcolo pertinenza organizzare contenuti e risultati, da usare in modo proprio, sono diversi!
  14. CATALOGAZIONE DEI DOCUMENTI (INDEX) • Indexing: raccolta “personale” di info

    rilevanti precalcolate, puntamento all’ origine (indirizzo) • Cache: memoria parallela velocità ma disallineamento (invalidazione, refresh) • Ề indispensabile in molti contesti altrimenti tempi di risposta improponibili
  15. INFORMATION RETRIEVAL • Ranking: calcolo di uno score, punteggio che

    esprime pertinenza per ordinamento dei risultati in base alla rilevanza • tf-idf: formula di base dalla teoria dell’information retrieval dipende dal contenuto informativo del termine = quanto è interessante (inverso della frequenza), distribuzione informatività (legge di zipf) f = c/i
  16. INFORMATION RETRIEVAL tf rilevanza del termine nel documento = frequenza

    (non solo quantità) idf interesse, quantità di informazione del termine = quanto è raro/significativo tf - idf term frequency – inverse document frequency
  17. STRUTTURAZIONE DEI DOCUMENTI E SEO • Strutturazione e riassunti: gradi

    di importanza per facilitazione e miglioramento ricerca definibili se si ha controllo/gestione dei dati (ambito locale) • SEO: funziona se collaborazione interessata per avere strutturazione e riassunti nei documenti web (meta nascoste, quasi nascoste, markup… si può barare?)
  18. CALCOLO DELLA RILEVANZA • Strutturazione e boost somma pesata dei

    punteggi delle componenti in base all’ importanza (titolo vs testo...) • Conoscenza linguistica trattamento sinonimi e polisemia, stemming e declinazioni, stopwords ad hoc in base alla struttura • Semantica: struttura delle frasi per comprendere importanza dei termini (per favore vorrei trovare l’ultimo libro di…)
  19. IL WEB SEMANTICO • Metadati: dati su (altri) dati per

    descrivere relazioni tra entità e le loro proprietà facilmente elaborabili • Ontologie: tassonomia delle entità rappresentabili e delle loro propretà definita a monte metadati => ontologia • Do ut des: l’autore ha l’onere di specificare i “giusti” metadati in cambio? • VS SEO: migliore contenuto informativo basta compromessi (es. h1)
  20. IL WEB SEMANTICO: OpenGraph • Outsider: Facebook • Usa metatag

    proprietari (og:type, og:url) con valori specifici e predefiniti serve “per far capire a FaceBook” cosa si sta commentando/like • Grafo delle relazioni rappresenta le relazioni sociali inserite direttamente dagli utenti (piace, commenta, amico di) e ne può comprendere molte altre (leggo, visito, cucino)
  21. IL WEB SEMANTICO: OpenGraph <html prefix="og: http://ogp.me/ns#"> <head> <title>The Rock

    (1996)</title> <meta property="og:title" content="The Rock" /> <meta property="og:type" content="video.movie" /> <meta property="og:url" content="http://www.imdb.com/title/tt0117500/" /> <meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" /> ... </head> ... </html>
  22. IL WEB SEMANTICO: RDF • Il primo il più completo

    e il più complesso • Documenti esterni alle pagine web quindi “scomodo” • Scritti in XML estensibile uso di namespaces • Asserzioni (statement) su risorse (entità) proprietà e valori di proprietà Resource Description Framework
  23. IL WEB SEMANTICO: RDF <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:v="http://rdf.data-vocabulary.org/#" >

    <rdf:Description rdf:about="http://www.bakeca.it/chi-siamo/flavio-portis/"> <v:name>Flavio Portis</v:name> <v:title>programmatore</v:title> <v:affiliation">Bakeca.it</v:affiliation"> </rdf:Description> </rdf:RDF>
  24. IL WEB SEMANTICO: RDFa • Markup interno embedded nelle pagine

    web nei normali tag html • Usa attributi proprietari (typeof, property) con valori specifici e predefiniti definiti nei namespaces • Molto estensibile forse troppo... ma utilizzato e adottato Resource Description Framework in Attribute
  25. IL WEB SEMANTICO: RDFa <div> Mi chiamo Flavio Portis, lavoro

    come programmatore in Bakeca. </div> <div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Person"> Mi chiamo <span property="v:name">Flavio Portis</span>, lavoro come <span property="v:title">programmatore</span> in <span property="v:affiliation">Bakeca.it</span>. </div>
  26. IL WEB SEMANTICO: Microformati • Markup interno embedded nelle pagine

    web nei normali tag html • Usa attributo class con valori specifici e predefiniti attenzione a collisioni con css • Molto semplice forse troppo...
  27. IL WEB SEMANTICO: Microformati <div> Mi chiamo Flavio Portis, lavoro

    come programmatore in Bakeca.it. </div> <div class="vcard"> Mi chiamo <span class="fn">Flavio Portis</span>, lavoro come <span class="title">programmatore</span> in <span class="org">Bakeca.it</span>. </div>
  28. IL WEB SEMANTICO: Microdati - schema.org • Markup interno embedded

    nelle pagine web nei normali tag html • Usa attributi proprietari (itemscope, itemtype, itemprop) con valori che si riferiscono all’ontologia • Ontologia che definisce la semantica “globale” con classi ad eredità multipla http://www.schema. org/docs/full.html • Progetto nato e sponsorizzato (anche) da Google
  29. IL WEB SEMANTICO: Microdati - schema.org <div> Mi chiamo Flavio

    Portis, lavoro come programmatore in Bakeca.it. </div> <div itemscope itemtype="http://schema.org/Person"> Mi chiamo <span itemprop="name">Flavio Portis</span>, lavoro come <span itemprop="title">programmatore</span> in <span itemprop="affiliation">Bakeca.it</span>. </div>