Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Harvest Web Data

martino
November 21, 2011

Harvest Web Data

martino

November 21, 2011
Tweet

More Decks by martino

Other Decks in Technology

Transcript

  1. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Harvest Web Data Martino Pizzol Fondazione ahref 28 agosto 2010 Martino Pizzol Harvest Web Data
  2. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Indice 1 I dati sul web 2 Prima di partire 3 Alla ricerca di informazioni 4 Utilizziamo le API 5 Esercitazione Martino Pizzol Harvest Web Data
  3. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Cosa e come Scopo Utilizzare dei dati trovati nella rete Come Bisogna trovarli Controllare le licenze Recuperarli per poterli usare Martino Pizzol Harvest Web Data
  4. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Formato Dati Cos’` e? Il formato dati ` e la convenzione che viene utilizzata per leggere, scrivere e interpretare i contenuti di un file (da Wikipedia) Esistono due grandi famiglie di formati Formati aperti (RTF, PDF, ODT, ODT...) Formati proprietari (DOC, DOCX, XLS, PPT...) Martino Pizzol Harvest Web Data
  5. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione HTML Cos’` e? L’HTML (HyperText Markup Language) ` e il linguaggio utilizzato per creare le pagine web. Permette di creare documenti con una struttura semplice, testo, immagini, oggetti interattivi e collegamenti ipertestuali ad altre pagine. <html> <head> <title>Pagina di pippo </title> </head> <body> In questa pagina di <b>Pippo</b> </body> </html> Martino Pizzol Harvest Web Data
  6. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione XML Cos’` e? XML (Extensible Markup Language) ` e un meta-linguaggio di markup, progettato per lo scambio e la interusabilit` a di documenti strutturati su Internet. <libri> <libro> <titolo>Guida galattica per autostoppisti</titolo> <autore>Douglas Adams</autore> </libro> </libri> Martino Pizzol Harvest Web Data
  7. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione JSON Cos’` e? JSON (JavaScript Object Notation) ` e un formato adatto per lo scambio dati tra applicazioni. Il suo grande punto di forza ` e la semplicit` a. { "titolo": "Guida galattica per autostoppisti", "autore": "Douglas Adams", "ristampe": [ {"anno": "1990"}, {"anno": "1994"}, ] } Martino Pizzol Harvest Web Data
  8. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione CSV Cos’` e? CSV (Comma-Separated Values) ` e un formato dati basato su file di testo per lo scambio di una tabella dati Titolo,Autore,Prima edizione Guida galattica per autostoppisti,Douglas Adam,1979 Ristorante al termine dell’Universo,Douglas Adam,1980 Martino Pizzol Harvest Web Data
  9. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Metodi tradizionali Problema Ho un sito ricco di informazioni che mi interessano, come posso fare per recuperarle? Martino Pizzol Harvest Web Data
  10. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Metodi tradizionali Problema Ho un sito ricco di informazioni che mi interessano, come posso fare per recuperarle? Posso raccogliere le informazioni in ogni pagina scrivere un programma che lo fa al posto mio Martino Pizzol Harvest Web Data
  11. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Web Scraper Web Scraper ` E un software che in maniera automatizzata recupera informazioni. Newstrust Ho trovato un sito molto interessante, Newstrust ho visto che gli utenti possono creare delle recensioni per gli articoli e sono interessato ad analizzare l’andamento dei voti, come posso fare? http://newstrust.net/ Martino Pizzol Harvest Web Data
  12. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Web Scraper Creiamo un web scraper Controllo di poter raccogliere i dati che mi interessano senza infrangere nessun termine d’utilizzo http://newstrust.net/members/new Studio la struttura del sito Analizzo la pagina che mi interessa (xpath) Scrivo uno scraper Martino Pizzol Harvest Web Data
  13. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Web Scraper Perch` e non ci vanno bene i scraper ` e molto complesso crearne uno hanno bisogno di manutenzione i siti evolvono sempre alcuni siti con interfacce ricche non si possono analizzare in questo modo (es: Flash) Martino Pizzol Harvest Web Data
  14. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Le API Cosa sono? http://www.flickr.com/photos/uhuru1701/2248426467/ Martino Pizzol Harvest Web Data
  15. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Le API Cosa sono? http://www.flickr.com/photos/picdrop/11155051/ Martino Pizzol Harvest Web Data
  16. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Le API Cosa sono? Una API(Application Programming Interface) ` e un insieme di codice e specifiche che i software utilizzano per comunicare tra loro. Martino Pizzol Harvest Web Data
  17. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione WebAPI Le WebAPI sono lo strumento offerto dai siti per di permettere l’accesso diretto alle informazioni a terzi. Sono lo strumento utilizzato da ogni sito per condividere le informazioni in modo che altri possano utilizzarle Martino Pizzol Harvest Web Data
  18. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione WebAPI Martino Pizzol Harvest Web Data
  19. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione WebAPI Martino Pizzol Harvest Web Data
  20. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione WebAPI Esempi d’utilizzo Pubblico delle foto su Flickr e voglio importarle nel mio account Facebook Posso integrare nel mio sito una mappa personalizzata presente su Google Maps Nel sito di un giornale posso visualizzare tutti i video di un canale Youtube Su un sito qualsiasi posso fare il login utilizzando quello di Google Martino Pizzol Harvest Web Data
  21. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione API 101 Come possiamo utilizzare un API? Dobbiamo controllare che effettivamente le informazioni che ci servono siano accessibili tramite API Non sempre questo servizio ` e gratuito Solitamente bisogna registrarsi per ottenere una chiave d’utilizzo Possiamo finalmente ottenere le informazioni desiderate Martino Pizzol Harvest Web Data
  22. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Flickr Flickr ` e un sito molto famoso per la condivisione di fotografie. Tutti i contenuti sono accessibili tramite un’API molto ricca. Qualsiasi operazione che si pu` o compiere sul sito la possiamo fare in un’applicazione di terze parti grazie alle API. In questo caso la chiave per l’utilizzo ` e diversa nel caso di utilizzi commerciali Martino Pizzol Harvest Web Data
  23. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Flickr API - 101 1 Iniziamo a creare l’API http://www.flickr.com/services/developer/api/ 2 Creiamo la chiave d’utilizzo http: //www.flickr.com/services/apps/create/apply/ 3 Leggiamo la documentazione http://www.flickr.com/services/api/ 4 Analizziamo come si cercano le fotografie http://www.flickr.com/services/api/flickr. photos.search.html Martino Pizzol Harvest Web Data
  24. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Flickr API - 101 flickr.photos.search Return a list of photos matching some criteria. Only photos visible to the calling user will be returned. To return private or semi-private photos, the caller must be authenticated with ’read’ permissions, and have permission to view the photos. Unauthenticated calls will only return public photos. Martino Pizzol Harvest Web Data
  25. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Flick API - 101 Richiesta Richiesta Nella richiesta specifichiamo i parametri della funzione Martino Pizzol Harvest Web Data
  26. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Risposta Martino Pizzol Harvest Web Data
  27. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Risposta Risposta XML <photos page="2" pages="89" perpage="10" total="881"> <photo id="2636" owner="47058503995@N01" secret="a123456" server="2" title="test_04" ispublic="1" isfriend="0" isfamily="0" /> ... </photos> Martino Pizzol Harvest Web Data
  28. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Flickr API - Esempi Tippermap Geolocalizzazione del proprio streamhttp://www.trippermap.com/ Martino Pizzol Harvest Web Data
  29. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Flickr API - Esempi Flickrstr - The weekly flickr Top 20 http://flickstr.basementserver.com/ Do fun stuff with your photos http://bighugelabs.com/ Visualizzazione alternativa a flickr http://www.flickriver.com/ Explore di flickr http://www.fluidr.com/ Martino Pizzol Harvest Web Data
  30. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Youtube Youtube ` e un sito molto famoso per la condivisione di video. Le sue api permettono di integrare il player in siti esterni ricercare video caricare video http://code.google.com/intl/it-IT/apis/youtube/ getting_started.html Martino Pizzol Harvest Web Data
  31. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Youtube API - Esempi Visual travel guide http://www.funtouristattractions.com/ Ricerca alternativa su youtube http://www.yvoschaap.com/youtube/ Ricerca in 3d http: //www.airtightinteractive.com/demos/youtube/ Martino Pizzol Harvest Web Data
  32. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Twitter Twitter ` e un network di informazione dove vengono prodotti circa 200 milioni di tweet al giorno. Tramite le API possiamo: integrare twitter nel nostro sito (es: tweet button) ricercare tweet nella piattaforma in real-time informazioni sull’utente (stato, avatar, etc etc) Martino Pizzol Harvest Web Data
  33. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Twitter API - Esempi http://wavu.ahref.eu https://dev.twitter.com/console Martino Pizzol Harvest Web Data
  34. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Worldbank La World Bank ` e un’istituzione creata per lottare contro la povert` a ed organizzare aiuti ai paesi in difficolt` a. Tramite le API sono messi a disposizioni tre diversi dataset 1 Indicatori temporali 2 Progetti della Word Bank 3 Dati finanziari http://data.worldbank.org/developers Martino Pizzol Harvest Web Data
  35. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Worldbank API - Esempi Explore project api http://api.worldbank.org/api/projects Kenya OpenData http://opendata.go.ke/ Visualizzazioni Google http://www.google.com/ publicdata/overview?ds=d5bncppjof8f9_ Visualizzazioni dei dati della world bank su una mappa http://www.geo.me/worldbank Martino Pizzol Harvest Web Data
  36. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Freebase Freebase ` e un enorme database con 22 milioni di entit` a rilasciato con licenza Creative Commons. I dati possono essere scaricati interamente, oppure si possono utilizzare tramite l’API. http://wiki.freebase.com/wiki/Developers Martino Pizzol Harvest Web Data
  37. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione NYTimes Il New York Times ` e un quotidiano pubblicato negli Stati Uniti. Il suo sito ha circa 31 milioni di visitatori unici, in Italia ogni mese vengono visualizzate 3,8 milioni di pagine. (da Wikipedia) Le sue API permettono di accedere a tantissime informazioni: Articoli Best Sellers Dati del congresso (i voti..) Most Popular (metadati per i blog e articoli pi` u visitati..) ... http://developer.nytimes.com/ Martino Pizzol Harvest Web Data
  38. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione NYTimes API - Esempi Test NY API http: //prototype.nytimes.com/gst/apitool/index.html Esempi di utilizzo dei dati del congresso http://developer.nytimes.com/docs/read/ congress_api/congress_api_examples Visualizzatore dei tweet che includono articoli del NY http://tinyurl.com/4lal28a Martino Pizzol Harvest Web Data
  39. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione The Guardian Open Platform La Open Platform ` e un insieme di servizi che permettono la collaborazione di terzi con il Guardian. In particolare abbiamo a disposizione quattro grandi dataset Content API (per i contenuti del guardian) Data Store (dataset curati dai giornalisti) Politics API (informazioni relative ai candidati, voti..) http://www.guardian.co.uk/open-platform Martino Pizzol Harvest Web Data
  40. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione The Guardian Open Platform - Esempi Test API http://explorer.content.guardianapis.com/ Enjoy England http://www.guardian.co.uk/enjoy-england Martino Pizzol Harvest Web Data
  41. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Ma come posso fare? Sviluppare del software che utilizzi le API Utilizzare servizi online per l’analisi dei dati Martino Pizzol Harvest Web Data
  42. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Yahoo PIPES Yahoo PIPES ` E un sito web che ci permette di aggregare e manipolare i dati provenienti da vari servizi web. http://pipes.yahoo.com/pipes/ Esempi The Bigger Picture http://tinyurl.com/6dl9bw7 YouTunes 2.0 http://tinyurl.com/5wx64jy Find job http://tinyurl.com/6dxdxv4 Martino Pizzol Harvest Web Data
  43. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Yahoo PIPES Demo Vediamo ora come poter utilizzare Yahoo PIPES per aggregare delle notizie Martino Pizzol Harvest Web Data
  44. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Yahoo PIPES Martino Pizzol Harvest Web Data
  45. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Conclusioni Il web ` e una fonte immensa di dati Spesso i vari siti ci permettono il loro utilizzo Le API sono il nostro alleato fondamentale Le moderne applicazioni utilizzano spesso altri servizi (mashup) Martino Pizzol Harvest Web Data
  46. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Esercitazione Proviamo ora ad utilizzare Yahoo PIPES Flavon on Flickr Vogliamo ottenere da Flickr una lista di immagini scattate vicino a Flavon Hint Provare ad utilizzare il widget di Flickr Martino Pizzol Harvest Web Data
  47. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Esercitazione Martino Pizzol Harvest Web Data
  48. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Esercitazione Martino Pizzol Harvest Web Data
  49. Harvest Web Data Martino Pizzol Indice I dati sul web

    Prima di partire Alla ricerca di informazioni Utilizziamo le API Esercitazione Domande Domande? Martino Pizzol Harvest Web Data