Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Facepager

Till Keyling
November 08, 2013

 Facepager

Till Keyling

November 08, 2013
Tweet

More Decks by Till Keyling

Other Decks in Science

Transcript

  1. Jakob Jünger & Till Keyling Agenda 1. Grundlagen der automatisierten

    Datenerhebung 2. Überblick über den Facepager 3. Fallstricke automatisierter Datenerhebung 9.11.2013 2 Facepager
  2. Jakob Jünger & Till Keyling Server Erhebung von Daten im

    Web 9.11.2013 3 Webseite REST-API Client Browser Erhebungstool Facepager
  3. Jakob Jünger & Till Keyling Erhebung von Daten im Web

    9.11.2013 4 https:// graph.facebook.com/ Tatort? access_token=xxx https:// www.facebook.com/ Tatort Facepager
  4. Jakob Jünger & Till Keyling Facepager – Hintergrund  2011:

    Entstehung an der LMU München als Tools zur Speicherung von Facebook-Seiten  Seit 2012: Gemeinsame Kooperation Jakob Jünger & Till Keyling  Aktuell >200.000 API Zugriffe, 60 Nutzer aus 5 Ländern (Facebook API)  Open-Source-Projekt auf GitHub: https://github.com/strohne/Facepager  Presets und Installationsdateien (Mac OS , Windows): http://www.ls1.ifkw.uni-muenchen.de/personen/wiss_ma/keyling_till/software.html 9.11.2013 Facepager 5
  5. Jakob Jünger & Till Keyling Facepager - Übersicht 9.11.2013 6

    Datensätze Details eines Datensatzes Festlegen von Spalten Statusmeldungen des Programms Abfragebereich Facepager
  6. Jakob Jünger & Till Keyling Facepager – Funktionen  API-Module:

    Facebook, Twitter, Generic, Abfrageparameter frei einstellbar  „Presets“ zur Dokumentation und zum Austausch von Erhebungsdesigns  Sukzessive (hierarchische) Abfrage, Abfrage paginierter Ergebnisse  Einfacher Timer  Anzeige der Daten anpassbar Exportieren als CSV-Datei oder über die Zwischenablage 9.11.2013 12 Facepager
  7. Jakob Jünger & Till Keyling .  Abstraktion: Unterschiedliche APIs

     Kontrolle: Steuerbarkeit jeder Abfrage  Transparenz: Offenlegung des Codes  Standardisierung: Universelle Exportformate  Spezialisierung: Trennung von Datenerhebung & Auswertung 9.11.2013 13 Anforderungen an Tools zur Datenerhebung Facepager
  8. Jakob Jünger & Till Keyling . Forscher Tools API Rohdaten

    Code/Affordances „Meaning“/Welt 9.11.2013 14 Selektionsschritte im Prozess der Datengenerierung Facepager Scraping Ausgewählte Probleme:  Vollständigkeit von Daten  Validität von Indikatoren  Transparenz von APIs
  9. Jakob Jünger & Till Keyling Vollständigkeit der Daten Repräsentation über

    API unterscheidet sich von Repräsentation im Web 9.11.2013 15 Facepager Fehlt 366 von 570 Kommentaren abrufbar Request Status Error: Bad Request
  10. Jakob Jünger & Till Keyling .  Mehr als 10

    Posts pro Tag.... ...eingespeist über RSS Graffiti ...hauptsächlich Artikel aus der Frankfurter Neuen Presse 9.11.2013 Facepager 16 Validität von Aktivitätsmessungen
  11. Jakob Jünger & Till Keyling Transparenz der APIs  Veränderte

    Berechnungsgrundlagen von Parametern  Mangelnde Dokumentation  API-Versionssprünge 9.11.2013 Facepager 17 YouTube: Channel-Parameter „Total Upload Views“
  12. Jakob Jünger & Till Keyling Fazit  Automatisierte Datenerhebung erleichtert

    aufwändige Erhebungsarbeit  Leitprinzipien bei der Entwicklung: Abstraktion, Kontrolle, Transparenz, Standardisierung, Spezialisierung  Automatisierte Datenerhebung garantiert nicht gute Forschung 9.11.2013 Facepager 18 Verführerische Verfügbarkeit: Daten sprechen nicht für sich! Verführerische Einfachheit: Dokumentationen lesen!
  13. Jakob Jünger & Till Keyling Literatur  Bruns, A. (2013).

    Faster than the speed of print: Reconciling ‘big data’ social media analysis and academic scholarship. First Monday, 18(10). Abgerufen von http://firstmonday.org/ojs/index.php/fm/article/view/4879  De Choudhury, M., Lin, Y. R., Sundaram, H., Candan, K. S., Xie, L., & Kelliher, A. (2010). How does the data sampling strategy impact the discovery of information diffusion in social media. In Proceedings of the 4th International AAAI Conference on Weblogs and Social Media (S. 34–41). Abgerufen von http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1521/1832  Gehrau / Fretwurst / Krause (2005) (Hrsg.) Auswahlverfahren in der Kommunikationswissenschaft. Köln: Herbert von Halem Verlag.  Gerlitz, C., & Rieder, B. (2013). Mining One Percent of Twitter: Collections, Baselines, Sampling. M/C Journal, 16(2). Abgerufen von http://journal.media- culture.org.au/index.php/mcjournal/article/view/620  Giglietto, F., Rossi, L., & Bennato, D. (2012). The Open Laboratory: Limits and Possibilities of Using Facebook, Twitter, and YouTube as a Research Data Source. Journal of Technology in Human Services, 30(3-4), 145–159. doi:10.1080/15228835.2012.743797  González-Bailón, S., Wang, N., Rivero, A., Borge-Holthoefer, J., & Moreno, Y. (2012). Assessing the bias in communication networks sampled from twitter. Available at SSRN 2185134. Abgerufen von http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2185134  Mahrt, M., & Scharkow, M. (2013). The Value of Big Data in Digital Media Research. Journal of Broadcasting & Electronic Media, 57(1), 20–33. doi:10.1080/08838151.2012.761700  Morstatter, F., Pfeffer, J., Liu, H., & Carley, K. M. (2013). Is the sample good enough? comparing data from twitter’s streaming api with twitter’s firehose. Proceedings of ICWSM. Abgerufen von http://www.public.asu.edu/~fmorstat/paperpdfs/icwsm2013.pdf  Seibold, B. (2002). Die flüchtigen Web-Informationen einfangen. Publizistik, 47(1), 45–56. doi:10.1007/s11616-002-0003-3  Vis, F. (2013). A critical reflection on Big Data: Considering APIs, researchers and tools as data makers. First Monday, 18(10). doi:10.5210/fm.v18i10.4878  Welker, M., & Wünsch, C. (Hrsg.). (2010). Die Online-Inhaltsanalyse: Forschungsobjekt Internet. Köln: Halem. 9.11.2013 Facepager 20