Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Der Google-Komplex – Suche und Retrieval

Der Google-Komplex – Suche und Retrieval

»Don‘t be evil« ist das Motto der Suchmaschine Google, die als Monopolist die Informationen im Internet verteilt. Wie viel Macht hat Google dabei und warum? Was sind die Risiken? Wenn Google alle Informationen kontrolliert, wer kontrolliert dann eigentlich Google?

C9105ed9263a733c6076f837abd645ed?s=128

Nikkel Blaase

January 26, 2012
Tweet

More Decks by Nikkel Blaase

Other Decks in Technology

Transcript

  1. Der Google-Komplex Suche und Retrieval Nikkel Blaase

  2. Inhalt 1. Suche und Retrieval (Ranking) 2. Grundfragen des Information

    Retrieval 3. Denkgesetze und ihre Operatoren 4.Textstatistik und Wortschatzsigni!kanz 5.Reaktivität und Destabilisierung
  3. Inhalt 6.Zitationsanalyse und Linktopologie 7. Relevanzmodelle 8.Personalisierung 9.Von Global zu

    Regional zu Lokal
  4. 1 Suche und Retrieval (Ranking)

  5. Information Retrieval • Information Retrieval (IR) ist ein Fachgebiet, das

    sich mit computergestütztem Suchen nach komplexen Inhalten beschäftigt.
  6. Fragestellung • Wie wird das aufbereitete Datenmaterial ins Verhältnis zu

    einer vom Nutzer eingegebenen Suchanfrage gesetzt?
  7. Ranking • Die Ergebnisse werden nach bestimmten Relevanzkriterien hierarchisch sortiert

  8. Relevanz • Relevanz ist ein Schlüsselkonzept jeglicher Form der manuellen

    und automatisierten Informationssuche • Bis heute kein eindeutig de!niertes Konzept
  9. Finkelstein, 2008 »Both the nature of the pageranking activity and

    its uses underscore the importance of seeing search results as a value-laden process with serious social implications.«
  10. Benkler, 2006 »The little girl who searches for ›Barbie‹ on

    Google will encounter a culturally contested !gure. The same girl, searching on Overture, will encounter a commodity toy.«
  11. • Soziale, kulturelle und politische Interpretationen müssen betont werden und

    in die Rankingkriterien ein"ießen • Modelle mit Annahmen über die Natur der menschlichen Kognition, Kommunikation und Soziabilität
  12. 2 Grundfragen des Information Retrieval

  13. • Technische Neuerungen, historische- oder politische- Entwicklungen können einen plötzlichen

    starken Zuwachs an Informationen hervorbringen • z. B. Er!ndung der Druckpresse
  14. • Dann kommt die Frage auf, wie Informationen kategorisiert und

    e#ektiv au#indbar gemacht werden können • Anlaß zu neuen Ordnungssystemen • z. B. Französische Revolution
  15. • Anfänge des modernen IR ebenfalls in der Phase des

    historischen Umbruchs: • Expansion der naturwissenschaftlichen Forschung Anfang des 20. Jahunderts (»Big Science«)
  16. • Anstieg der Menge an wissenschaltichen Verö#entlichungen • Suche in

    großen Sammlungen von Dokumenten • Nutzer formulieren ihr Informationsbedürfnis in Form von Suchanfragen
  17. • Aufgabe des IR: • Diejenigen Dokumente !nden, die mit

    hoher Wahrscheinlichkeit dem Informationsbedürfnis des Nutzer entsprechen
  18. • Fragestellung • Wie das intuitive Konzept Relevanz in eine

    formalisierte De!nition überführen?
  19. • Je näher die automatisierte Relevanzbewertung auf der Basis einer

    formalisierten De!nition der intuitiven Relevanzbewertung kommen, desto höher wird die Qualität der entsprechenenden Systeme bewertet • Maß für diese Qualitätsbewertung von IR-Systemen: Precision, Recall
  20. Recall • Das Verhältnis der Anzahl gefundener relevanter Dokumente zur

    Anzahl der relevanten Dokumente im Datenbestand insgesamt
  21. Precision • Verhältnis zwischen der Anzahl gefundener relevanter Dokumente und

    der Gesamtzahl der gefundenen Dokumente
  22. • Grundlegende Elemente der formalisierten Relevanzde!nition werden benötigt

  23. 3 Denkgesetze und ihre Operatoren

  24. • Grundprinzip des Retrieval- Prozesses • Beispiel Buchregister • Im

    Index sind zu jedem Begri# die Dokumente (URLs), die den entsprechenden Begri# enthalten, aufgelistet
  25. • Problem im Web: Zu einem Suchbegri# mehrere Millionen URLs

    • Problem: Wenn nach zwei oder mehreren Begri#en gesucht wird • Automatisierte Verfahren kommen nicht ohne eine Spez!zierung des Informationsbedürfnisses aus
  26. • Wichtigste Lösung dieser Problematik: • Boolesche Operatoren, Anfang 1960er

    • George Boole • Boole schließt aus allgemeingültige menschliche Denkgesetze
  27. • Durch Regelmäßigkeiten in sprachlichen Äußerungen auf allgemeingültige Muster des

    menschlichen Denkens schließen • Diese Muster lassen sich in formaler Weise ausdrücken
  28. • Durch Kombinieren von Wörtern werden Teilmengen von größeren Mengen

    gebildet
  29. Gelbe Blumen: Blumen gelb Gesamtmenge Beispiel

  30. and | or | not Boolsche Operatoren

  31. Boolsche Operatoren • Erster Schritt in der Entwicklung der Relevanzkriterien

    • Kommen auch im Web zum Einsatz • Eingabe durch Nutzer nur selten gefordert
  32. Boolsche Operatoren • Bei Google: AND-Operator • Reduziert die Tre"ermenge

    • Erweckt den Anschein einer präziseren Auswahl
  33. Suchanfrage Index Unsortierte Liste

  34. 4 Textstatistik und Wortschatzsigni!kanz

  35. • Der rudimentäre Boolsche Retrieval-Prozess hat den Nachteil, dass er

    nach einem zweigeteiltem Prinzip vorgeht • True / False • Relevant / Nicht relevant • Keine Möglichkeit für eine stufenweise Relevanzbewertung
  36. • Folge: Auslieferung von sehr vielen Dokumenten • Kein Ranking

    • Bedarf zusätzlicher Kriterien • Formal de!nierte Indikatoren für eine automatisierte Verarbeitung
  37. Textstatistischer Ansatz • Hans Peter Luhn • In den 1950er-Jahren

    wurde Indexierung wissenschaftlicher Beiträge vornehmlich manuell Vorgenommen • Kurze Zusammenfassungen
  38. Textstatistischer Ansatz • Bei großen Datenmengen nicht mehr so einfach

    möglich • Gefahr, dass persönliche Ansichten des Indexierers zu stark in die Zusammenfassung ein"ießen • Entwicklung automatisierter Verfahren
  39. Textstatistischer Ansatz • Reduziertes Modell von Sprache • Sprache eignet

    sich nicht zum formalisieren • mathematisch statistischer Ansatz • Texte statistisch analysieren
  40. Textstatistischer Ansatz • Wichtigkeit eines Wortes anhand der Häu!gkeit im

    Text • Zu jedem Wort entsprechender Signi!kanzwert ermittelbar • Unsortierte Liste der Dokumente aus dem Booleschen-Retrieval, lässt sich auf Basis dieser Werte sortieren
  41. Suchanfrage Index Sortierte Liste Unsortierte Liste

  42. Suchanfrage Index Sortierte Liste Unsortierte Liste Boole Operatoren Textstatistische Analyse

  43. Textstatistischer Ansatz • Hitlist • Google: Count-Weight • Type-Weight (z.

    B. Formatierung und Position der Begri"e) • Count-Weight und Type-Weight bilden IR-Score
  44. 5 Reaktivität und Destabilisierung

  45. • Bei Luhn und Boole erfolgt Verarbeitung unabhängig von Semantik

    und Kontext • Inhaltliche Faktoren werden nicht berücksichtigt
  46. • Simulation menschlicher Relevanzbeschreibungen ist Gleichzeitig Grundlage für ihre De-Stabilisierung

    • Sobald formale Relvanzkriterien den Inhaltanbietern bekannt sind, besteht Möglichkeit zur Anpassung • Suchmaschinenoptimierung
  47. • Messungen in diesem Fall nicht mehr unabhängig • Reaktivität

  48. Reaktivität • Handlungsmacht der von Messungen betro#enen Akteure • Di#erenzierungsvermögen

    der verwendeten Kriterien wird immer geringer
  49. Van Couvering, 2007: »[...] wurde die Di"erenzierungskraft der textstatistischen Verfahren

    durch den verbreiteten Einsatz der Suchmaschinen- optimierung Ende der 1990er Jahre so weit geschwächt, dass zu dieser Zeit besonders viele Ergebnisse zu !nden waren, die den Relevanzbewertungen der Nutzer nicht entsprach«
  50. Keyword Stu"ing • Methode um Inhalte an das textstatistische Ranking

    anzupassen • Begri"e oft wiederholen • Text in gleicher Farbe wie Hintergrund • Nutzer und Crawler auf andere URLs weiterleiten
  51. O!icial Google Webmaster Central Blog, 2007 »A common mistake in

    writing optimized content for search engines is to forget about the user and focus only on that particulary query. [...] you have written pages solely for the search engine and you forgot about the user. As a result, your visitor will !nd a page apparently on topic but totally meaningless«
  52. Range / Schweins, 2007 »Der geschulte Redakteur berücksichtigt eine ›Keyword-Dichte‹

    von zwei bis fünf Prozent als Schwellenwert, mit dem einer Geschichte eine Relevanz zu dem Begri" zugeordnet wird ... zudem verzichtet der Redakteur auf Abkürzungen, Worttrennungen und unterschiedliche Schreibweisen«
  53. Die Messmethoden beginnen das Material zu beein#ussen

  54. • Relevanzbewertungen anhand etablierter Messmethoden nicht mehr möglich • Messmethode

    muss sich also dynamisch selbst verändern • Neue Kriterien für die Relevanzbewertung von nöten
  55. 6 Zitationsanalyse und Linktopologie

  56. Linktopologie • Struktur der Verweise zwischen Inhalten im www •

    Wird in einer seperaten Datenbank als zweiten Index gespeichert • Eingehende und ausgehende Links • Inlinks, Outlinks
  57. Zitationsanalyse • Mittel zur quantitativen Auswertung von Verweisen zwischen wissen-

    schaftlichen Beiträgen • Zielsetzungen • Deskriptive Analyse • Evaluative Analyse
  58. Deskriptive Analyse • Beziehungen innerhalb eines Netzwerkes von Verweisen; Musterbildungen

    innerhalb dieser Strukturen identi!zieren
  59. Evaluative Analyse • Aussagen über die Qualität des untersuchten Materials

    tre#en
  60. Zitationsanalyse • Evaluierte Zitationsanalyse als direkter Vorläufer linktopologisch basierter Relevanzbewertungen

    im www • Frühe Formen des Suchmaschinen- Rankings per Linkanalyse basierte ausschließlich auf der Anzahl der Links, die auf eine URL verweisen
  61. PageRank (PR) • Google PageRank-Algorithmus • Zentralität derjenigen Seite in

    das Ranking einbezogen, die den Link setzt • Link von einer Seite mit hohem PR hat großen Ein"uss auf den PR der verlinkten Seite
  62. PageRank (PR) • Gleichzeitig verteilt sich der Wert des PR

    auf die Anzahl der verlinkten Seiten • PR einer Seite steht also immer im Verhältnis zum PR anderer Seiten
  63. PageRank Verweise PageRank (PR) PageRank

  64. • Verwendung dieser Verfahren kann als wesentlicher Faktor für die

    anfangs sehr schnell wachsende Popularität von Google gelten
  65. Inversion • Verwendbarkeit eines Verweises als Qualitäts- oder Relevanzindikators schon

    früh in Frage gestellt worden • Gerade im wissenschaftlichen Bereich ist die Interpretation eines Verweises als positive Bezugsnahme nicht immer gerechtfertigt
  66. Inversion • Verweise als quantitative Indikatoren • Problematik des Kontextverlustes

    • »Inversion«
  67. Inversion • Auch die von Google verwendete linktopologische Analyse ignoriert

    den Sinnenzusammenhang, in dem ein Link gesetzt wurde • Ein Link wird auf eine positive Bezugsnahme reduziert
  68. Inversion • Google spricht hierbei dennoch von einem objektiven Charakter

  69. Unternehmensbezogene Informationen – Google Technologie »Page Ranking nimmt eine objektive

    Bewertung der Wichtigkeit von Websites vor. [...] Die Google-Technologie nutzt zur Ermittlung der Wichtigkeit einer Seite die kollektive Intelligenz des Internets. Keiner unserer Mitarbeiter greift persönlich in diesen Prozess ein oder manipuliert die Ergebnisse, →
  70. Unternehmensbezogene Informationen – Google Technologie weshalb die Nutzer auf Google

    als objektive Informationsquelle vertrauen, die frei ist von bezahlten Platzierungen«
  71. Objektivität • De!nition des Begri#s »objektiv« tri#t den Kern der

    Ranking- Problematik • Objektiv meint in diesem Zusammenhang nichts anderes als »einheitlich bearbeitet«
  72. Objektivität • Durch automatisierte Verarbeitung "ießen keine menschlichen Kriterien mit

    ein • Objektiv? • Auswahl der Kriterien im Rankingprozess basiert auf subjektive Annahmen
  73. objektiv/automatisiert vs. subjektiv/menschlich als Unterteilung nicht plausibel

  74. »Die Gleichsetzung von Automatisierung und Objektivität erscheint aus dieser Sicht

    eher als eine Taktik von Googles Seite, um sich gegenüber von Nutzern als Standardisierungsinstanz und als Garant für die Validität der Relevanzkriterien zu etablieren. [...] in dem ein Link als ›positives Votum‹ und PageRank als ›auf einem demokratischen Prinzip‹ basierend beschrieben wird« Der Google-Komplex, S.126
  75. • shareholder democracy [Finkelstein, 2008] • Gut verlinkte Seiten haben

    einen größeren Ein"uss auf das Ranking als andere
  76. • Angeblich »Demokratisches Prinzip« von PR • Gut verlinkte Seiten

    haben eine besonders gute Chance gefunden zu werden • Somit auch bessere Chancen weitere Links zu erhalten
  77. • Matthäus-E#ekt [Merton, 1986] • Cumulative Advantage [Price, 1976] •

    Preferential Attachment [Watts, 2004] • Tendenz, dass viel zitierte Autoren den Großteil der Aufmerksamkeit erhalten • Herausbildung von celebrity nodes
  78. • Bei Chakrabarti / Frieze / Vera [2006] wird Google

    jedoch eindeutig eine Katalysator-Rolle für preferential attachment- E#ekte im Netz zugeschrieben
  79. • Pasquale [2006]: Das Problem, dass PR ein relativer Wert

    ist: Vorteil bestimmter Knoten geht immer zu Lasten anderer Knoten
  80. Auf der Ebene einzelner Themen kla"t die Schere zwischen schlecht

    verlinkter Knoten und den celebrity nodes immer stärker auseinander
  81. Weiterentwicklung der linktopologischen Verfahren • Reaktivität • O#-Page-Methoden • Verzeichnis-,

    Foren-, Blogeinträge • Linkbaiting • Linktausch • Linkhandel und Linkfarmen
  82. Weiterentwicklung der linktopologischen Verfahren • Optimierungsmethoden erschweren Di#erenzierungs- methoden der

    Relevanzkriterien • Link kann nicht mehr als Qualitätsmerkmal der verlinkten Inhalte interpretiert werden
  83. Weiterentwicklung der linktopologischen Verfahren • Googles Weiterentwicklung • Kategorierung der

    Links in »natürlich« und »unnatürlich« • Zeitliche Dimension • Entwicklung neuer Relevanzkriterien
  84. Staleness • Staleness als Maß für Dynamik der Inhalte und

    Verweise eines Dokuments • Kann positiven oder negativen Ein#uss auf das Ranking haben
  85. Verlinkungsgrad • Entwicklung eines Verlinkungsgrad • Veränderungen der Topologie über

    Zeit • Neuverlinkungen
  86. Verlinkende Dokumente • Analyse der verlinkenden Dokumente • Inhaltliche Veränderungen

    auf Zeit • Vertrauenswürdigkeit des Anbieters
  87. Domains • Eigentümerangaben der Domains • Dauer der Domain-Anmietung •

    Häu!gkeit der Änderungen • Korrekte Physische Adresse
  88. Ranking • Entwicklung der Platzierungen in den Suchergebnissen bei Google

    selbst
  89. • Diese Einführung der Selbst- referenzialität in die Relevanz- kriterien

    erscheint im Hinblick auf die postulierte »Objektivität« des Rankings besonders fragwürdig
  90. Ranking • Kategorisierung von Inhalten als Spam oder Links •

    Kann auch Inhalte betre"en, die nach menschlichen Bewertungen nicht als Spam bewertet würden
  91. Ranking • Fehlen von Resultaten in Googles Suchergebnissen fällt in

    den wenigsten Fällen auf
  92. Ranking • Trotz der genannten Weiterent- wicklung der Relevanzkriterien bleibt

    die Kompromittierung der text- statistischen und linktopologischen Verfahren durch Reaktivitätsprozesse langfristig ein Problem für Google
  93. Ranking • Aus diesem Grund werden zunehmend Nutzerdaten für die

    Entwicklung von Relevanzmodellen herangezogen
  94. 7 Relevanzmodelle

  95. Relevanzmodelle • Große Mengen und Arten von Daten im Web-IR

    • Automatisiert gewonnene Nutzerstatistiken • Wachsende Bedeutung der Nutzerdaten für das Ranking
  96. Relevanzmodelle • Problematik: Suchanfragen sind für gewöhnlich sehr kurz •

    Diskrepanz zwischen Suchanfrage und Informationsbedürfnis
  97. • Als Repräsentation eines Informationsbedürfnisses kann eine Suche das Bedürfnis

    nie komplett wiedergeben, selbst wenn die besonders exakt formuliert wäre • Aufgrund dieser Problematik wird bei Suchanfragen zwischen Relevanz und Pertinenz unterschieden
  98. Relevanz • Formale Übereinstimmung zwischen Suchanfrage und Dokument

  99. Pertinenz • Übereinstimmung zwischen dem tatsächlichen Informations- bedürfnis und dem

    Suchergebnis
  100. Pertinenz • Subjektiv Empfundene Relevanz der Suchergebnisse entscheidender Faktor im

    Konkurrenzkampf der Suchmaschinen • Pertinenz spielt also eine wichtige Rolle
  101. Google Webmaster Zentrale Blog, 2007 »Now, our search quality team

    is turning its attention toward the everelusive user intent (this is what I typed, here´s what I meant)«
  102. Pertinenz • Pertinenz basiert auf subjektiver Wahrnehmung • Lässt sich

    nicht restlos formalisieren • Durch Erweiterung der Indikatoren beid er automatischen Relevanz- bewertung, kann höherer Grad von Pertinenz erreicht werden
  103. Log-Datein • Erhobene Nutzerdaten als implizites Relevance Feedback • Nutzerdaten

    werden in Log-Datein gespeichert • Bei Google Suche: IP-Adresse, Datum, Uhrzeit, Cookies …
  104. Log-Datein • Untersuchung in zeitlicher Hinsicht auf Muster und Dynamiken

  105. Suchanfragen • Entwicklung von Suchanfragen • Frequenz von Suchanfragen und

    Anzahl der Suchergebnisse zu einem bestimmten Thema
  106. Klickrate • Anzahl der Klicks • Entwicklung der Klickrate über

    Zeit • Tendenzen ermitteln
  107. Nutzerbewegungen • Bewegungen der Nutzer zwischen aufgerufenen Seiten • Verweildauer

    • Auslieferung von länderspezi!schen Resulaten • Standortermittlung
  108. Nutzerbewegungen • Beispiel: »Turkey« • Über Thanksgiving: Truthahnbraten Rezepte ganz

    oben • Ansonsten: Informationen über die Türkei
  109. 8 Personalisierung

  110. Personalisierte Relevanzmodelle • Es wird auf ein persönliches Pro!l zurückgegri#en

    • Wesentlich mehr Indikatoren in das Ranking einbeziehbar • Steigerung der Pertinenz
  111. Personalisierte Relevanzmodelle • Verwendung von Daten aus den Google-Diensten •

    Google-Mail, Google-Docs, etc. • Einbeziehung in die Suchanfrage • Query-Expression (Ergänzung) • Query-Modi!cation (Veränderung)
  112. Personalisierte Relevanzmodelle • Re-Ranking der Suchergebnisse nach persönlichen Präferenzen •

    Vielen Nutzern ist dieser Sachverhalt nicht bewußt
  113. Daily Me • Datenschutzbedenken • Personalisiertes Ranking problematisch • Bevorzugt

    systematisch Inhalte, die Ähnlichkeiten zu bereits bekannten Inhalten besitzen
  114. Daily Me • Gefahr, dass Inhalte, die thematisch außerhalb des

    bereits vertrauten Bereich liegen, nicht mehr wahrgenommen werden
  115. Cass Sunstein, 2006 »The prophecy of a personalized communications universe,

    in which you consult only those topics and opinions that you like«
  116. Daily Me • Reduktion des Nutzers auf bestimmte Aspekte •

    Unbemerkte Beein"ussung des Nutzers • Kritische Analyse von Selektionsmaßnahmen bei Suchmaschinen immer schwerer
  117. »It is becoming unclear whether the (dis)appearance of a source

    is a feature (personalization done right) or a bug (censorship or manipulation)«
  118. Von Global zu Regional zu Lokal 9

  119. Boolesche Operatoren Textstatistische Verfahren Linktopologische Verfahren

  120. Nutzerverhalten Geogra!sch und zeitliche Indikatoren Nutzeraktivitäten

  121. Ein#uss • Wie die Nutzeraktivität in die Modelle überführt wird

    bleibt bei der zentralen Instanz Google • Ein"uss von Google auf die Relevanzbewertung tritt deutlich hervor
  122. Filter (Zensur)

  123. Literatur Röhle, Theo – Der Google Komplex, Über Macht im

    Zeitalter des Internets, Transcript Verlag, 1. Au"age (Juli 2010), Kapitel: »Suche und Retrieval (Ranking)«, Seite 106–144
  124. Literatur Salden, Julia, Google – Die Macht einer Suchmaschine, Norddeutscher

    Rundfunk (NDR), 2006
  125. Nachlesen • Hausarbeit »Don‘t be evil!« (PDF) • http://goo.gl/WCJ8e