Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Der Google-Komplex – Suche und Retrieval

Der Google-Komplex – Suche und Retrieval

»Don‘t be evil« ist das Motto der Suchmaschine Google, die als Monopolist die Informationen im Internet verteilt. Wie viel Macht hat Google dabei und warum? Was sind die Risiken? Wenn Google alle Informationen kontrolliert, wer kontrolliert dann eigentlich Google?

Nikkel Blaase

January 26, 2012
Tweet

More Decks by Nikkel Blaase

Other Decks in Technology

Transcript

  1. Inhalt 1. Suche und Retrieval (Ranking) 2. Grundfragen des Information

    Retrieval 3. Denkgesetze und ihre Operatoren 4.Textstatistik und Wortschatzsigni!kanz 5.Reaktivität und Destabilisierung
  2. Information Retrieval • Information Retrieval (IR) ist ein Fachgebiet, das

    sich mit computergestütztem Suchen nach komplexen Inhalten beschäftigt.
  3. Fragestellung • Wie wird das aufbereitete Datenmaterial ins Verhältnis zu

    einer vom Nutzer eingegebenen Suchanfrage gesetzt?
  4. Relevanz • Relevanz ist ein Schlüsselkonzept jeglicher Form der manuellen

    und automatisierten Informationssuche • Bis heute kein eindeutig de!niertes Konzept
  5. Finkelstein, 2008 »Both the nature of the pageranking activity and

    its uses underscore the importance of seeing search results as a value-laden process with serious social implications.«
  6. Benkler, 2006 »The little girl who searches for ›Barbie‹ on

    Google will encounter a culturally contested !gure. The same girl, searching on Overture, will encounter a commodity toy.«
  7. • Soziale, kulturelle und politische Interpretationen müssen betont werden und

    in die Rankingkriterien ein"ießen • Modelle mit Annahmen über die Natur der menschlichen Kognition, Kommunikation und Soziabilität
  8. • Technische Neuerungen, historische- oder politische- Entwicklungen können einen plötzlichen

    starken Zuwachs an Informationen hervorbringen • z. B. Er!ndung der Druckpresse
  9. • Dann kommt die Frage auf, wie Informationen kategorisiert und

    e#ektiv au#indbar gemacht werden können • Anlaß zu neuen Ordnungssystemen • z. B. Französische Revolution
  10. • Anfänge des modernen IR ebenfalls in der Phase des

    historischen Umbruchs: • Expansion der naturwissenschaftlichen Forschung Anfang des 20. Jahunderts (»Big Science«)
  11. • Anstieg der Menge an wissenschaltichen Verö#entlichungen • Suche in

    großen Sammlungen von Dokumenten • Nutzer formulieren ihr Informationsbedürfnis in Form von Suchanfragen
  12. • Aufgabe des IR: • Diejenigen Dokumente !nden, die mit

    hoher Wahrscheinlichkeit dem Informationsbedürfnis des Nutzer entsprechen
  13. • Je näher die automatisierte Relevanzbewertung auf der Basis einer

    formalisierten De!nition der intuitiven Relevanzbewertung kommen, desto höher wird die Qualität der entsprechenenden Systeme bewertet • Maß für diese Qualitätsbewertung von IR-Systemen: Precision, Recall
  14. Recall • Das Verhältnis der Anzahl gefundener relevanter Dokumente zur

    Anzahl der relevanten Dokumente im Datenbestand insgesamt
  15. • Grundprinzip des Retrieval- Prozesses • Beispiel Buchregister • Im

    Index sind zu jedem Begri# die Dokumente (URLs), die den entsprechenden Begri# enthalten, aufgelistet
  16. • Problem im Web: Zu einem Suchbegri# mehrere Millionen URLs

    • Problem: Wenn nach zwei oder mehreren Begri#en gesucht wird • Automatisierte Verfahren kommen nicht ohne eine Spez!zierung des Informationsbedürfnisses aus
  17. • Wichtigste Lösung dieser Problematik: • Boolesche Operatoren, Anfang 1960er

    • George Boole • Boole schließt aus allgemeingültige menschliche Denkgesetze
  18. • Durch Regelmäßigkeiten in sprachlichen Äußerungen auf allgemeingültige Muster des

    menschlichen Denkens schließen • Diese Muster lassen sich in formaler Weise ausdrücken
  19. Boolsche Operatoren • Erster Schritt in der Entwicklung der Relevanzkriterien

    • Kommen auch im Web zum Einsatz • Eingabe durch Nutzer nur selten gefordert
  20. Boolsche Operatoren • Bei Google: AND-Operator • Reduziert die Tre"ermenge

    • Erweckt den Anschein einer präziseren Auswahl
  21. • Der rudimentäre Boolsche Retrieval-Prozess hat den Nachteil, dass er

    nach einem zweigeteiltem Prinzip vorgeht • True / False • Relevant / Nicht relevant • Keine Möglichkeit für eine stufenweise Relevanzbewertung
  22. • Folge: Auslieferung von sehr vielen Dokumenten • Kein Ranking

    • Bedarf zusätzlicher Kriterien • Formal de!nierte Indikatoren für eine automatisierte Verarbeitung
  23. Textstatistischer Ansatz • Hans Peter Luhn • In den 1950er-Jahren

    wurde Indexierung wissenschaftlicher Beiträge vornehmlich manuell Vorgenommen • Kurze Zusammenfassungen
  24. Textstatistischer Ansatz • Bei großen Datenmengen nicht mehr so einfach

    möglich • Gefahr, dass persönliche Ansichten des Indexierers zu stark in die Zusammenfassung ein"ießen • Entwicklung automatisierter Verfahren
  25. Textstatistischer Ansatz • Reduziertes Modell von Sprache • Sprache eignet

    sich nicht zum formalisieren • mathematisch statistischer Ansatz • Texte statistisch analysieren
  26. Textstatistischer Ansatz • Wichtigkeit eines Wortes anhand der Häu!gkeit im

    Text • Zu jedem Wort entsprechender Signi!kanzwert ermittelbar • Unsortierte Liste der Dokumente aus dem Booleschen-Retrieval, lässt sich auf Basis dieser Werte sortieren
  27. Textstatistischer Ansatz • Hitlist • Google: Count-Weight • Type-Weight (z.

    B. Formatierung und Position der Begri"e) • Count-Weight und Type-Weight bilden IR-Score
  28. • Bei Luhn und Boole erfolgt Verarbeitung unabhängig von Semantik

    und Kontext • Inhaltliche Faktoren werden nicht berücksichtigt
  29. • Simulation menschlicher Relevanzbeschreibungen ist Gleichzeitig Grundlage für ihre De-Stabilisierung

    • Sobald formale Relvanzkriterien den Inhaltanbietern bekannt sind, besteht Möglichkeit zur Anpassung • Suchmaschinenoptimierung
  30. Van Couvering, 2007: »[...] wurde die Di"erenzierungskraft der textstatistischen Verfahren

    durch den verbreiteten Einsatz der Suchmaschinen- optimierung Ende der 1990er Jahre so weit geschwächt, dass zu dieser Zeit besonders viele Ergebnisse zu !nden waren, die den Relevanzbewertungen der Nutzer nicht entsprach«
  31. Keyword Stu"ing • Methode um Inhalte an das textstatistische Ranking

    anzupassen • Begri"e oft wiederholen • Text in gleicher Farbe wie Hintergrund • Nutzer und Crawler auf andere URLs weiterleiten
  32. O!icial Google Webmaster Central Blog, 2007 »A common mistake in

    writing optimized content for search engines is to forget about the user and focus only on that particulary query. [...] you have written pages solely for the search engine and you forgot about the user. As a result, your visitor will !nd a page apparently on topic but totally meaningless«
  33. Range / Schweins, 2007 »Der geschulte Redakteur berücksichtigt eine ›Keyword-Dichte‹

    von zwei bis fünf Prozent als Schwellenwert, mit dem einer Geschichte eine Relevanz zu dem Begri" zugeordnet wird ... zudem verzichtet der Redakteur auf Abkürzungen, Worttrennungen und unterschiedliche Schreibweisen«
  34. • Relevanzbewertungen anhand etablierter Messmethoden nicht mehr möglich • Messmethode

    muss sich also dynamisch selbst verändern • Neue Kriterien für die Relevanzbewertung von nöten
  35. Linktopologie • Struktur der Verweise zwischen Inhalten im www •

    Wird in einer seperaten Datenbank als zweiten Index gespeichert • Eingehende und ausgehende Links • Inlinks, Outlinks
  36. Zitationsanalyse • Mittel zur quantitativen Auswertung von Verweisen zwischen wissen-

    schaftlichen Beiträgen • Zielsetzungen • Deskriptive Analyse • Evaluative Analyse
  37. Zitationsanalyse • Evaluierte Zitationsanalyse als direkter Vorläufer linktopologisch basierter Relevanzbewertungen

    im www • Frühe Formen des Suchmaschinen- Rankings per Linkanalyse basierte ausschließlich auf der Anzahl der Links, die auf eine URL verweisen
  38. PageRank (PR) • Google PageRank-Algorithmus • Zentralität derjenigen Seite in

    das Ranking einbezogen, die den Link setzt • Link von einer Seite mit hohem PR hat großen Ein"uss auf den PR der verlinkten Seite
  39. PageRank (PR) • Gleichzeitig verteilt sich der Wert des PR

    auf die Anzahl der verlinkten Seiten • PR einer Seite steht also immer im Verhältnis zum PR anderer Seiten
  40. • Verwendung dieser Verfahren kann als wesentlicher Faktor für die

    anfangs sehr schnell wachsende Popularität von Google gelten
  41. Inversion • Verwendbarkeit eines Verweises als Qualitäts- oder Relevanzindikators schon

    früh in Frage gestellt worden • Gerade im wissenschaftlichen Bereich ist die Interpretation eines Verweises als positive Bezugsnahme nicht immer gerechtfertigt
  42. Inversion • Auch die von Google verwendete linktopologische Analyse ignoriert

    den Sinnenzusammenhang, in dem ein Link gesetzt wurde • Ein Link wird auf eine positive Bezugsnahme reduziert
  43. Unternehmensbezogene Informationen – Google Technologie »Page Ranking nimmt eine objektive

    Bewertung der Wichtigkeit von Websites vor. [...] Die Google-Technologie nutzt zur Ermittlung der Wichtigkeit einer Seite die kollektive Intelligenz des Internets. Keiner unserer Mitarbeiter greift persönlich in diesen Prozess ein oder manipuliert die Ergebnisse, →
  44. Unternehmensbezogene Informationen – Google Technologie weshalb die Nutzer auf Google

    als objektive Informationsquelle vertrauen, die frei ist von bezahlten Platzierungen«
  45. Objektivität • De!nition des Begri#s »objektiv« tri#t den Kern der

    Ranking- Problematik • Objektiv meint in diesem Zusammenhang nichts anderes als »einheitlich bearbeitet«
  46. Objektivität • Durch automatisierte Verarbeitung "ießen keine menschlichen Kriterien mit

    ein • Objektiv? • Auswahl der Kriterien im Rankingprozess basiert auf subjektive Annahmen
  47. »Die Gleichsetzung von Automatisierung und Objektivität erscheint aus dieser Sicht

    eher als eine Taktik von Googles Seite, um sich gegenüber von Nutzern als Standardisierungsinstanz und als Garant für die Validität der Relevanzkriterien zu etablieren. [...] in dem ein Link als ›positives Votum‹ und PageRank als ›auf einem demokratischen Prinzip‹ basierend beschrieben wird« Der Google-Komplex, S.126
  48. • shareholder democracy [Finkelstein, 2008] • Gut verlinkte Seiten haben

    einen größeren Ein"uss auf das Ranking als andere
  49. • Angeblich »Demokratisches Prinzip« von PR • Gut verlinkte Seiten

    haben eine besonders gute Chance gefunden zu werden • Somit auch bessere Chancen weitere Links zu erhalten
  50. • Matthäus-E#ekt [Merton, 1986] • Cumulative Advantage [Price, 1976] •

    Preferential Attachment [Watts, 2004] • Tendenz, dass viel zitierte Autoren den Großteil der Aufmerksamkeit erhalten • Herausbildung von celebrity nodes
  51. • Bei Chakrabarti / Frieze / Vera [2006] wird Google

    jedoch eindeutig eine Katalysator-Rolle für preferential attachment- E#ekte im Netz zugeschrieben
  52. • Pasquale [2006]: Das Problem, dass PR ein relativer Wert

    ist: Vorteil bestimmter Knoten geht immer zu Lasten anderer Knoten
  53. Auf der Ebene einzelner Themen kla"t die Schere zwischen schlecht

    verlinkter Knoten und den celebrity nodes immer stärker auseinander
  54. Weiterentwicklung der linktopologischen Verfahren • Reaktivität • O#-Page-Methoden • Verzeichnis-,

    Foren-, Blogeinträge • Linkbaiting • Linktausch • Linkhandel und Linkfarmen
  55. Weiterentwicklung der linktopologischen Verfahren • Optimierungsmethoden erschweren Di#erenzierungs- methoden der

    Relevanzkriterien • Link kann nicht mehr als Qualitätsmerkmal der verlinkten Inhalte interpretiert werden
  56. Weiterentwicklung der linktopologischen Verfahren • Googles Weiterentwicklung • Kategorierung der

    Links in »natürlich« und »unnatürlich« • Zeitliche Dimension • Entwicklung neuer Relevanzkriterien
  57. Staleness • Staleness als Maß für Dynamik der Inhalte und

    Verweise eines Dokuments • Kann positiven oder negativen Ein#uss auf das Ranking haben
  58. Domains • Eigentümerangaben der Domains • Dauer der Domain-Anmietung •

    Häu!gkeit der Änderungen • Korrekte Physische Adresse
  59. • Diese Einführung der Selbst- referenzialität in die Relevanz- kriterien

    erscheint im Hinblick auf die postulierte »Objektivität« des Rankings besonders fragwürdig
  60. Ranking • Kategorisierung von Inhalten als Spam oder Links •

    Kann auch Inhalte betre"en, die nach menschlichen Bewertungen nicht als Spam bewertet würden
  61. Ranking • Trotz der genannten Weiterent- wicklung der Relevanzkriterien bleibt

    die Kompromittierung der text- statistischen und linktopologischen Verfahren durch Reaktivitätsprozesse langfristig ein Problem für Google
  62. Ranking • Aus diesem Grund werden zunehmend Nutzerdaten für die

    Entwicklung von Relevanzmodellen herangezogen
  63. Relevanzmodelle • Große Mengen und Arten von Daten im Web-IR

    • Automatisiert gewonnene Nutzerstatistiken • Wachsende Bedeutung der Nutzerdaten für das Ranking
  64. Relevanzmodelle • Problematik: Suchanfragen sind für gewöhnlich sehr kurz •

    Diskrepanz zwischen Suchanfrage und Informationsbedürfnis
  65. • Als Repräsentation eines Informationsbedürfnisses kann eine Suche das Bedürfnis

    nie komplett wiedergeben, selbst wenn die besonders exakt formuliert wäre • Aufgrund dieser Problematik wird bei Suchanfragen zwischen Relevanz und Pertinenz unterschieden
  66. Pertinenz • Subjektiv Empfundene Relevanz der Suchergebnisse entscheidender Faktor im

    Konkurrenzkampf der Suchmaschinen • Pertinenz spielt also eine wichtige Rolle
  67. Google Webmaster Zentrale Blog, 2007 »Now, our search quality team

    is turning its attention toward the everelusive user intent (this is what I typed, here´s what I meant)«
  68. Pertinenz • Pertinenz basiert auf subjektiver Wahrnehmung • Lässt sich

    nicht restlos formalisieren • Durch Erweiterung der Indikatoren beid er automatischen Relevanz- bewertung, kann höherer Grad von Pertinenz erreicht werden
  69. Log-Datein • Erhobene Nutzerdaten als implizites Relevance Feedback • Nutzerdaten

    werden in Log-Datein gespeichert • Bei Google Suche: IP-Adresse, Datum, Uhrzeit, Cookies …
  70. Suchanfragen • Entwicklung von Suchanfragen • Frequenz von Suchanfragen und

    Anzahl der Suchergebnisse zu einem bestimmten Thema
  71. Nutzerbewegungen • Bewegungen der Nutzer zwischen aufgerufenen Seiten • Verweildauer

    • Auslieferung von länderspezi!schen Resulaten • Standortermittlung
  72. Personalisierte Relevanzmodelle • Es wird auf ein persönliches Pro!l zurückgegri#en

    • Wesentlich mehr Indikatoren in das Ranking einbeziehbar • Steigerung der Pertinenz
  73. Personalisierte Relevanzmodelle • Verwendung von Daten aus den Google-Diensten •

    Google-Mail, Google-Docs, etc. • Einbeziehung in die Suchanfrage • Query-Expression (Ergänzung) • Query-Modi!cation (Veränderung)
  74. Daily Me • Datenschutzbedenken • Personalisiertes Ranking problematisch • Bevorzugt

    systematisch Inhalte, die Ähnlichkeiten zu bereits bekannten Inhalten besitzen
  75. Daily Me • Gefahr, dass Inhalte, die thematisch außerhalb des

    bereits vertrauten Bereich liegen, nicht mehr wahrgenommen werden
  76. Cass Sunstein, 2006 »The prophecy of a personalized communications universe,

    in which you consult only those topics and opinions that you like«
  77. Daily Me • Reduktion des Nutzers auf bestimmte Aspekte •

    Unbemerkte Beein"ussung des Nutzers • Kritische Analyse von Selektionsmaßnahmen bei Suchmaschinen immer schwerer
  78. »It is becoming unclear whether the (dis)appearance of a source

    is a feature (personalization done right) or a bug (censorship or manipulation)«
  79. Ein#uss • Wie die Nutzeraktivität in die Modelle überführt wird

    bleibt bei der zentralen Instanz Google • Ein"uss von Google auf die Relevanzbewertung tritt deutlich hervor
  80. Literatur Röhle, Theo – Der Google Komplex, Über Macht im

    Zeitalter des Internets, Transcript Verlag, 1. Au"age (Juli 2010), Kapitel: »Suche und Retrieval (Ranking)«, Seite 106–144