Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ligageschichte

Avatar for janoberst janoberst
December 05, 2011

 Ligageschichte

Avatar for janoberst

janoberst

December 05, 2011
Tweet

More Decks by janoberst

Other Decks in Programming

Transcript

  1. Datenquellen: Text • Archive • Kicker • Bundesliga.de • Tor24

    • FAZ • Goal.com • Fussball24 • RSS-Feeds
  2. + Datenquellen • Bundesliga.de: XML für jedes Spiel 2007/08 •

    detailliert, teilweise nicht auswertbar • Daten der Teams: Faunus, Doppelpass, Orden • Datenfusion, Duplikaterkennung, Datenreinigung
  3. NER

  4. NER: Spieler • “Markus Miller” • “Miller” wenn “Markus Miller”

    erkannt wurde • “Miller” Team in News und ein “Miller” im Team • “Markus” Team in News und ein “Markus” total
  5. NER: Teams • Karlsruher SC “Karlsruhe”, “karlsruher” kommt 3x vor

    • Karlsruher SC “Karlsruher SC”, “KSC”, “die Badener” • Karlsruher SC Markus Miller, Sebastian Freis, Tamás Hajnal (3 Spieler) kommen im Text vor
  6. NER: Herausforderung • “Markus Rosenberg” und KSC im Text •

    “Ballkind Markus” und KSC im Text • Finden “Der Karlsruher Arzt diagnostizierte...” “Autounfall in Karlsruhe...” “der in Karlsruhe gebohrene Schiri...” • “Joachim Löw” im Text
  7. NER: Ergebnis vector = { mitt 0.016 ungewiss 0.024 optimistisch

    0.020 ranger 0.024 P{ThimotheeAtouba} 0.120 P{Rafaelvan der Vaart} 0.240 fussprellung 0.029 gelaufen 0.020 allerd 0.009 P{JorisMathijsen} 0.120 nordderbi 0.025 sportchef 0.019 darauf 0.014 gearbeitet 0.020 T{KarlsruherSC} 0.291 bangt 0.023 wiederholt 0.022 gewann 0.016 saison 0.005 } • Vektoren • Worte der Artikel (stemmed) • Entities (Schiri x 3.1 / Spieler x 1.5 / Trainer x 2)
  8. Clustering • Großer Cluster = Wichtiges Thema • Blenden kleine

    Cluster aus • k-means Clustering? • Wenige News: kleineres k • Nur ein Thema: kleineres k
  9. SVD • 10 Artikel über Bayern, 10 über KSC: SVD

    “findet” 2 Features • Wie ereignisreich war ein Spieltag? • Kein Clustering: Hohe Werte für eindeutige News Nicht wichtigste Singular Value Decomposition
  10. 1. News eines Spieltages: 4 Tage davor, 4 Tage danach.

    (Faktor 1,2,3,3,12,10,9,8,2) 2. Vektor: Alle Wörter und Entities 3. SVD: Bildet Features Nehmen “stärkste” News für jedes Feature.. 4. Filtern doppelte News. Viele Features doppelt = Wenige Themen 5. Wenige Themen = Wenige Features. Jedes Thema ein Cluster: So finden wir k (k-means) 6. K-Means Clustering. Größe der Cluster bestimmt Ranking.
  11. Topics Interessante News: Timeline, Headlines Tag-Cloud Wichtigste Ereignisse, Score für

    Spiel Win Wheel Alle Teams gegeneinander Tabellen Ewige Tabelle + Tabelle + Torjäger + Fairness + Statistiken