Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ligageschichte

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for janoberst janoberst
December 05, 2011

 Ligageschichte

Avatar for janoberst

janoberst

December 05, 2011
Tweet

More Decks by janoberst

Other Decks in Programming

Transcript

  1. Datenquellen: Text • Archive • Kicker • Bundesliga.de • Tor24

    • FAZ • Goal.com • Fussball24 • RSS-Feeds
  2. + Datenquellen • Bundesliga.de: XML für jedes Spiel 2007/08 •

    detailliert, teilweise nicht auswertbar • Daten der Teams: Faunus, Doppelpass, Orden • Datenfusion, Duplikaterkennung, Datenreinigung
  3. NER

  4. NER: Spieler • “Markus Miller” • “Miller” wenn “Markus Miller”

    erkannt wurde • “Miller” Team in News und ein “Miller” im Team • “Markus” Team in News und ein “Markus” total
  5. NER: Teams • Karlsruher SC “Karlsruhe”, “karlsruher” kommt 3x vor

    • Karlsruher SC “Karlsruher SC”, “KSC”, “die Badener” • Karlsruher SC Markus Miller, Sebastian Freis, Tamás Hajnal (3 Spieler) kommen im Text vor
  6. NER: Herausforderung • “Markus Rosenberg” und KSC im Text •

    “Ballkind Markus” und KSC im Text • Finden “Der Karlsruher Arzt diagnostizierte...” “Autounfall in Karlsruhe...” “der in Karlsruhe gebohrene Schiri...” • “Joachim Löw” im Text
  7. NER: Ergebnis vector = { mitt 0.016 ungewiss 0.024 optimistisch

    0.020 ranger 0.024 P{ThimotheeAtouba} 0.120 P{Rafaelvan der Vaart} 0.240 fussprellung 0.029 gelaufen 0.020 allerd 0.009 P{JorisMathijsen} 0.120 nordderbi 0.025 sportchef 0.019 darauf 0.014 gearbeitet 0.020 T{KarlsruherSC} 0.291 bangt 0.023 wiederholt 0.022 gewann 0.016 saison 0.005 } • Vektoren • Worte der Artikel (stemmed) • Entities (Schiri x 3.1 / Spieler x 1.5 / Trainer x 2)
  8. Clustering • Großer Cluster = Wichtiges Thema • Blenden kleine

    Cluster aus • k-means Clustering? • Wenige News: kleineres k • Nur ein Thema: kleineres k
  9. SVD • 10 Artikel über Bayern, 10 über KSC: SVD

    “findet” 2 Features • Wie ereignisreich war ein Spieltag? • Kein Clustering: Hohe Werte für eindeutige News Nicht wichtigste Singular Value Decomposition
  10. 1. News eines Spieltages: 4 Tage davor, 4 Tage danach.

    (Faktor 1,2,3,3,12,10,9,8,2) 2. Vektor: Alle Wörter und Entities 3. SVD: Bildet Features Nehmen “stärkste” News für jedes Feature.. 4. Filtern doppelte News. Viele Features doppelt = Wenige Themen 5. Wenige Themen = Wenige Features. Jedes Thema ein Cluster: So finden wir k (k-means) 6. K-Means Clustering. Größe der Cluster bestimmt Ranking.
  11. Topics Interessante News: Timeline, Headlines Tag-Cloud Wichtigste Ereignisse, Score für

    Spiel Win Wheel Alle Teams gegeneinander Tabellen Ewige Tabelle + Tabelle + Torjäger + Fairness + Statistiken