Ligageschichte

Jan Oberst Stefan Wehrmeyer

Topics Interessanteste News: Timeline, Headlines Tabellen Ewige Tabelle, Torjäger, Ergebnisse,
Statistiken

Datenquellen

Datenquellen: Text • Archive • Kicker • Bundesliga.de • Tor24
• FAZ • Goal.com • Fussball24 • RSS-Feeds

+ Datenquellen • Bundesliga.de: XML für jedes Spiel 2007/08 •
detailliert, teilweise nicht auswertbar • Daten der Teams: Faunus, Doppelpass, Orden • Datenfusion, Duplikaterkennung, Datenreinigung

NER: Spieler • “Markus Miller” • “Miller” wenn “Markus Miller”
erkannt wurde • “Miller” Team in News und ein “Miller” im Team • “Markus” Team in News und ein “Markus” total

NER: Teams • Karlsruher SC “Karlsruhe”, “karlsruher” kommt 3x vor
• Karlsruher SC “Karlsruher SC”, “KSC”, “die Badener” • Karlsruher SC Markus Miller, Sebastian Freis, Tamás Hajnal (3 Spieler) kommen im Text vor

NER: Herausforderung • “Markus Rosenberg” und KSC im Text •
“Ballkind Markus” und KSC im Text • Finden “Der Karlsruher Arzt diagnostizierte...” “Autounfall in Karlsruhe...” “der in Karlsruhe gebohrene Schiri...” • “Joachim Löw” im Text

NER: Ergebnis vector = { mitt 0.016 ungewiss 0.024 optimistisch
0.020 ranger 0.024 P{ThimotheeAtouba} 0.120 P{Rafaelvan der Vaart} 0.240 fussprellung 0.029 gelaufen 0.020 allerd 0.009 P{JorisMathijsen} 0.120 nordderbi 0.025 sportchef 0.019 darauf 0.014 gearbeitet 0.020 T{KarlsruherSC} 0.291 bangt 0.023 wiederholt 0.022 gewann 0.016 saison 0.005 } • Vektoren • Worte der Artikel (stemmed) • Entities (Schiri x 3.1 / Spieler x 1.5 / Trainer x 2)

Data Mining

News: Headlines

Clustering • Großer Cluster = Wichtiges Thema • Blenden kleine
Cluster aus • k-means Clustering? • Wenige News: kleineres k • Nur ein Thema: kleineres k

SVD • 10 Artikel über Bayern, 10 über KSC: SVD
“ﬁndet” 2 Features • Wie ereignisreich war ein Spieltag? • Kein Clustering: Hohe Werte für eindeutige News Nicht wichtigste Singular Value Decomposition

1. News eines Spieltages: 4 Tage davor, 4 Tage danach.
(Faktor 1,2,3,3,12,10,9,8,2) 2. Vektor: Alle Wörter und Entities 3. SVD: Bildet Features Nehmen “stärkste” News für jedes Feature.. 4. Filtern doppelte News. Viele Features doppelt = Wenige Themen 5. Wenige Themen = Wenige Features. Jedes Thema ein Cluster: So ﬁnden wir k (k-means) 6. K-Means Clustering. Größe der Cluster bestimmt Ranking.

Ergebnisse

News: Headlines

News: Timeline

Tabellen

Ewige Tabelle

Torjäger

Fairness

Tag-Cloud

Teamvergleich

Win Wheel

Topics Interessante News: Timeline, Headlines Tag-Cloud Wichtigste Ereignisse, Score für
Spiel Win Wheel Alle Teams gegeneinander Tabellen Ewige Tabelle + Tabelle + Torjäger + Fairness + Statistiken

Ligageschichte

Ligageschichte

janoberst

More Decks by janoberst

Other Decks in Programming

Featured

Transcript

Jan Oberst Stefan Wehrmeyer

Topics Interessanteste News: Timeline, Headlines Tabellen Ewige Tabelle, Torjäger, Ergebnisse,

Datenquellen

Datenquellen: Text • Archive • Kicker • Bundesliga.de • Tor24

+ Datenquellen • Bundesliga.de: XML für jedes Spiel 2007/08 •

NER

NER: Spieler • “Markus Miller” • “Miller” wenn “Markus Miller”

NER: Teams • Karlsruher SC “Karlsruhe”, “karlsruher” kommt 3x vor

NER: Herausforderung • “Markus Rosenberg” und KSC im Text •

NER: Ergebnis vector = { mitt 0.016 ungewiss 0.024 optimistisch

Data Mining

News: Headlines

Clustering • Großer Cluster = Wichtiges Thema • Blenden kleine

SVD • 10 Artikel über Bayern, 10 über KSC: SVD

1. News eines Spieltages: 4 Tage davor, 4 Tage danach.

Ergebnisse

News: Headlines

News: Timeline

Tabellen

Ewige Tabelle

Torjäger

Fairness

Tag-Cloud

Teamvergleich

Teamvergleich

Win Wheel

Win Wheel

Win Wheel

Topics Interessante News: Timeline, Headlines Tag-Cloud Wichtigste Ereignisse, Score für