Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Was sind eigentlich Regression, Clustering und Classification?

Was sind eigentlich Regression, Clustering und Classification?

8dfa4d1af5c7bb536a71e68a749d41ce?s=128

Christine Koppelt

January 23, 2019
Tweet

Transcript

  1. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 1/16

    Was sind eigentlich Was sind eigentlich Regression, Clustering und Regression, Clustering und Classi ication? Classi ication? Christine Koppelt, Christoph Wiemers Christine Koppelt, Christoph Wiemers Code Days, 23. Januar 2019 Code Days, 23. Januar 2019
  2. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 2/16

    Data Science Work low Data Science Work low OSEMN Modell OSEMN Modell Obtain Scrub Explore Model iNterpret
  3. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 3/16

    Machine Learning Machine Learning Machine Learning Supervised learning Unsupervised learning Reinforcement learning Clustering Regression Classi ication
  4. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 4/16

    Erstellung eines Modells Erstellung eines Modells gelabelte Daten Test Set Training Set Model Building Test Model Predictions ausgewählte Merkmale
  5. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 5/16

    Herausforderungen: Daten Herausforderungen: Daten Zu wenig Daten Nicht repräsentative Daten Schlechte Datenqualität Irrelevante Merkmale
  6. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 6/16

    Herausforderungen: Algorithmen Herausforderungen: Algorithmen Over itting Modell bildet zu ällige Details aus den Trainingsdaten ab Ergebnisse werden ür Testdaten deutlich schlechter Under itting Modell zu einfach, zu wenige Parameter
  7. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 7/16

    Produktivbetrieb Produktivbetrieb Wird ein Modell längere Zeit verwendet, sollte Concept Drift untersucht werden Überwachung der Daten, statistische Kenngrößen Kenngrößen der trainierten Modelle überwachen Modelle mit neuen Daten trainieren Datenanalyse um neue Ein lussgrößen zu entdecken
  8. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 8/16

    Regression Regression
  9. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 9/16

    „Regressionsanalysen sind statistische Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren. Sie werden insbesondere verwendet, wenn Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren sind.” – Wikipedia
  10. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 10/16

    Einsatzbeispiele Einsatzbeispiele Vorhersage Bevölkerungswachstum Lebenserwartung
  11. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 11/16

    Überblick Algorithmen Überblick Algorithmen Verfahren Linear Polynomial Logistic
  12. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 12/16

    Einfache Lineare Regression Einfache Lineare Regression Finde eine lineare Funktion bei welcher der Abstand der Punkte zur Funktion minimal ist Eine unabhängige Variable: y = + x b 0 b 1
  13. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 13/16

    Charakteristika Charakteristika Vorteile Einfach zu verstehen Nachteile Reagiert emp indlich auf Ausreißer Beschränkt auf zwei Variablen Nur ür einfache Beziehungen geeignet
  14. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 14/16

    Verallgemeinerungen Verallgemeinerungen mehrere Variablen: Multiple Regression Polynom: Polynomiale Regression y = + + + … + β 0 x 1 β 1 x 2 β 2 x K β K y = + x + + + ⋯ + β 0 β 1 β 2 x 2 β 3 x 3 β n x n
  15. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 15/16

    Logistic Regression Logistic Regression Vorhersage der Wahrscheinlichkeit, ob ein Ereignis eintritt Nutzung der Logistischen Funktion
  16. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 16/16

    Charakteristika Charakteristika Vorteile Braucht wenig Rechenresourcen Einfach zu implementieren Features müssen nicht skaliert/normalisiert werden Nachteile Tendiert zu Over itting
  17. Classification

  18. „Eine Klassifikation ist eine planmäßige Sammlung von abstrakten Klassen, die

    zur Abgrenzung und Ordnung verwendet werden. Die einzelnen Klassen werden in der Regel mittels Klassifizierung – das heißt durch die Einteilungen von Objekten anhand bestimmter übereinstimmender Merkmale – gewonnen.” Wikipedia
  19. Spam-Mails

  20. Textklassifikation

  21. Medizin

  22. Daten

  23. Länge Farbe Form 8cm Rot rund 16cm Gelb länglich 7cm

    Rot rund 15cm Gelb länglich Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Nam liber tempor cum soluta nobis eleifend option congue nihil imperdiet doming id quod mazim placerat facer possim assum. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Textdokument Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Nam liber tempor cum soluta nobis eleifend option congue nihil imperdiet doming id quod mazim placerat facer possim assum. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Textdokument Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Nam liber tempor cum soluta nobis eleifend option congue nihil imperdiet doming id quod mazim placerat facer possim assum. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Textdokument
  24. Länge Farbe Form 8cm Rot rund 16cm Gelb länglich 7cm

    Rot rund 15cm Gelb länglich Länge Farbe Form 8 1 1 16 2 2 7 1 1 15 2 2 Ziffer Form 1 Rund 2 Lang Ziffer Farbe 1 Rot 2 Gelb alle Merkmale sind in numerische Werte überführt
  25. Länge Farbe Form 8cm Rot rund 16cm Gelb länglich 7cm

    Rot rund 15cm Gelb länglich Länge Farbe Form 8 1 1 16 2 2 7 1 1 15 2 2 alle Daten sind gelabelt Länge Farbe Form Label 8 1 1 1 16 2 2 2 7 1 1 1 15 2 2 2 Ziffer Wert 1 Apfel 2 Banane
  26. Klassifizierern

  27. Binärklassifzierer • Lineare Klassifikationen • Support Vector Machines Klassifizierer für

    mehrere Klassen • Naive Bayes-Klassifikatoren • Neuronale Netze • Random Forests
  28. Underfitting und Overfitting x Underfitting x y y Overfitting x

    y Appropriate fitted
  29. Random Forest

  30. Eigenschaften von Random Forest • keinerlei Skalierung oder Zentrierung der

    Datenpunkte notwendig • flexibler Machine-Learning Algorithmus • funktioniert effizient bei großen Datenmengen • bei großen Datenmengen produziert er 
 sehr genaue Vorhersagen
  31. Eigenschaften von Random Forest • fast kein Overfitting • wenig

    Trainingszeit • wenig anfällig für fehlende Datensätze
  32. Was ist ein Random Forest?

  33. Was ist ein Entscheidungsbaum? Wurzelknoten Entscheidungsknoten Blattknoten Blattknoten Blattknoten Entscheidung

    Entscheidung
  34. Was ist ein Entscheidungsbaum? ⚽ ⚽ ⚽ wahr split ∅<

    7 falsch ⚽ ⚽ falsch wahr split ∅< 12 ⚽ ⚽ = = = 6.5 11.5 22 Entropie verkleinern
  35. None
  36. None
  37. Wie sieht unser Baum aus? ∅ in cm Farbe Label

    8 10 2.8 1 12 7 2 2.5 8 3 Farbe rot? Durchmesser > 9
  38. Wie funktioniert eine Entscheidung? Länge in cm Label 9 10

    2.8 1 12 7 2 2.5 6 3 Länge <= 2 zu hohe Entropie
  39. Wie funktioniert eine Entscheidung? Länge in cm Label 9 10

    2.8 1 12 7 2 2.5 6 3 Länge < 9 zu hohe Entropie
  40. Wie funktioniert eine Entscheidung? Länge in cm Label 9 10

    2.8 1 12 7 2 2.5 6 3 Länge < 4 ausgewogene Entropie
  41. Warum unterschiedliche Bäume? Trainingsdaten

  42. Wie funktioniert ein Random Forest? Ergebnis Mehrheitsentscheidung C B A

    Entscheidungsbaum Ausgabe
  43. from sklearn.ensemble import RandomForestClassifier
 rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1) rnd_clf.fit(X_train, y_train)

    y_pred_rf = rnd_clf.predict(X_test) Random Forest in Scikit Learn RandForestRegressor()
  44. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 1/7

    Clustering Clustering
  45. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 2/7

    Unter Clusteranalysen versteht man Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in (großen) Datenbeständen. Die so gefundenen Gruppen von „ähnlichen“ Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. – Wikipedia
  46. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 3/7

    Einsatzbeispiele Einsatzbeispiele Kundensegmentierung Empfehlungssysteme
  47. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 4/7

    Überblick Algorithmen Überblick Algorithmen Verfahren hierarchisch partitionierend divisiv agglomerativ Austausch- verfahren iterative Minimal- distanz- verfahren
  48. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 5/7

    k-Means k-Means Aus einer Menge von ähnlichen Datensätzen wird eine Anzahl von k Gruppen gebildet k wird vorgegeben Initial werden k Clusterzentren zu ällig ausgewählt Iterative Optimierung Anhand einer Kostenfunktion
  49. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 6/7

    Charakteristika Charakteristika Vorteile Vergleichsweise schnell Cluster haben eine ähnliche Dichte Nachteile Größe von k schwierig vorhersehbar Reagiert emp indlich auf Ausreißer
  50. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 7/7

    Zusammenfassung Zusammenfassung Regression Classi ication Clustering BewertungKostenfunktionGenauigkeit Kostenfunktion Output Zahlenwert Zugehörigkeit zu Kategorie Clusterzugehörigkeit Umfangreiches Themengebiet, viele Algorithmen Sehr gute Unterstützung durch Libraries Auch ür Visualisierung
  51. Danke! Fragen? www.innoq.com innoQ Deutschland GmbH Krischerstr. 100 40789 Monheim

    am Rhein Germany +49 2173 3366-0 Ohlauer Str. 43 10999 Berlin Germany Ludwigstr. 180E 63067 Offenbach Germany Kreuzstr. 16 80331 München Germany Gewerbestr. 11 CH-6330 Cham Switzerland +41 41 743 01 11 Albulastr. 55 8048 Zürich Switzerland innoQ Schweiz GmbH Christine Koppelt Christine.Koppelt@innoq.com @ckoppelt Christoph Wiemers Christoph.Wiemers@innoq.com @magicwiemers @ckoppelt @ckoppelt