Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Python i Orange - wstep do eksploracji danych (data mining)

Python i Orange - wstep do eksploracji danych (data mining)

Przezentacja jest podzielona na część teoretyczna oraz praktyczną. Część pierwsza jest poświęcona na omówienie podstawowych pojęć dotyczących metod eksploracji danych (data mining). W części drugiej jest przedstawione praktyczne zastosowanie poznanych technik z wykorzystaniem programu Orange.

Marcin Mierzejewski

October 10, 2009
Tweet

More Decks by Marcin Mierzejewski

Other Decks in Programming

Transcript

  1. Python i Orange Wstęp do eksploracji danych (data mining) PyConPL

    2009 Marcin Mierzejewski // www.zenzire.com
  2. Eksploracja danych (data mining) „nietrywialne wydobywanie ukrytej, poprzednio nieznanej i

    potencjalnie użytecznej informacji z danych” W.Frawley, G.Piatetsky-Shapiro, C.Matheus - 1992
  3. Eksploracja danych - zastosowanie rozpoznawaniu obrazu, mowy, pisma diagnostyka medyczna

    badania genetyczne analizie operacji bankowych reklamy skierowane przewidywanie właściwości cząsteczek ocenie ryzyka kredytowego
  4. Dane Ciągłe wiek (>=0) dochód (>=0) Dyskretne płeć (mężczyzna/kobieta) wykształcenie

    (podstawowe, średnie, wyższe) stanowisko (pracownik, kierownik, dyrektor)
  5. Dane płeć wiek miejscowość wykształcenie kupił? d c d d

    d M 28 metropolia wyższe tak K 37 miasto średnie nie M 18 wieś podstawowe nie K 21 metropolia średnie nie K 45 metropolia wyższe nie
  6. Klasteryzacja klaster – kolekcja obiektów 1) 175cm, 75kg, tak A)

    1 i 2 2) 180cm, 85kg, tak B) 3 3) 120cm, 32kg, tak C) 4 i 5 4) 160cm, 50kg, tak 5) 155cm, 45kg, tak
  7. Reguły Asocjacyjne odnalezienie wartości atrybutów stosunkowo często występujących razem 1)

    masło, chleb masło chleb → 2) masło, chleb, dżem piwo orzeszki → 3) dżem, bułki piwo chipsy → 4) piwo, orzeszki 6) piwo, chipsy
  8. Klasyfikacja 180cm, 85kg, tak M → 120cm, 32kg, tak D

    → + algorytm model 160cm, 50kg, tak K → model(130cm, 38kg, tak) D
  9. Regresja M, 180, 120, 90 90kg → D, 120, 60,

    60 38kg → + algorytm model K, 170, 90, 60 55kg → model(200, 140, 100) 120kg
  10. Baza klientów płeć wiek miejscowość wykształcenie stanowisko kupił? M 28

    metropolia wyższe dyrektor tak K 37 miasto średnie kierownik nie M 18 wieś podstawowe bez pracy nie K 21 metropolia średnie biznesmen nie K 45 metropolia wyższe dyrektor nie M 34 miasto wyższe pracownik tak ...
  11. Przykład Firma informatyczna oferuje kilka produktów (aplikacji). Baza produktów per

    klient. Problem: Preferencje zakupowe klientów (koszyki produktów)
  12. Lista produkty per klient aplikacja 1, aplikacja 2 aplikacja 3,

    aplikacja 4, aplikacja 6 aplikacja 5, aplikacja 7, aplikacja 1, aplikacja 2 aplikacja 8, aplikacja 10, aplikacja 2, aplikacja 3 aplikacja 9, aplikacja 10, aplikacja 1 aplikacja 7, aplikacja 2, aplikacja 4, aplikacja 5 aplikacja 2, aplikacja 8, aplikacja 3, aplikacja 6 aplikacja 3, aplikacja 10, aplikacja 1, aplikacja 4 aplikacja 2 ...
  13. Python import orange, orngAssoc data = orange.ExampleTable("aplikacje.basket") rules = orange.AssociationRulesSparseInducer(data,

    support=0.0) orngAssoc.sort(rules, ["support", "confidence"]) orngAssoc.printRules(rules[:10], ["support", "confidence"]) supp conf rule 0.200 0.750 aplikacja 6 -> aplikacja 3 0.200 0.600 aplikacja 10 -> aplikacja 1 0.200 0.600 aplikacja 3 -> aplikacja 6 0.200 0.429 aplikacja 1 -> aplikacja 10 0.133 1.000 aplikacja 7 aplikacja 2 -> aplikacja 5 0.133 1.000 aplikacja 9 -> aplikacja 1
  14. Zdjęcia: - http://www.flickr.com/photos/mcgraths/3248483447 - http://www.flickr.com/photos/generated/2585844966/ - http://www.flickr.com/photos/jutta/41768000 - http://www.flickr.com/photos/hawkexpress/328322067/ -

    http://www.flickr.com/photos/wili/1427012953/ - http://www.flickr.com/photos/cobalt/2128455051/ - http://www.flickr.com/photos/mscolly/145052885/