Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rozhodovací stromy, Titanic a Clojure

Rozhodovací stromy, Titanic a Clojure

Lightning talk z ne-konference jOpenSpace 2014. Úvod do rozhodovacích stromů a principů informačního zisku a entropie. Ilustrováno pokusem na základě dodaných dat odhadnout, kdo z Titanicu přežil a kdo ne.

Podpořeno implementací RS v Clojure: https://github.com/dkvasnicka/kaggle-titanic

Daniel Kvasnička

October 18, 2014
Tweet

More Decks by Daniel Kvasnička

Other Decks in Programming

Transcript

  1. Rozhodovací stromy
    !
    a Titanic …a (trošku) Clojure
    !
    Daniel Kvasnička

    @dkvasnickajr 

    https://github.com/dkvasnicka

    View Slide

  2. View Slide

  3. View Slide

  4. !
    !
    • Koncepčně jednoduchý, přehledný a rychle
    interpretovatelný nástroj
    • Dobře paralelizovatelný / distribuovatelný
    • Odolný proti anomáliím
    • Použitelný pro spojitá i diskrétní data

    View Slide

  5. C4.5 / C5.0
    !
    • Rozdělení nodu se děje podle atributu, který zajistí
    nejvyšší informační zisk = největší snížení entropie
    oproti aktuálnímu stavu
    H(X) =
    n
    i=1
    p(xi) log2
    1
    p(xi)

    View Slide

  6. A
    B
    C D
    p(A) = 0.5
    p(B) = 0.25
    p(C) = p(D) = 0.125

    View Slide