Rozhodovací stromy, Titanic a Clojure

Rozhodovací stromy, Titanic a Clojure

Lightning talk z ne-konference jOpenSpace 2014. Úvod do rozhodovacích stromů a principů informačního zisku a entropie. Ilustrováno pokusem na základě dodaných dat odhadnout, kdo z Titanicu přežil a kdo ne.

Podpořeno implementací RS v Clojure: https://github.com/dkvasnicka/kaggle-titanic

55c9f4624d94a0c87c4f4fcb7f152393?s=128

Daniel Kvasnička

October 18, 2014
Tweet

Transcript

  1. 1.

    Rozhodovací stromy ! a Titanic …a (trošku) Clojure ! Daniel

    Kvasnička
 @dkvasnickajr 
 https://github.com/dkvasnicka
  2. 2.
  3. 3.
  4. 4.

    ! ! • Koncepčně jednoduchý, přehledný a rychle interpretovatelný nástroj

    • Dobře paralelizovatelný / distribuovatelný • Odolný proti anomáliím • Použitelný pro spojitá i diskrétní data
  5. 5.

    C4.5 / C5.0 ! • Rozdělení nodu se děje podle

    atributu, který zajistí nejvyšší informační zisk = největší snížení entropie oproti aktuálnímu stavu H(X) = n i=1 p(xi) log2 1 p(xi)
  6. 6.

    A B C D p(A) = 0.5 p(B) = 0.25

    p(C) = p(D) = 0.125