Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析入門以前-Kaggleはじめました-#TechLunch

 データ分析入門以前-Kaggleはじめました-#TechLunch

Kaggleのご紹介
2014/01/22 (水) 12:00-13:00 @ Livesense TechLunch
発表者:渡邉 惇

Livesense Inc.

April 21, 2014
Tweet

More Decks by Livesense Inc.

Other Decks in Technology

Transcript

  1. Kaggle: νϡʔτϦΞϧͷ͝঺հ Titanic:  Machine  Learning  from  Disaster     Predict

     survival  on  the  Titanic  (with  tutorials  in  Excel,  Python   and  an  introducTon  to  Random  Forests) タイタニックの乗客の生死を予測するコンペ   → Excel  /  Python  のチュートリアルがついてくる
  2. Kaggle: Titanic Data Format VARIABLE  DESCRIPTIONS:   survival    

               Survival                                  (0  =  No;  1  =  Yes)   pclass                    Passenger  Class                                  (1  =  1st;  2  =  2nd;  3  =  3rd)   name                        Name   sex                          Sex   age                          Age   sibsp                      Number  of  Siblings/Spouses  Aboard   parch                      Number  of  Parents/Children  Aboard   Tcket                    Ticket  Number   fare                        Passenger  Fare   cabin                      Cabin   embarked                Port  of  EmbarkaTon                                  (C  =  Cherbourg;  Q  =  Queenstown;  S  =  Southampton)  
  3. Kaggle: Simple Analysis with Excel 性別 生存者数 乗客総数 生存率 female

    233 314 74.20% male 109 577 18.89% 総計 342 891 38.38% 男女のシンプルなpivot  table   女性の方が生き残れそう!   →女性は生き残れるようにして提出   →  76.5%  
  4. Kaggle: Simple Analysis with Excel 2 性別   船室の等級(pclass)  

    支払額(fare  を-­‐10,  10-­‐20,  20-­‐30,  30-­‐で階層化)   でpivot  table(詳細はExcelで) →  女性でも3等級で20$以上支払っている人は死ん じゃうのでは?   →  77.03%  
  5. ͓·͚: RandomForest ? Random  Forest  は、Leo  Breiman  が2001年に 提案したアンサンブル学習の一種です。  

    簡単にいうと、たくさんの決定木を生成して多 数決をとるという単純なアルゴリズムです。  
  6. RandomForest: ࢀߟ このへんわかりやすいらしい   h2p://www.slideshare.net/hamadakoichi/tree-­‐ basedmodelsandrandomforests   h2p://d.hatena.ne.jp/shakezo/ 20121221/1356089207  

      Kaggle公式はまさかのWikipediaレコメンド   h2p://en.wikipedia.org/wiki/Random_forest   h2p://en.wikipedia.org/wiki/Decision_tree