データ分析入門以前-Kaggleはじめました-#TechLunch

 データ分析入門以前-Kaggleはじめました-#TechLunch

Kaggleのご紹介
2014/01/22 (水) 12:00-13:00 @ Livesense TechLunch
発表者:渡邉 惇

E60aa4f80303f3f386898546ddb3686a?s=128

Livesense Inc.

April 21, 2014
Tweet

Transcript

  1. స৬ձٞϢχοτɹϓϩμΫτάϧʔϓ Copyright © LIVESENSE Inc. ౉ᬒɹಯ σʔλ෼ੳೖ໳Ҏલ - Kaggle ͸͡Ί·ͨ͠

    -
  2. ࠓճݴ͍͍ͨ͜ͱΛ3ߦͰ Kaggleっていうサイトが面白いですよ     Excel入門しました/  pivot便利ですね /  色々教えて 下さい  

      実データと問題があると分析するの楽しい&機械 学習を学ぶ気になる
  3. ஫ҙ: σʔλαΠΤϯςΟετϨϕϧ0   このレベルの人はデータ分析をしたことがありません。最近テ レビでよく目にするビッグデータについては何だが凄そうという イメージは持っています。そしてデータサイエンティストという 言葉を知らない人が大半です。 ありがちな発言 「ビッグデータってすごいらしいね」  

    出典:  h2p://d.hatena.ne.jp/shakezo/20130715/1373874047     このレベルなんで色々ご容赦下さい
  4. ಋೖ: σʔλ෼ੳͱ͔͍͚ͨ͠Ͳ… 中々とっかかりがない   データサイエンティスト 機械学習   自然言語処理 Rとpython  

    統計学
  5. ৭ʑ: ॻ੶ͱ͔͋Δ͚Ͳ イメージわかない  

  6. Kaggle: ͝঺հ 海外のデータサイエンティスト向けのCodeIQ   2010年6月〜  

  7. Kaggle: νϡʔτϦΞϧͷ͝঺հ Titanic:  Machine  Learning  from  Disaster     Predict

     survival  on  the  Titanic  (with  tutorials  in  Excel,  Python   and  an  introducTon  to  Random  Forests) タイタニックの乗客の生死を予測するコンペ   → Excel  /  Python  のチュートリアルがついてくる
  8. Kaggle: Titanic Data Format VARIABLE  DESCRIPTIONS:   survival    

               Survival                                  (0  =  No;  1  =  Yes)   pclass                    Passenger  Class                                  (1  =  1st;  2  =  2nd;  3  =  3rd)   name                        Name   sex                          Sex   age                          Age   sibsp                      Number  of  Siblings/Spouses  Aboard   parch                      Number  of  Parents/Children  Aboard   Tcket                    Ticket  Number   fare                        Passenger  Fare   cabin                      Cabin   embarked                Port  of  EmbarkaTon                                  (C  =  Cherbourg;  Q  =  Queenstown;  S  =  Southampton)  
  9. Kaggle: Simple Analysis with Excel 性別 生存者数 乗客総数 生存率 female

    233 314 74.20% male 109 577 18.89% 総計 342 891 38.38% 男女のシンプルなpivot  table   女性の方が生き残れそう!   →女性は生き残れるようにして提出   →  76.5%  
  10. Kaggle: Simple Analysis with Excel 2 性別   船室の等級(pclass)  

    支払額(fare  を-­‐10,  10-­‐20,  20-­‐30,  30-­‐で階層化)   でpivot  table(詳細はExcelで) →  女性でも3等級で20$以上支払っている人は死ん じゃうのでは?   →  77.03%  
  11. Kaggle: Simple Analysis with Python エクセル第二弾で出した性別,船室等級,支払額それ ぞれの生存率を変数で保持する     保持した生存率を50%以上を生存,未満を死亡と判断

        test.csvの値を読み込み、上記ロジックで振り分ける     →  77.9%
  12. Kaggle: RandomForest with Python 欠損値を平均値で埋める(年齢,搭乗地)   不要なデータを削除(名前、チケット名、積み荷)     ランダムフォレストに値セット→学習実施

      →その結果を使ってtest.csvに予測実施     →提出→  74.6% (!?)  
  13. Kaggle: ஫ҙ఺ •  シンプルなモデルだから悪いわけじゃなく、簡潔な データのほうが真実に近づく場合もある   •  今回はデータセットが小さかったので、1つの値の 影響度が大きかった。チュートリアルなのでわかり やすさを取ったので、頑張ってチューニングしたラ

    ンダムフォレストが性別の分類の精度を超えなく ても凹まないように。    
  14. ͓·͚: RandomForest ? Random  Forest  は、Leo  Breiman  が2001年に 提案したアンサンブル学習の一種です。  

    簡単にいうと、たくさんの決定木を生成して多 数決をとるという単純なアルゴリズムです。  
  15. ͓·͚: RandomForestͷྲྀΕ(ଟ෼) 1.  ランダムにデータを抽出する   2.  それぞれのデータで決定木を作成   3.  予測データを決定木すべてに適応

      4.  3.で得られたデータを統合(平均/多数決)  
  16. ݁࿦: RandomForest なるほどわからん!     結論:  すごいアルゴリズム     → すいませんちゃんと勉強します…

  17. RandomForest: ࢀߟ このへんわかりやすいらしい   h2p://www.slideshare.net/hamadakoichi/tree-­‐ basedmodelsandrandomforests   h2p://d.hatena.ne.jp/shakezo/ 20121221/1356089207  

      Kaggle公式はまさかのWikipediaレコメンド   h2p://en.wikipedia.org/wiki/Random_forest   h2p://en.wikipedia.org/wiki/Decision_tree  
  18. Θ͔ͬͨ͜ͱ 「Excelは便利」という当たり前の認識     シンプルなモデルでも仮説立てて数値出すと楽しい   → 現在のメディアでもなにか改善案とか出せそう     クリアな課題と生のデータあると、分析が楽しいし、

    機械学習のアルゴリズム勉強する気になる(Kaggle いいね)  
  19. ࢥͬͨ͜ͱ Pivotテーブルはこんなもんじゃない(多分)     統計的なリテラシー無いと擬似相関に騙されそう  

  20. ࠓޙͷల๬ Kaggleとメディア分析   で必要なことを学んでいこうかと   色々教えて下さい     しばらくはレベル2を目指します  

  21. Ϩϕϧ2 レベル2の人達は集計分析に加えて、最低限の機械学習や 統計学の手法を知っています。SVMやランダムフォレストなど のメジャーな手法を覚え、データ分析が面白くなってくる頃で す。しかしながらRやSPSSなどの専用ソフトを常にデフォルト設 定のパラメータで分析していたり、特徴量選択や前処理の重 要性を甘く見る傾向があります。 近いうちに現実のデータはirisのように甘くないことを知ること になるでしょう。 ありがちな発言

    「ランダムフォレスト最強」
  22. ୈҰา ランダムフォレストの中身を知るところから  

  23. ͋ͨΓ·͑Λɺൃ໌͠Α͏ɻ

  24. ͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠ɻ