Road to Kaggle master岩森俊哉
View Slide
KaggleとはKaggleとは自己紹介Kaggle初級編Kaggle中級編Kaggle上級編
企業と、データサイエンティストをつなぐクラウドソーシング型のプラットフォーム。ü約60万人のData Scientistが登録ü技術者のDiscussionがあるü賞金ありü2012年 General Electorinics/Alaska Airlinesが総額2,500万円の賞金で開催ü2015年 Recruitは総額500万円で開催ü2017年 アメリカ合衆国国土安全保障省 1.5億円KaggleとはDataScientistsKaggleCompanies
Kaggle Rankings
モデル構築の一般的な流れとその中におけるKaggle1.データ受領データ理解モデル構築3-2.性能評価2.データ理解 3.モデル構築 4.業務評価 5.改善対応策2-1.データの理解データ理解し、重要な情報の特定を行う2-2.課題の理解機械学習を用いて解くべき課題の理解真のデータと予測データを比較し、性能評価3-3.改善性能向上のために、改善ポイントを整理2-3-.特徴量抽出データを加工し、判断材料となる要素を抽出する3-1.モデル作成機械学習アルゴリズムを適用して学習
自己紹介Kaggleとは自己紹介Kaggle初級編Kaggle中級編Kaggle上級編
岩森俊哉(Toshiya Iwamori)学生時代には数学科に所属し、流体の数学的解析の研究に従事。Sierに入社後、金融のデリバリーやデータサイエンティストとして業務分析を経験。Kaggleには2年前より始め、日々奮闘中。ヘルスケア・ライフサイエンス領域における疾患の分類、医療の専門文書分類などへの機械学習の応用が専門。Finished Competition rank2017/8/14 Instacart Market Basket Analysis 56 / 26232017/10/2 Personalized Medicine: Redefining Cancer Treatment 4 / 13862018/1/15 Corporación Favorita Grocery Sales Forecasting 49 / 16752018/2/6 Recruit Restaurant Visitor Forecasting 51 / 2216
Kaggleとは自己紹介Kaggle初級編Kaggle中級編Kaggle上級編Kaggle初級編
Kaggle初級編– 初サブミットTitanicのチュートリアルでモデルを構築、実行!!初サブミットに感動!!
Kaggle初級編– xgboost使用上の注意ただxgboostを意味もわからずにいじるだけの日々モデルxgboost使えば、もっと精度出るよもっと精度が欲しいもっと高度なモデルが必要1度だけなら….精度でない苦しい
機械学習の基本的な理論を理解することが大事Kaggle初級編 – 基本的な理論の勉強Decision TreeCross-Validation
Kaggle初級編– コンペリベンジ!!Kaggle恐怖症のため、別のコンペ(The 2nd Big Data Analysis Contest)出場3位/137人!!業務で機械学習モデルを構築するプロジェクトに参画することに!結果
Kaggle中級編Kaggleとは自己紹介Kaggle初級編Kaggle中級編Kaggle上級編
Kaggle番外編– ビジネスとしての機械学習データが手に入らない!!データサイエンティストプロジェクト担当者データ管理担当者クライアント データ授受は、データ管理の担当者とやり取りしてください。データ授受は、プロジェクト担当者から私に依頼する形式でお願いします。
Kaggle番外編– ビジネスとしての機械学習ビジネスの用途によってデータの使い方は異なる。各患者の滞在時間を予測することもできるが、各患者が長期滞在となるか否かを予測することもできる。長期短期滞在時間と患者数のグラフ
Kaggle番外編– ビジネスとしての機械学習今回のケースでは検体検査の結果や容体をから、長期滞在になるか否かを機械学習により自動化し、医療行為を行うための意思決定をサポート。そのために長期か否かを教えて欲しい。l 短期滞在の可能性が高いので、様子見をする。l 長期滞在が見込めまれるので、積極的関与を行うØ 患者基本データ年齢、性別、身長、体重….Ø 検体検査データ血圧、心拍数….Machine LearningPatient ⻑期滞在の確率患者A 20%患者B 80%
Kaggle中級編– 特徴量の作成技法üKaggleの過去コンペのsolutionやkernelが参考になる。üJupyter notebookを使って、データの可視化を行い、特徴を探す。Jupyter notebookを使用して、データを眺める
Kaggle中級編– モデル検証環境の構築validationのデータセット、特に時系列データなどは構築に注意が必要。時系列データセット分割の例 同じデータでもサンプル抽出方法により、分布が異なる。
Kaggle上級編Kaggleとは自己紹介Kaggle初級編Kaggle中級編Kaggle上級編
Kaggle上級編– 評価指標への最適化ü 評価指標の最適化。例としてloglossは、モデルが正解ラベルの確率を低く出力した場合、不正解となった場合には評価結果が著しく悪化する。そのため、不正解時にスコアを低くし過ぎないなどの補正する。Light GBMによる予測結果 重みつけ平均で最適化した予測結果予測値が0に近いほどlog lossの値は大きい
Kaggle上級編– 学習状況の理解üモデルの学習状況の理解学習データから、周期性は獲得できているが、特異的な部分を学習できていない。学習したいデータ 学習モデルに出力された結果
Kaggle上級編– hyper pameterGCPやAWSでのhyper parameter tuning機械学習モデル
End