Upgrade to Pro — share decks privately, control downloads, hide ads and more …

mumbling about data mining

ohto
August 03, 2016

mumbling about data mining

Nowaday, we all notice about the hard thing to escape the circulation of AI topics. One of the resions of AI, machine learning (especially deep ones) is the most interesting technology among them and use these tools without well consideration. So, I mumble about casual use of ML tools from the data minging point of view.

ohto

August 03, 2016
Tweet

More Decks by ohto

Other Decks in Programming

Transcript

  1. 矛盾してる? シンプソンパラドックス 集団を2つに分けた場合にある仮説が成立しても、 集団全体では正反対の仮説が成立することが... Treatment A Treatment B Small Stones

    93%(81/87) 87%(234/270) Large Stones 73%(192/263) 69%(55/80) Both 78%(273/350) 83%(289/350) 肝臓結石治療成績 (Wikipedia より) 14 / 23
  2. データマイニングの流れ 食事管理システム評価で行った流れ • 仮説を立てる – システムを使い始めた人は体重が軽くなる • 検証する – システム開始日を揃える

    – 体重変化の平均値を取る • 検証結果をもとに仮説を修正する – 体重が軽くなるのではなく、 BMI=22に近く … 少しずつ改善していく 18 / 23
  3. データマイニングやってて思うこと データの性質を丁寧にみる – データ間の関連を探る – データの特徴量として何が良いかを検討する 高度な手法/ツールに頼らない – エクセルでデータを見てる... 大量のデータを考慮する

    – データを細分化する – 計算量を小さくする – ビックデータ対応ツールを用いる(Spark とか) 手早く、仮説/検証のループを回す – REPL 環境とか、◯◯ノートブックとか... 21 / 23