$30 off During Our Annual Pro Sale. View Details »

mumbling about data mining

ohto
August 03, 2016

mumbling about data mining

Nowaday, we all notice about the hard thing to escape the circulation of AI topics. One of the resions of AI, machine learning (especially deep ones) is the most interesting technology among them and use these tools without well consideration. So, I mumble about casual use of ML tools from the data minging point of view.

ohto

August 03, 2016
Tweet

More Decks by ohto

Other Decks in Programming

Transcript

  1. データマイニングやってて 思うこと おーとや

  2. 自己紹介 過去やってたこと – 生物情報とか – 食事管理システムの成果解析とか 現在やってること – データマイニングやってます –

    たまに Pepper アプリ作ってます 2 / 23
  3. まずはお断り 発表内容は個人の見解であり、 所属企業、団体等は関係ありません 本資料のイラスト等は各著作者が権利を有してます 二次利用等はご配慮頂けるとありがたいです 3 / 23

  4. データマイニングって なんだと思います? 4 / 23

  5. データマイニングって ざっくりというと、 データから有用な知見を得ること 5 / 23

  6. さて、データ解析するべ ではさっそく、エクセル開いて... 6 / 23

  7. がらがらポン! 機械学習ツール使えば問題解決? ゴミが出てくるのさ 7 / 23

  8. さて、データ解析するべ 解析の目的は? データの種類は? データの分布は? 解析方法は? 8 / 23

  9. さて、データ解析するべ 解析の目的は? 目的無しにデータを眺めても、意味ないです データの種類は? データの分布は? 安易に平均とか取れないデータがあります 解析方法は? ドリルダウン結果が矛盾して見えることがあります ツールを安易に使うと痛い目にあいます 9

    / 23
  10. データの種類 データの種類として尺度水準があります 名義尺度 データを区別するするための名前 順序尺度 値の大小のみ 間隔尺度 値の差が意味を持つ 比率尺度 零点を持ち、値の比較が意味を持つ

    10 / 23
  11. データの種類:例 五段階評価は順序尺度です じつは、平均値には意味がないんです グルメサイトとか密林とかやってますよね... そもそも五段階に意味が無かったりするか Facebook によると、1 or 5 が大多数で、

    中間が無かったので、二段階評価にしたとか... 11 / 23
  12. データの分布 平均が意味を成さない分布もあります – 友達の数の分布 – コーシー分布 – 多峰性分布 とか... SNS

    内のユーザ 友達の数 コーシー分布 厚い 12 / 23
  13. 機械学習ツールを信じてる? ...ゴミを出してるかもよ 例えばクラスタリング – クラスタリング数はどうやって決めてる? – データを表す特徴量間の距離/類似度は? – K-meansでは、大きさが異なるクラスタが取れない 13

    / 23
  14. 矛盾してる? シンプソンパラドックス 集団を2つに分けた場合にある仮説が成立しても、 集団全体では正反対の仮説が成立することが... Treatment A Treatment B Small Stones

    93%(81/87) 87%(234/270) Large Stones 73%(192/263) 69%(55/80) Both 78%(273/350) 83%(289/350) 肝臓結石治療成績 (Wikipedia より) 14 / 23
  15. 相関から因果関係は分からない? データ間に相関があっても、 因果関係の方向がいろいろありえます – A<->B :イベントAとBは鶏と卵状態 – A->B :Aが原因でBが生じる –

    A<-C->B :隠れた原因CによりA,Bが生じる 風が吹く 桶屋が儲かる ? 15 / 23
  16. データマイニングの流れ 16 / 23

  17. データマイニングの流れ • 仮説を立てる • 検証する • 検証結果をもとに仮説を修正する … (繰り返し) 17

    / 23 仮説 検証
  18. データマイニングの流れ 食事管理システム評価で行った流れ • 仮説を立てる – システムを使い始めた人は体重が軽くなる • 検証する – システム開始日を揃える

    – 体重変化の平均値を取る • 検証結果をもとに仮説を修正する – 体重が軽くなるのではなく、 BMI=22に近く … 少しずつ改善していく 18 / 23
  19. データマイニングやってて 思うこと 19 / 23

  20. データマイニングやってて思うこと データの性質を丁寧にみる 高度な手法/ツールに頼らない 大量のデータを考慮する 仮説/検証のループを回す 20 / 23

  21. データマイニングやってて思うこと データの性質を丁寧にみる – データ間の関連を探る – データの特徴量として何が良いかを検討する 高度な手法/ツールに頼らない – エクセルでデータを見てる... 大量のデータを考慮する

    – データを細分化する – 計算量を小さくする – ビックデータ対応ツールを用いる(Spark とか) 手早く、仮説/検証のループを回す – REPL 環境とか、◯◯ノートブックとか... 21 / 23
  22. データマイニングやってて思うこと やっぱ、エクセルですか... 22 / 23

  23. ご清聴、 ありがとうございました 23 / 23