Upgrade to Pro — share decks privately, control downloads, hide ads and more …

mumbling about data mining

ohto
August 03, 2016

mumbling about data mining

Nowaday, we all notice about the hard thing to escape the circulation of AI topics. One of the resions of AI, machine learning (especially deep ones) is the most interesting technology among them and use these tools without well consideration. So, I mumble about casual use of ML tools from the data minging point of view.

ohto

August 03, 2016
Tweet

More Decks by ohto

Other Decks in Programming

Transcript

  1. データマイニングやってて
    思うこと
    おーとや

    View Slide

  2. 自己紹介
    過去やってたこと
    – 生物情報とか
    – 食事管理システムの成果解析とか
    現在やってること
    – データマイニングやってます
    – たまに Pepper アプリ作ってます
    2 / 23

    View Slide

  3. まずはお断り
    発表内容は個人の見解であり、
    所属企業、団体等は関係ありません
    本資料のイラスト等は各著作者が権利を有してます
    二次利用等はご配慮頂けるとありがたいです
    3 / 23

    View Slide

  4. データマイニングって
    なんだと思います?
    4 / 23

    View Slide

  5. データマイニングって
    ざっくりというと、
    データから有用な知見を得ること
    5 / 23

    View Slide

  6. さて、データ解析するべ
    ではさっそく、エクセル開いて...
    6 / 23

    View Slide

  7. がらがらポン!
    機械学習ツール使えば問題解決?
    ゴミが出てくるのさ
    7 / 23

    View Slide

  8. さて、データ解析するべ
    解析の目的は?
    データの種類は?
    データの分布は?
    解析方法は?
    8 / 23

    View Slide

  9. さて、データ解析するべ
    解析の目的は?
    目的無しにデータを眺めても、意味ないです
    データの種類は?
    データの分布は?
    安易に平均とか取れないデータがあります
    解析方法は?
    ドリルダウン結果が矛盾して見えることがあります
    ツールを安易に使うと痛い目にあいます
    9 / 23

    View Slide

  10. データの種類
    データの種類として尺度水準があります
    名義尺度
    データを区別するするための名前
    順序尺度
    値の大小のみ
    間隔尺度
    値の差が意味を持つ
    比率尺度
    零点を持ち、値の比較が意味を持つ
    10 / 23

    View Slide

  11. データの種類:例
    五段階評価は順序尺度です
    じつは、平均値には意味がないんです
    グルメサイトとか密林とかやってますよね...
    そもそも五段階に意味が無かったりするか
    Facebook によると、1 or 5 が大多数で、
    中間が無かったので、二段階評価にしたとか...
    11 / 23

    View Slide

  12. データの分布
    平均が意味を成さない分布もあります
    – 友達の数の分布
    – コーシー分布
    – 多峰性分布
    とか...
    SNS 内のユーザ
    友達の数
    コーシー分布
    厚い
    12 / 23

    View Slide

  13. 機械学習ツールを信じてる?
    ...ゴミを出してるかもよ
    例えばクラスタリング
    – クラスタリング数はどうやって決めてる?
    – データを表す特徴量間の距離/類似度は?
    – K-meansでは、大きさが異なるクラスタが取れない
    13 / 23

    View Slide

  14. 矛盾してる?
    シンプソンパラドックス
    集団を2つに分けた場合にある仮説が成立しても、
    集団全体では正反対の仮説が成立することが...
    Treatment A Treatment B
    Small Stones 93%(81/87) 87%(234/270)
    Large Stones 73%(192/263) 69%(55/80)
    Both 78%(273/350) 83%(289/350)
    肝臓結石治療成績 (Wikipedia より)
    14 / 23

    View Slide

  15. 相関から因果関係は分からない?
    データ間に相関があっても、
    因果関係の方向がいろいろありえます
    – A<->B :イベントAとBは鶏と卵状態
    – A->B :Aが原因でBが生じる
    – A<-C->B :隠れた原因CによりA,Bが生じる
    風が吹く 桶屋が儲かる
    ?
    15 / 23

    View Slide

  16. データマイニングの流れ
    16 / 23

    View Slide

  17. データマイニングの流れ
    ● 仮説を立てる
    ● 検証する
    ● 検証結果をもとに仮説を修正する
    … (繰り返し)
    17 / 23
    仮説 検証

    View Slide

  18. データマイニングの流れ
    食事管理システム評価で行った流れ
    ● 仮説を立てる
    – システムを使い始めた人は体重が軽くなる
    ● 検証する
    – システム開始日を揃える
    – 体重変化の平均値を取る
    ● 検証結果をもとに仮説を修正する
    – 体重が軽くなるのではなく、
    BMI=22に近く
    … 少しずつ改善していく
    18 / 23

    View Slide

  19. データマイニングやってて
    思うこと
    19 / 23

    View Slide

  20. データマイニングやってて思うこと
    データの性質を丁寧にみる
    高度な手法/ツールに頼らない
    大量のデータを考慮する
    仮説/検証のループを回す
    20 / 23

    View Slide

  21. データマイニングやってて思うこと
    データの性質を丁寧にみる
    – データ間の関連を探る
    – データの特徴量として何が良いかを検討する
    高度な手法/ツールに頼らない
    – エクセルでデータを見てる...
    大量のデータを考慮する
    – データを細分化する
    – 計算量を小さくする
    – ビックデータ対応ツールを用いる(Spark とか)
    手早く、仮説/検証のループを回す
    – REPL 環境とか、◯◯ノートブックとか...
    21 / 23

    View Slide

  22. データマイニングやってて思うこと
    やっぱ、エクセルですか...
    22 / 23

    View Slide

  23. ご清聴、
    ありがとうございました
    23 / 23

    View Slide