Slide 1

Slide 1 text

データマイニングやってて 思うこと おーとや

Slide 2

Slide 2 text

自己紹介 過去やってたこと – 生物情報とか – 食事管理システムの成果解析とか 現在やってること – データマイニングやってます – たまに Pepper アプリ作ってます 2 / 23

Slide 3

Slide 3 text

まずはお断り 発表内容は個人の見解であり、 所属企業、団体等は関係ありません 本資料のイラスト等は各著作者が権利を有してます 二次利用等はご配慮頂けるとありがたいです 3 / 23

Slide 4

Slide 4 text

データマイニングって なんだと思います? 4 / 23

Slide 5

Slide 5 text

データマイニングって ざっくりというと、 データから有用な知見を得ること 5 / 23

Slide 6

Slide 6 text

さて、データ解析するべ ではさっそく、エクセル開いて... 6 / 23

Slide 7

Slide 7 text

がらがらポン! 機械学習ツール使えば問題解決? ゴミが出てくるのさ 7 / 23

Slide 8

Slide 8 text

さて、データ解析するべ 解析の目的は? データの種類は? データの分布は? 解析方法は? 8 / 23

Slide 9

Slide 9 text

さて、データ解析するべ 解析の目的は? 目的無しにデータを眺めても、意味ないです データの種類は? データの分布は? 安易に平均とか取れないデータがあります 解析方法は? ドリルダウン結果が矛盾して見えることがあります ツールを安易に使うと痛い目にあいます 9 / 23

Slide 10

Slide 10 text

データの種類 データの種類として尺度水準があります 名義尺度 データを区別するするための名前 順序尺度 値の大小のみ 間隔尺度 値の差が意味を持つ 比率尺度 零点を持ち、値の比較が意味を持つ 10 / 23

Slide 11

Slide 11 text

データの種類:例 五段階評価は順序尺度です じつは、平均値には意味がないんです グルメサイトとか密林とかやってますよね... そもそも五段階に意味が無かったりするか Facebook によると、1 or 5 が大多数で、 中間が無かったので、二段階評価にしたとか... 11 / 23

Slide 12

Slide 12 text

データの分布 平均が意味を成さない分布もあります – 友達の数の分布 – コーシー分布 – 多峰性分布 とか... SNS 内のユーザ 友達の数 コーシー分布 厚い 12 / 23

Slide 13

Slide 13 text

機械学習ツールを信じてる? ...ゴミを出してるかもよ 例えばクラスタリング – クラスタリング数はどうやって決めてる? – データを表す特徴量間の距離/類似度は? – K-meansでは、大きさが異なるクラスタが取れない 13 / 23

Slide 14

Slide 14 text

矛盾してる? シンプソンパラドックス 集団を2つに分けた場合にある仮説が成立しても、 集団全体では正反対の仮説が成立することが... Treatment A Treatment B Small Stones 93%(81/87) 87%(234/270) Large Stones 73%(192/263) 69%(55/80) Both 78%(273/350) 83%(289/350) 肝臓結石治療成績 (Wikipedia より) 14 / 23

Slide 15

Slide 15 text

相関から因果関係は分からない? データ間に相関があっても、 因果関係の方向がいろいろありえます – A<->B :イベントAとBは鶏と卵状態 – A->B :Aが原因でBが生じる – A<-C->B :隠れた原因CによりA,Bが生じる 風が吹く 桶屋が儲かる ? 15 / 23

Slide 16

Slide 16 text

データマイニングの流れ 16 / 23

Slide 17

Slide 17 text

データマイニングの流れ ● 仮説を立てる ● 検証する ● 検証結果をもとに仮説を修正する … (繰り返し) 17 / 23 仮説 検証

Slide 18

Slide 18 text

データマイニングの流れ 食事管理システム評価で行った流れ ● 仮説を立てる – システムを使い始めた人は体重が軽くなる ● 検証する – システム開始日を揃える – 体重変化の平均値を取る ● 検証結果をもとに仮説を修正する – 体重が軽くなるのではなく、 BMI=22に近く … 少しずつ改善していく 18 / 23

Slide 19

Slide 19 text

データマイニングやってて 思うこと 19 / 23

Slide 20

Slide 20 text

データマイニングやってて思うこと データの性質を丁寧にみる 高度な手法/ツールに頼らない 大量のデータを考慮する 仮説/検証のループを回す 20 / 23

Slide 21

Slide 21 text

データマイニングやってて思うこと データの性質を丁寧にみる – データ間の関連を探る – データの特徴量として何が良いかを検討する 高度な手法/ツールに頼らない – エクセルでデータを見てる... 大量のデータを考慮する – データを細分化する – 計算量を小さくする – ビックデータ対応ツールを用いる(Spark とか) 手早く、仮説/検証のループを回す – REPL 環境とか、◯◯ノートブックとか... 21 / 23

Slide 22

Slide 22 text

データマイニングやってて思うこと やっぱ、エクセルですか... 22 / 23

Slide 23

Slide 23 text

ご清聴、 ありがとうございました 23 / 23