mumbling about data mining

データマイニングやってて思うことおーとや

自己紹介過去やってたこと – 生物情報とか – 食事管理システムの成果解析とか現在やってること – データマイニングやってます –
たまに Pepper アプリ作ってます 2 / 23

まずはお断り発表内容は個人の見解であり、所属企業、団体等は関係ありません本資料のイラスト等は各著作者が権利を有してます二次利用等はご配慮頂けるとありがたいです 3 / 23

データマイニングってなんだと思います? 4 / 23

データマイニングってざっくりというと、データから有用な知見を得ること 5 / 23

さて、データ解析するべではさっそく、エクセル開いて... 6 / 23

がらがらポン! 機械学習ツール使えば問題解決? ゴミが出てくるのさ 7 / 23

さて、データ解析するべ解析の目的は? データの種類は? データの分布は? 解析方法は? 8 / 23

さて、データ解析するべ解析の目的は? 目的無しにデータを眺めても、意味ないですデータの種類は? データの分布は? 安易に平均とか取れないデータがあります解析方法は? ドリルダウン結果が矛盾して見えることがありますツールを安易に使うと痛い目にあいます 9
/ 23

データの種類データの種類として尺度水準があります名義尺度データを区別するするための名前順序尺度値の大小のみ間隔尺度値の差が意味を持つ比率尺度零点を持ち、値の比較が意味を持つ
10 / 23

データの種類:例五段階評価は順序尺度ですじつは、平均値には意味がないんですグルメサイトとか密林とかやってますよね... そもそも五段階に意味が無かったりするか Facebook によると、1 or 5 が大多数で、
中間が無かったので、二段階評価にしたとか... 11 / 23

データの分布平均が意味を成さない分布もあります – 友達の数の分布 – コーシー分布 – 多峰性分布とか... SNS
内のユーザ友達の数コーシー分布厚い 12 / 23

機械学習ツールを信じてる? ...ゴミを出してるかもよ例えばクラスタリング – クラスタリング数はどうやって決めてる? – データを表す特徴量間の距離/類似度は? – K-meansでは、大きさが異なるクラスタが取れない 13
/ 23

矛盾してる? シンプソンパラドックス集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することが... Treatment A Treatment B Small Stones
93%(81/87) 87%(234/270) Large Stones 73%(192/263) 69%(55/80) Both 78%(273/350) 83%(289/350) 肝臓結石治療成績 (Wikipedia より) 14 / 23

相関から因果関係は分からない? データ間に相関があっても、因果関係の方向がいろいろありえます – A<->B :イベントAとBは鶏と卵状態 – A->B :Aが原因でBが生じる –
A<-C->B :隠れた原因CによりA,Bが生じる風が吹く桶屋が儲かる ? 15 / 23

データマイニングの流れ 16 / 23

データマイニングの流れ • 仮説を立てる • 検証する • 検証結果をもとに仮説を修正する … (繰り返し) 17
/ 23 仮説検証

データマイニングの流れ食事管理システム評価で行った流れ • 仮説を立てる – システムを使い始めた人は体重が軽くなる • 検証する – システム開始日を揃える
– 体重変化の平均値を取る • 検証結果をもとに仮説を修正する – 体重が軽くなるのではなく、 BMI=22に近く … 少しずつ改善していく 18 / 23

データマイニングやってて思うこと 19 / 23

データマイニングやってて思うことデータの性質を丁寧にみる高度な手法/ツールに頼らない大量のデータを考慮する仮説/検証のループを回す 20 / 23

データマイニングやってて思うことデータの性質を丁寧にみる – データ間の関連を探る – データの特徴量として何が良いかを検討する高度な手法/ツールに頼らない – エクセルでデータを見てる... 大量のデータを考慮する
– データを細分化する – 計算量を小さくする – ビックデータ対応ツールを用いる(Spark とか) 手早く、仮説/検証のループを回す – REPL 環境とか、◯◯ノートブックとか... 21 / 23

データマイニングやってて思うことやっぱ、エクセルですか... 22 / 23

ご清聴、ありがとうございました 23 / 23

mumbling about data mining

mumbling about data mining

ohto

More Decks by ohto

Other Decks in Programming

Featured

Transcript

データマイニングやってて思うことおーとや

自己紹介過去やってたこと – 生物情報とか – 食事管理システムの成果解析とか現在やってること – データマイニングやってます –

まずはお断り発表内容は個人の見解であり、所属企業、団体等は関係ありません本資料のイラスト等は各著作者が権利を有してます二次利用等はご配慮頂けるとありがたいです 3 / 23

データマイニングってなんだと思います? 4 / 23

データマイニングってざっくりというと、データから有用な知見を得ること 5 / 23

さて、データ解析するべではさっそく、エクセル開いて... 6 / 23

がらがらポン! 機械学習ツール使えば問題解決? ゴミが出てくるのさ 7 / 23

さて、データ解析するべ解析の目的は? データの種類は? データの分布は? 解析方法は? 8 / 23

データの種類データの種類として尺度水準があります名義尺度データを区別するするための名前順序尺度値の大小のみ間隔尺度値の差が意味を持つ比率尺度零点を持ち、値の比較が意味を持つ

データの種類:例五段階評価は順序尺度ですじつは、平均値には意味がないんですグルメサイトとか密林とかやってますよね... そもそも五段階に意味が無かったりするか Facebook によると、1 or 5 が大多数で、

データの分布平均が意味を成さない分布もあります – 友達の数の分布 – コーシー分布 – 多峰性分布とか... SNS

機械学習ツールを信じてる? ...ゴミを出してるかもよ例えばクラスタリング – クラスタリング数はどうやって決めてる? – データを表す特徴量間の距離/類似度は? – K-meansでは、大きさが異なるクラスタが取れない 13

矛盾してる? シンプソンパラドックス集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することが... Treatment A Treatment B Small Stones

相関から因果関係は分からない? データ間に相関があっても、因果関係の方向がいろいろありえます – A<->B :イベントAとBは鶏と卵状態 – A->B :Aが原因でBが生じる –

データマイニングの流れ 16 / 23

データマイニングの流れ • 仮説を立てる • 検証する • 検証結果をもとに仮説を修正する … (繰り返し) 17

データマイニングの流れ食事管理システム評価で行った流れ • 仮説を立てる – システムを使い始めた人は体重が軽くなる • 検証する – システム開始日を揃える

データマイニングやってて思うこと 19 / 23

データマイニングやってて思うことデータの性質を丁寧にみる高度な手法/ツールに頼らない大量のデータを考慮する仮説/検証のループを回す 20 / 23

データマイニングやってて思うことやっぱ、エクセルですか... 22 / 23

ご清聴、ありがとうございました 23 / 23