Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
データマイニングやってて 思うこと おーとや
Slide 2
Slide 2 text
自己紹介 過去やってたこと – 生物情報とか – 食事管理システムの成果解析とか 現在やってること – データマイニングやってます – たまに Pepper アプリ作ってます 2 / 23
Slide 3
Slide 3 text
まずはお断り 発表内容は個人の見解であり、 所属企業、団体等は関係ありません 本資料のイラスト等は各著作者が権利を有してます 二次利用等はご配慮頂けるとありがたいです 3 / 23
Slide 4
Slide 4 text
データマイニングって なんだと思います? 4 / 23
Slide 5
Slide 5 text
データマイニングって ざっくりというと、 データから有用な知見を得ること 5 / 23
Slide 6
Slide 6 text
さて、データ解析するべ ではさっそく、エクセル開いて... 6 / 23
Slide 7
Slide 7 text
がらがらポン! 機械学習ツール使えば問題解決? ゴミが出てくるのさ 7 / 23
Slide 8
Slide 8 text
さて、データ解析するべ 解析の目的は? データの種類は? データの分布は? 解析方法は? 8 / 23
Slide 9
Slide 9 text
さて、データ解析するべ 解析の目的は? 目的無しにデータを眺めても、意味ないです データの種類は? データの分布は? 安易に平均とか取れないデータがあります 解析方法は? ドリルダウン結果が矛盾して見えることがあります ツールを安易に使うと痛い目にあいます 9 / 23
Slide 10
Slide 10 text
データの種類 データの種類として尺度水準があります 名義尺度 データを区別するするための名前 順序尺度 値の大小のみ 間隔尺度 値の差が意味を持つ 比率尺度 零点を持ち、値の比較が意味を持つ 10 / 23
Slide 11
Slide 11 text
データの種類:例 五段階評価は順序尺度です じつは、平均値には意味がないんです グルメサイトとか密林とかやってますよね... そもそも五段階に意味が無かったりするか Facebook によると、1 or 5 が大多数で、 中間が無かったので、二段階評価にしたとか... 11 / 23
Slide 12
Slide 12 text
データの分布 平均が意味を成さない分布もあります – 友達の数の分布 – コーシー分布 – 多峰性分布 とか... SNS 内のユーザ 友達の数 コーシー分布 厚い 12 / 23
Slide 13
Slide 13 text
機械学習ツールを信じてる? ...ゴミを出してるかもよ 例えばクラスタリング – クラスタリング数はどうやって決めてる? – データを表す特徴量間の距離/類似度は? – K-meansでは、大きさが異なるクラスタが取れない 13 / 23
Slide 14
Slide 14 text
矛盾してる? シンプソンパラドックス 集団を2つに分けた場合にある仮説が成立しても、 集団全体では正反対の仮説が成立することが... Treatment A Treatment B Small Stones 93%(81/87) 87%(234/270) Large Stones 73%(192/263) 69%(55/80) Both 78%(273/350) 83%(289/350) 肝臓結石治療成績 (Wikipedia より) 14 / 23
Slide 15
Slide 15 text
相関から因果関係は分からない? データ間に相関があっても、 因果関係の方向がいろいろありえます – A<->B :イベントAとBは鶏と卵状態 – A->B :Aが原因でBが生じる – A<-C->B :隠れた原因CによりA,Bが生じる 風が吹く 桶屋が儲かる ? 15 / 23
Slide 16
Slide 16 text
データマイニングの流れ 16 / 23
Slide 17
Slide 17 text
データマイニングの流れ ● 仮説を立てる ● 検証する ● 検証結果をもとに仮説を修正する … (繰り返し) 17 / 23 仮説 検証
Slide 18
Slide 18 text
データマイニングの流れ 食事管理システム評価で行った流れ ● 仮説を立てる – システムを使い始めた人は体重が軽くなる ● 検証する – システム開始日を揃える – 体重変化の平均値を取る ● 検証結果をもとに仮説を修正する – 体重が軽くなるのではなく、 BMI=22に近く … 少しずつ改善していく 18 / 23
Slide 19
Slide 19 text
データマイニングやってて 思うこと 19 / 23
Slide 20
Slide 20 text
データマイニングやってて思うこと データの性質を丁寧にみる 高度な手法/ツールに頼らない 大量のデータを考慮する 仮説/検証のループを回す 20 / 23
Slide 21
Slide 21 text
データマイニングやってて思うこと データの性質を丁寧にみる – データ間の関連を探る – データの特徴量として何が良いかを検討する 高度な手法/ツールに頼らない – エクセルでデータを見てる... 大量のデータを考慮する – データを細分化する – 計算量を小さくする – ビックデータ対応ツールを用いる(Spark とか) 手早く、仮説/検証のループを回す – REPL 環境とか、◯◯ノートブックとか... 21 / 23
Slide 22
Slide 22 text
データマイニングやってて思うこと やっぱ、エクセルですか... 22 / 23
Slide 23
Slide 23 text
ご清聴、 ありがとうございました 23 / 23