あの日見たデータ「サイエンス」を僕たちはまだ知らない

D8405b26330622cb6aea43007a1bfe9d?s=47 ITO Takafumi
September 26, 2019

 あの日見たデータ「サイエンス」を僕たちはまだ知らない

7分枠なのに20分しゃべった話です。

D8405b26330622cb6aea43007a1bfe9d?s=128

ITO Takafumi

September 26, 2019
Tweet

Transcript

  1. (7分枠のはずだった) あの日見た データの「サイエンス」を 僕たちはまだ 知らない Data Gateway Talk #3 Takafumi

    ITO (きぬいと: @)
  2. 誰? • アナリスト(2年目) ◦ 主な仕事内容: データ使ったマーケティング支援 • Rで仕事、Pythonでkaggle ◦ 主に解析手法の検討・手作業部分の簡略化などの裏方

    ▪ そのくせよくしゃべる ◦ 今月は仕事でやらかして着地 ▪ 結果エンジニアリングでのリカバリーを画策し、本格的にプヨグヤミングをすることに
  3. 今日のお話 • データ「サイエンス」ついてのお話 ◦ きぬいとはサイエンスヨクワカラナイ • 我々はどこまで「サイエンス」しているのか?? ◦ データサイエンスにおける「科学的手続き」とは? •

    「利益」を生む「科学的手続き」は可能か?
  4. 今日の結論 • ビジネス課題を「科学的に」解決することで利益を生もうという話 ◦ 「科学的手続き」に必要な要素 (参考: すべてのアメリカ人のための科学 ) ①適切な証拠 ②明確な結論

    ③証拠と結論をつなぐ推論 ◦ これらを伴ったデータ活用で利益創出を目指そうという話 • 「科学的手続きをちゃんと辿って幸せになろう」という話 ◦ 宗教とかじゃないです
  5. 誰向けか? • 今まさにGatewayの前に立っている人 ◦ 回帰分析を使う場面を知っていても回帰分析で金を得る手段がわからない ◦ 門をくぐった人たちはお酒を飲みながら次の人に期待しよう • 「Gatewayの前に立つ人」を育てる義務を背負う人 •

    その他サイエンスと利益の狭間でもがく人 ◦ かく言う私もその一人ですが。
  6. 誰向け「ではない」か? • データサイエンスを完全に理解した人 ◦ 是非教えてくださいよ、本当の「データ サイエンス」ってやつをよォ〜〜〜 • 「お気持ちドリブン」な人 ◦ 客の「お気持ち」を「ただ肯定」する仕事がしたい

    →きれいなグラフどすなあ ◦ データを「サイエンス」した上で客を「観る」って話はするかもしれない。 • 技術ドリブンな人 ◦ 「ウチではデータサイエンスをこうシステム化しました」 →単純にすごいがスコープ外 ◦ システムを「活用」する話はするかもしれない。
  7. おことわり • あくまで私個人の主張 ◦ 「こうやってお金を稼ぐのは楽しいはずだ」と説得しに行く ◦ 願わくば皆さんが同意してくれると嬉しい。 • 「疑って」ほしい ◦

    頑張って「説得されまい」と構えていただきたい ◦ むしろ全否定を試みていただきたい ▪ データサイエンスを「否定する」ことには価値があるかもしれない (デカルト) • 大分マーケティング寄り ◦ 「意思決定支援」という文脈が強いかも
  8. そも「サイエンス」とは? • 「すべてのアメリカ人のための科学」によれば「科学」的探求とは ◦ 科学は証拠を要求する ◦ 科学は論理と創造力の融合である ◦ 科学は説明し、予測する ◦

    科学は偏向を特定し、回避する ◦ 科学は権威ではない • 1個ずつ3点バーストしていきます。 ◦ 「すべてのアメリカ人のための科学」準拠で説明 ◦ たまにきぬいとの解釈が入る
  9. 科学は証拠を要求する • 証拠: 「なぜその主張が妥当か」に対する「答え」 ◦ 証拠の一形態が「データ」 ◦ 「データAが存在することから主張 A'が推論される」など •

    証拠の妥当性: 「観察」によって解決される ◦ 予測モデルとは「仮説」で、それの精度が仮説の「妥当性」 ◦ 仮説には「それが妥当である」ことを示す「証拠が」が必要 • 証拠が妥当でないときは? ◦ 証拠を得て主張して観察して新たな証拠を探す営みが ”PDCA” ◦ ビジネスも研究もそんな変わらないのでは?
  10. 科学は論理と創造力の融合である • 皆さん「論理的推論」してますか? ◦ ロジカルシンキング: 科学を知らないまま大人になった人の為に再発明された車輪の名前 • 科学的主張をするための「仮説の構築」は創造的な営為 ◦ データがあれば自然に生まれるものじゃあない

    ◦ データを眺めて因果を仮想し、構造を想像して得られる命題が「仮説」 • 仮説は検証されるもの ◦ 「支持されなければならないもの」 ではない ◦ 妥当かどうかを確かめることが可能な命題
  11. 科学は説明し、予測する • データサイエンスっぽい話 ◦ 結局「モデル」とは仮説を検証するための装置 ◦ それを構築するための「創造力」のある仮説は必要 • 現象を説明することができる ◦

    観測している現象を矛盾なく説明できる ◦ 「キャンペーンに興味を持ったから売上が伸びたんだ」など • 現象を予測することができる ◦ 「同じキャンペーンを行えば同じ程度売上が伸びるはずだ」など ▪ 実際こんな安直な予測は役に立たないが
  12. 科学は偏向を特定し回避する • 「キャンペーンが良かったから売上が伸びた」? ◦ クリエイティブ志向のマーケタにありがちな「偏向 (バイアス)」 ◦ 芸能人がインスタに上げたとか、異常気象だったとか、他の要因は考えられないか? • 人類は常にバイアスを伴って生きている

    ◦ 想定しうるバイアスには手を打っておきたい。 ◦ すなわち「仮説をもとに得られた結果」を自ら疑う • チームでやることの意義 ◦ いろいろなバイアスを想定できる。集合知ってすごいね。
  13. 科学は権威ではない • 偉い人の主張を疑う ◦ 「偉い人だから」という根拠は主張の証拠たり得ない ◦ 逆に「無名だから」という根拠も主張の反証たり得ない • 今「妥当」と考えられている科学も疑う ◦

    科学を「崇拝」してはいけない ◦ 今魔法扱いの「エーテル」も真面目に議論された元「科学」 • 権威を示すための科学に未来はない ◦ 権威とは無意識に我々の創造力を奪っていくバイアス
  14. いかがでしたか? • 「科学」を実践するために必要なことが分かってきましたね! ◦ 科学は証拠を要求する ◦ 科学は論理と創造力の融合である ◦ 科学は説明し、予測する ◦

    科学は偏向を特定し、回避する ◦ 科学は権威ではない • よくある反論「研究とビジネスは違う!」 ◦ ①「研究は利益目的ではないが、ビジネスは利益目的だ」 ◦ ②「科学の実践は必ずしもビジネスと対応しない」 • 反論への反論「そう信じたいんですね」
  15. 「研究とビジネスは違う」? • ①への反論「利益追求を前提にしても科学に必要な要素は必要である」 ◦ ビジネスにおいても主張には証拠が必要 ◦ ビジネスにおいても課題の解決戦略には創造力と論理を伴う ▪ そうでなければロジカルシンキングという車輪は再発明の必要がない ◦

    ビジネスで説明責任の問われない場は現実的ではない ◦ ビジネスでは想定される反論を回避する必要がある ◦ 役員の気分を良くするのがビジネスではない (そういう人はここから先聞かなくていい ) • ②への反論「①への反論をよく読んでほしい」 ◦ 「科学的実践と対応しないビジネス」は限られる ◦ クリエイティブだけでビジネスできますか?
  16. データサイエンスは科学か? • ビジネス的「答え」は「世の中すべてを説明する一般原則」でなくても良い ◦ 科学信仰あるある。究極の一般理論の構築 ◦ 夢があるが、科学の目的はそれだけではない • 「科学的実践が適用できない」わけじゃあない ◦

    科学的研究も、部分的な法則性や構造を明らかにする試みを統合することによって成立する • ビジネスにおけるデータサイエンス: 意思決定基準が非科学的 ◦ 「分析の結果が直感に合わない」←お前の直感ってなんだよ ◦ 「顧客の持ってる見立て と対応しない」←顧客の見立てそこまで信頼できるのか
  17. データサイエンスの2側面 • データ”を”「サイエンス」する分野 ◦ データ構造 ◦ 分析手法 ◦ 計算の効率化など ◦

    めちゃくちゃ楽しいけど今回はここの話は しません • データ”で”「サイエンス」する分野 ◦ 仮説定義の根拠がデータ ◦ 仮説検証の根拠がデータ ◦ 現代に存在する多くの科学がそれでは?
  18. データ「サイエンス」とは? • 例えばDatarobotさんはこう言っている ◦ Data science is the field of

    study that combines domain expertise, programming skills, and knowledge of math and statistics to extract meaningful insights from data. • データから意味のある事実を見つけるための技術・知識を探求する • ここで湧き出す疑問 ◦ 「意味のある事実(=価値のあるインサイト )」って何? ◦ それを「見つけるための技術・知識」って何?
  19. データ「サイエンス」とは? • この本にも書いてる→ ◦ データ主導による意思決定を実践したい人向け • この本でのデータサイエンスの定義 ◦ 「データを分析することで対象とする現象を 理解する」

    ◦ どうしたら対象とする現象を 理解したことになるのか? • 結局バズワード。統一見解は見つからず。
  20. データサイエンスは難しい • データから「意味のある事実」を「科学的に」発見するには? ◦ これがすごく難しい。 ◦ どこが? →「科学的な手続き」は「意味のある事実」を導く手続きではないところ • 科学的手続きは「仮説を検証する手段」でしかない

    ◦ えっ • そして仮説はデータから自然に現れるものじゃない ◦ うっ
  21. データサイエンスは科学じゃない • データ分析の本あるある: 仮説設定は範囲外 ◦ 環境構築: 「こうすれば動くよ!」実践書 ◦ 分析手法: 「こういう時に使えるよ」事例集

    ◦ 仮説設定: 「人の知性はすばらしい!」 詩集 • 「『仮説設定が大事』が胡散臭い」と思った時点でもはや科学じゃない ◦ 仮説の設定も科学の要素の一つ。 ◦ 詩集に基づいたエモーショナルな仮説が跋扈する業界 ▪ 「CMを観て爽快感を感じて買うことを証明したい」じゃあないんだよ ▪ 「Twitter経由で来る人が多いから Twitterの流行りに乗ろう」でもないんだよ。 ◦ こういうのを「データ サイエンス」とは呼んじゃあいけないッ
  22. 仮説の設定論理 • データ分析でコケるあるある: 仮説の設定論理が破綻している ◦ 「真偽が検証前にわかる仮説」は検証する必要はない。 ▪ 「毎年7〜8月に売れる」事実から「夏が売れ時である」という仮説を導けるが それは検証の余地なく真である(その上に根本的ではない )

    ◦ 「真偽がわからずとも検証のしようがない仮説」は検証できない ▪ 「CM変えたら売上伸びた」という事実から 「CMのメッセージがちゃんと届いた」という仮説は導けるし、真偽もわからないが (既存のデータに基づく )検証手段がない(アンケートによる追加検証は仮定の外 )。
  23. コケない仮説設定とは • 「仮説の真偽がはっきりする検証可能な仮説」がイデア ◦ しかし我々はイデアの「影」しか見られない (プラトーンの「洞窟の比喩」 ) ◦ つまり「こんな理想的な仮説なんて設定できない」! •

    とりわけ「真偽はっきり」というのが微妙 ◦ そんな簡単に真偽を分けられるワケがない • せめて「確かめられる」ことを仮説にしよう ◦ 「データがある」、最悪「データから論理的に演繹できる」
  24. まとめ • 「科学的」なデータサイエンスは高い利益をもたらしうる ◦ 多くのビジネスにおいては相性のよいプロセスである ◦ 実際的な価値の源泉は「データ分析」ではなくそこに至るまでの「思考」 • 科学的なデータ分析の価値の源泉は論理的な仮説である ◦

    人工知能研究が進んでも、ここのコストは小さくなれど 0にはならない(クソ予想) ◦ データを貯めて分析を自動化しても頭を使うことをやめてはいけない • 科学で金は稼げる。 ◦ 自分のデータ分析を「科学的に」疑え ◦ 学生諸君の学びは無駄にならない。学ぼう。