Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンスブートキャンプ参加報告_石村
Search
a-ishimura
August 07, 2019
0
250
データサイエンスブートキャンプ参加報告_石村
https://data-science-discussion.connpass.com/event/139999/
での発表資料
a-ishimura
August 07, 2019
Tweet
Share
More Decks by a-ishimura
See All by a-ishimura
データを使ったメンバーのストレス状態のモニタリング
aishimura
0
69
データサイエンス勉強会_SQL
aishimura
0
34
Featured
See All Featured
Debugging Ruby Performance
tmm1
68
11k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
1
3.3k
RailsConf 2023
tenderlove
0
510
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
6
950
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
5
1.4k
We Have a Design System, Now What?
morganepeng
42
6.7k
Fireside Chat
paigeccino
19
2.6k
Reflections from 52 weeks, 52 projects
jeffersonlam
343
19k
Imperfection Machines: The Place of Print at Facebook
scottboms
257
12k
GitHub's CSS Performance
jonrohan
1023
450k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
39
4.3k
Transcript
データサイエンスブートキャンプ 参加報告 2019/8/7 データサイエンス勉強会 第8回
自己紹介 • 石村 麻莉彩 – いしむら ありさ • GxP(株) –
職業:ITエンジニア – 役割:顧客と開発チームの間にいる人 • データサイエンスは? – 顧客のお悩みはこの分野増えてる – 少しずつ絡めていきたいけどまだお遊 び程度 Copyright© Growth xPartners, Inc. All rights reserved. 1
Copyright© Growth xPartners, Inc. All rights reserved. 2 趣味はチロルチョコの布教活動
アジェンダ • どんな勉強会だったのか • 受講の背景 • 面白かったところ –それぞれから話します! Copyright© Growth
xPartners, Inc. All rights reserved. 3
どんな勉強会だったのか Copyright© Growth xPartners, Inc. All rights reserved. 4
Exploratory • データ分析ツールの開発 –R言語をベースにしている –ビジネスユーザーが自分でやるのが一番イイよね! をモットーに基本ノンプログラミングでできる • データサイエンスの普及と教育 –普段はアメリカのシリコンバレーにいる方が、不定 期に来日してブートキャンプなどを開催
Copyright© Growth xPartners, Inc. All rights reserved. 5
データサイエンス・ブートキャンプ • 3日間かけて基礎から学べる –平日版と週末版がある –9時から18時まで • データサイエンスの基礎知識を身に付けられる –データサイエンスってなにするのか –統計基礎 –可視化のやり方
Copyright© Growth xPartners, Inc. All rights reserved. 6
データサイエンス・ブートキャンプ • 講義→実践の繰り返し –実践では隣の人と一緒に検討もする –一人で本や動画見てるだけではできない学び • Exploratoryのツールは使うが、ツールを使わ なくても必要な知識を得られる Copyright© Growth
xPartners, Inc. All rights reserved. 7
データサイエンス・ブートキャンプ • 次回は11月だそうです –https://exploratory.io/training-jp Copyright© Growth xPartners, Inc. All rights
reserved. 8
受講の背景 Copyright© Growth xPartners, Inc. All rights reserved. 9
グロースエクスパートナーズ(株) • 会社概要 –設立:2008年7月4日 –本社所在地:西新宿の野村ビル –主要事業分野 » グループ各社の経営 –関連会社が7社 »
システムインテグレーション事業 » クリエイティブ・プロデュース事業 » 飲食事業など Copyright© Growth xPartners, Inc. All rights reserved. 10
Copyright© Growth xPartners, Inc. All rights reserved. 11
(株)GxP • 会社概要 –グロースエクスパートナーズの完全子会社 –設立:2018年11月1日 –本社所在地:西新宿の野村ビル –主要事業分野 » システムインテグレーション事業 »
コンサルティング事業 –エンタープライズ案件が中心 Copyright© Growth xPartners, Inc. All rights reserved. 12
受講した人 • (初)高田 康宏 • (初)木村 珠望 • (再)石村 麻莉彩
Copyright© Growth xPartners, Inc. All rights reserved. 13
受講の経緯 • 顧客のデータの活用はずっと前から課題 –検索やマッチングをいい感じにしたい –顧客の購買データ等は蓄積されているが活用できて いない –人間の判断を自動化していきたい Copyright© Growth xPartners,
Inc. All rights reserved. 14
受講の経緯 • 積極的に予算取って課題解消に動く案件は少な かった –GxP側 » 経験者がいなくて提案できていなかった –顧客側 » ほかに優先する課題があった
» 自分たちでは解消できず、他にいい相談相手もいなかった Copyright© Growth xPartners, Inc. All rights reserved. 15
初回の受講 • 2017年6月に石村がひとりで受講 • 開催を知ってた鈴木雄介さん(当時の上司的な 人)から声がかかった • 自身のキャリアにも悩んでいたので受講 –RDBチョットデキル人だったけど限界を感じていた –インフラ方面弱いし興味ないので伸び悩み
–顧客とチームの間にいる立場でより役に立つスキル を模索していた Copyright© Growth xPartners, Inc. All rights reserved. 16
初回の受講 • 当時はこの勉強会は初めての開催だった • 今より、知識<まず手を動かせる が重視され ていた印象 Copyright© Growth xPartners,
Inc. All rights reserved. 17
初回の受講後 • 受講後、顧客向けの仕事に使えない –とりあえず手を動かしてなんか出すことはできる –顧客向けの仕事でいい加減な提案できない » 「なんかこんな数字が出て、よくわかんないけどこういう ことらしいんです、よくわかんないけど…」でお金くださ いなんて言えない –ささやかに自分の仕事で使ったり、お遊びで少しや
る程度 理屈がちゃんと知りたい!!!!! Copyright© Growth xPartners, Inc. All rights reserved. 18
初回の受講後 • そのころ再受講のお誘いが –最近は統計基礎を結構しっかりやってるらしい –再受講割をはじめるらしい Copyright© Growth xPartners, Inc. All
rights reserved. 19
巻き込まれた人 • (初)高田 康宏 • (初)木村 珠望 • (再)石村 麻莉彩
Copyright© Growth xPartners, Inc. All rights reserved. 20
面白かったところ Copyright© Growth xPartners, Inc. All rights reserved. 21
中心極限定理 Copyright© Growth xPartners, Inc. All rights reserved. 22
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 23
中心極限定理 わかったつもりだった • データが少ないと「ホントの平均はここかもし んない」と考えられる範囲が広くなるやつ • データの少ない/多いによる影響を納得するため に知っておくやつ Copyright© Growth
xPartners, Inc. All rights reserved. 24
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 25
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 26
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 27
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 28
中心極限定理 受講前の自分がこれをどうとらえるか? • なんか人数じゃない要因がある気がする • このデータだけではわからない気がする • とりあえず立てられてる仮説である人数との相 関関係とか見てみる? Copyright©
Growth xPartners, Inc. All rights reserved. 29
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 30
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 31
中心極限定理 この現象に中心極限定理をあてはめられない • 「わかってなかった」というより、その知識を ここにあてはめられない • 「わかる」と「できる(使える)」の違いを感 じた Copyright© Growth
xPartners, Inc. All rights reserved. 32
対数正規分布 Copyright© Growth xPartners, Inc. All rights reserved. 33
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 34
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 35
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 36
対数正規分布 計算上の問題なだけだと思っていた • 正規分布するデータを前提とした分析手法では 、正規分布しないデータをうまく扱えない • 対数を取ると正規分布するデータは、対数を取 ることでうまく扱えるようになる • つまり、モデルが実際の値に近くなりやすいと
解釈していた • それが予測値だった場合でも、計算すれば元の 単位に戻せるし Copyright© Growth xPartners, Inc. All rights reserved. 37
対数正規分布 実際、対数を取ると予測精度が上がった • suumoの予測精度を競い合うイベントに参加し た • Kagglerが優勝 • 予測値は土地の価格だったが、対数を取ること で精度を上げていた
• 選択したアルゴリズムは多少違ったが、自分も 真似したら精度が上がった Copyright© Growth xPartners, Inc. All rights reserved. 38
対数正規分布 でもそれってどういうことなの? • ヒストグラム見てロングテールだったらとりあ えず対数取ればいいのか • モデルが実際の値に近い線を描いたり、予測精 度が上がればそれが正解なのか 説明できない! Copyright©
Growth xPartners, Inc. All rights reserved. 39
対数正規分布 それじゃ統計的手法使う意味なくない? • 統計:結果にどのパラメータがどう影響するか 知りたい Copyright© Growth xPartners, Inc. All
rights reserved. 40 パラメータ 結果(予測値) 統計 精度より説明力 どのパラメータがどう変われば この結果がどう変化しそう? テキトーじゃダメ。 きちんと選んできちん と処理する。
対数正規分布 それじゃ統計的手法使う意味なくない? • 機械学習:ブラックボックスでいいから予測や 分類をしたい Copyright© Growth xPartners, Inc. All
rights reserved. 41 パラメータ 機械学習 結果(予測値) とにかくここがいい感 じになればいいよ! どう影響したかは雰囲 気でオッケー 98%当てるけど当たら ない2%がどういう場 合かは運まかせ
対数正規分布 それじゃ統計的手法使う意味なくない? • 統計:結果にどのパラメータがどう影響するか 知りたい Copyright© Growth xPartners, Inc. All
rights reserved. 42 パラメータ 結果(予測値) 統計 精度より説明力 どのパラメータがどう変われば この結果がどう変化しそう? テキトーじゃダメ。 きちんと選んできちん と処理する。 これ説明できなくていいなら機 械学習使った方がよくない?
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 43
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 44
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 45
対数正規分布 でもそれってどういうことなの? • ヒストグラム見てロングテールだったらとりあ えず対数取ればいいのか →積として成り立っていそうかどうかという基準 があった • モデルが実際の値に近い線を描いたり、予測精 度が上がればそれが正解なのか
→上記の理屈にあてはまりそうにない場合は精度 が上がるからやればいいってもんではなさそう (とはいえ目的が予測ならそれでもいいかも) Copyright© Growth xPartners, Inc. All rights reserved. 46
まとめ Copyright© Growth xPartners, Inc. All rights reserved. 47
まとめ • 参加してよかった • 統計のベースにある考え方を改めて認識できた • このあとの自習も理解が進みそう • これまでにやってみたものを見直したり、EDA Salonで練習すれば、顧客への提案や説明もで
きるかも!と思えた • 基礎が腹落ちするの大事 Copyright© Growth xPartners, Inc. All rights reserved. 48
まとめ EDA Salonって? • EDA(Exploratory Data Analysis) 探索的データ分析 • Exploratoryのスタッフが毎月お題を出して、
オンラインでみんなの分析結果を共有するやつ • 7月から始まった。8月から参加する予定。 https://exploratory.io/note/kanaugust/EDA- Salon-crT4VNp7aa Copyright© Growth xPartners, Inc. All rights reserved. 49
まとめ • 懇親会で得たものも多い –遊びでやった電車遅延ツイートのクラスタリングも アドバイスもらえたので改善してみたい –案件で使っているツールのOCRの精度が低い話をポ ロっとしたら、GoogleのVision APIの精度がめっち ゃ高いことを教えてもらって楽しかった –学生が自腹で参加しててフレッシュなやる気に刺激
を受けた –などなど、みなさん背景が様々で良い刺激が多い Copyright© Growth xPartners, Inc. All rights reserved. 50
まとめ • 次回は11月だそうです! –https://exploratory.io/training-jp Copyright© Growth xPartners, Inc. All rights
reserved. 51