Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンスブートキャンプ参加報告_石村
Search
a-ishimura
August 07, 2019
0
300
データサイエンスブートキャンプ参加報告_石村
https://data-science-discussion.connpass.com/event/139999/
での発表資料
a-ishimura
August 07, 2019
Tweet
Share
More Decks by a-ishimura
See All by a-ishimura
データを使ったメンバーのストレス状態のモニタリング
aishimura
0
80
データサイエンス勉強会_SQL
aishimura
0
41
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
The Pragmatic Product Professional
lauravandoore
35
6.7k
Become a Pro
speakerdeck
PRO
28
5.4k
A better future with KSS
kneath
239
17k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Facilitating Awesome Meetings
lara
54
6.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
17
940
How STYLIGHT went responsive
nonsquared
100
5.6k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
GitHub's CSS Performance
jonrohan
1031
460k
Balancing Empowerment & Direction
lara
1
370
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Transcript
データサイエンスブートキャンプ 参加報告 2019/8/7 データサイエンス勉強会 第8回
自己紹介 • 石村 麻莉彩 – いしむら ありさ • GxP(株) –
職業:ITエンジニア – 役割:顧客と開発チームの間にいる人 • データサイエンスは? – 顧客のお悩みはこの分野増えてる – 少しずつ絡めていきたいけどまだお遊 び程度 Copyright© Growth xPartners, Inc. All rights reserved. 1
Copyright© Growth xPartners, Inc. All rights reserved. 2 趣味はチロルチョコの布教活動
アジェンダ • どんな勉強会だったのか • 受講の背景 • 面白かったところ –それぞれから話します! Copyright© Growth
xPartners, Inc. All rights reserved. 3
どんな勉強会だったのか Copyright© Growth xPartners, Inc. All rights reserved. 4
Exploratory • データ分析ツールの開発 –R言語をベースにしている –ビジネスユーザーが自分でやるのが一番イイよね! をモットーに基本ノンプログラミングでできる • データサイエンスの普及と教育 –普段はアメリカのシリコンバレーにいる方が、不定 期に来日してブートキャンプなどを開催
Copyright© Growth xPartners, Inc. All rights reserved. 5
データサイエンス・ブートキャンプ • 3日間かけて基礎から学べる –平日版と週末版がある –9時から18時まで • データサイエンスの基礎知識を身に付けられる –データサイエンスってなにするのか –統計基礎 –可視化のやり方
Copyright© Growth xPartners, Inc. All rights reserved. 6
データサイエンス・ブートキャンプ • 講義→実践の繰り返し –実践では隣の人と一緒に検討もする –一人で本や動画見てるだけではできない学び • Exploratoryのツールは使うが、ツールを使わ なくても必要な知識を得られる Copyright© Growth
xPartners, Inc. All rights reserved. 7
データサイエンス・ブートキャンプ • 次回は11月だそうです –https://exploratory.io/training-jp Copyright© Growth xPartners, Inc. All rights
reserved. 8
受講の背景 Copyright© Growth xPartners, Inc. All rights reserved. 9
グロースエクスパートナーズ(株) • 会社概要 –設立:2008年7月4日 –本社所在地:西新宿の野村ビル –主要事業分野 » グループ各社の経営 –関連会社が7社 »
システムインテグレーション事業 » クリエイティブ・プロデュース事業 » 飲食事業など Copyright© Growth xPartners, Inc. All rights reserved. 10
Copyright© Growth xPartners, Inc. All rights reserved. 11
(株)GxP • 会社概要 –グロースエクスパートナーズの完全子会社 –設立:2018年11月1日 –本社所在地:西新宿の野村ビル –主要事業分野 » システムインテグレーション事業 »
コンサルティング事業 –エンタープライズ案件が中心 Copyright© Growth xPartners, Inc. All rights reserved. 12
受講した人 • (初)高田 康宏 • (初)木村 珠望 • (再)石村 麻莉彩
Copyright© Growth xPartners, Inc. All rights reserved. 13
受講の経緯 • 顧客のデータの活用はずっと前から課題 –検索やマッチングをいい感じにしたい –顧客の購買データ等は蓄積されているが活用できて いない –人間の判断を自動化していきたい Copyright© Growth xPartners,
Inc. All rights reserved. 14
受講の経緯 • 積極的に予算取って課題解消に動く案件は少な かった –GxP側 » 経験者がいなくて提案できていなかった –顧客側 » ほかに優先する課題があった
» 自分たちでは解消できず、他にいい相談相手もいなかった Copyright© Growth xPartners, Inc. All rights reserved. 15
初回の受講 • 2017年6月に石村がひとりで受講 • 開催を知ってた鈴木雄介さん(当時の上司的な 人)から声がかかった • 自身のキャリアにも悩んでいたので受講 –RDBチョットデキル人だったけど限界を感じていた –インフラ方面弱いし興味ないので伸び悩み
–顧客とチームの間にいる立場でより役に立つスキル を模索していた Copyright© Growth xPartners, Inc. All rights reserved. 16
初回の受講 • 当時はこの勉強会は初めての開催だった • 今より、知識<まず手を動かせる が重視され ていた印象 Copyright© Growth xPartners,
Inc. All rights reserved. 17
初回の受講後 • 受講後、顧客向けの仕事に使えない –とりあえず手を動かしてなんか出すことはできる –顧客向けの仕事でいい加減な提案できない » 「なんかこんな数字が出て、よくわかんないけどこういう ことらしいんです、よくわかんないけど…」でお金くださ いなんて言えない –ささやかに自分の仕事で使ったり、お遊びで少しや
る程度 理屈がちゃんと知りたい!!!!! Copyright© Growth xPartners, Inc. All rights reserved. 18
初回の受講後 • そのころ再受講のお誘いが –最近は統計基礎を結構しっかりやってるらしい –再受講割をはじめるらしい Copyright© Growth xPartners, Inc. All
rights reserved. 19
巻き込まれた人 • (初)高田 康宏 • (初)木村 珠望 • (再)石村 麻莉彩
Copyright© Growth xPartners, Inc. All rights reserved. 20
面白かったところ Copyright© Growth xPartners, Inc. All rights reserved. 21
中心極限定理 Copyright© Growth xPartners, Inc. All rights reserved. 22
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 23
中心極限定理 わかったつもりだった • データが少ないと「ホントの平均はここかもし んない」と考えられる範囲が広くなるやつ • データの少ない/多いによる影響を納得するため に知っておくやつ Copyright© Growth
xPartners, Inc. All rights reserved. 24
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 25
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 26
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 27
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 28
中心極限定理 受講前の自分がこれをどうとらえるか? • なんか人数じゃない要因がある気がする • このデータだけではわからない気がする • とりあえず立てられてる仮説である人数との相 関関係とか見てみる? Copyright©
Growth xPartners, Inc. All rights reserved. 29
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 30
中心極限定理 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 31
中心極限定理 この現象に中心極限定理をあてはめられない • 「わかってなかった」というより、その知識を ここにあてはめられない • 「わかる」と「できる(使える)」の違いを感 じた Copyright© Growth
xPartners, Inc. All rights reserved. 32
対数正規分布 Copyright© Growth xPartners, Inc. All rights reserved. 33
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 34
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 35
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 36
対数正規分布 計算上の問題なだけだと思っていた • 正規分布するデータを前提とした分析手法では 、正規分布しないデータをうまく扱えない • 対数を取ると正規分布するデータは、対数を取 ることでうまく扱えるようになる • つまり、モデルが実際の値に近くなりやすいと
解釈していた • それが予測値だった場合でも、計算すれば元の 単位に戻せるし Copyright© Growth xPartners, Inc. All rights reserved. 37
対数正規分布 実際、対数を取ると予測精度が上がった • suumoの予測精度を競い合うイベントに参加し た • Kagglerが優勝 • 予測値は土地の価格だったが、対数を取ること で精度を上げていた
• 選択したアルゴリズムは多少違ったが、自分も 真似したら精度が上がった Copyright© Growth xPartners, Inc. All rights reserved. 38
対数正規分布 でもそれってどういうことなの? • ヒストグラム見てロングテールだったらとりあ えず対数取ればいいのか • モデルが実際の値に近い線を描いたり、予測精 度が上がればそれが正解なのか 説明できない! Copyright©
Growth xPartners, Inc. All rights reserved. 39
対数正規分布 それじゃ統計的手法使う意味なくない? • 統計:結果にどのパラメータがどう影響するか 知りたい Copyright© Growth xPartners, Inc. All
rights reserved. 40 パラメータ 結果(予測値) 統計 精度より説明力 どのパラメータがどう変われば この結果がどう変化しそう? テキトーじゃダメ。 きちんと選んできちん と処理する。
対数正規分布 それじゃ統計的手法使う意味なくない? • 機械学習:ブラックボックスでいいから予測や 分類をしたい Copyright© Growth xPartners, Inc. All
rights reserved. 41 パラメータ 機械学習 結果(予測値) とにかくここがいい感 じになればいいよ! どう影響したかは雰囲 気でオッケー 98%当てるけど当たら ない2%がどういう場 合かは運まかせ
対数正規分布 それじゃ統計的手法使う意味なくない? • 統計:結果にどのパラメータがどう影響するか 知りたい Copyright© Growth xPartners, Inc. All
rights reserved. 42 パラメータ 結果(予測値) 統計 精度より説明力 どのパラメータがどう変われば この結果がどう変化しそう? テキトーじゃダメ。 きちんと選んできちん と処理する。 これ説明できなくていいなら機 械学習使った方がよくない?
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 43
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 44
対数正規分布 ※受講時の資料より引用 Copyright© Growth xPartners, Inc. All rights reserved. 45
対数正規分布 でもそれってどういうことなの? • ヒストグラム見てロングテールだったらとりあ えず対数取ればいいのか →積として成り立っていそうかどうかという基準 があった • モデルが実際の値に近い線を描いたり、予測精 度が上がればそれが正解なのか
→上記の理屈にあてはまりそうにない場合は精度 が上がるからやればいいってもんではなさそう (とはいえ目的が予測ならそれでもいいかも) Copyright© Growth xPartners, Inc. All rights reserved. 46
まとめ Copyright© Growth xPartners, Inc. All rights reserved. 47
まとめ • 参加してよかった • 統計のベースにある考え方を改めて認識できた • このあとの自習も理解が進みそう • これまでにやってみたものを見直したり、EDA Salonで練習すれば、顧客への提案や説明もで
きるかも!と思えた • 基礎が腹落ちするの大事 Copyright© Growth xPartners, Inc. All rights reserved. 48
まとめ EDA Salonって? • EDA(Exploratory Data Analysis) 探索的データ分析 • Exploratoryのスタッフが毎月お題を出して、
オンラインでみんなの分析結果を共有するやつ • 7月から始まった。8月から参加する予定。 https://exploratory.io/note/kanaugust/EDA- Salon-crT4VNp7aa Copyright© Growth xPartners, Inc. All rights reserved. 49
まとめ • 懇親会で得たものも多い –遊びでやった電車遅延ツイートのクラスタリングも アドバイスもらえたので改善してみたい –案件で使っているツールのOCRの精度が低い話をポ ロっとしたら、GoogleのVision APIの精度がめっち ゃ高いことを教えてもらって楽しかった –学生が自腹で参加しててフレッシュなやる気に刺激
を受けた –などなど、みなさん背景が様々で良い刺激が多い Copyright© Growth xPartners, Inc. All rights reserved. 50
まとめ • 次回は11月だそうです! –https://exploratory.io/training-jp Copyright© Growth xPartners, Inc. All rights
reserved. 51