Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory Hour #41 データを集計したい
Search
Takato Shiroto
December 03, 2019
Science
0
94
Exploratory Hour #41 データを集計したい
2019/12/3(水)に行ったExploratory Hourのスライドです。
このスライドでは、集計 (Summarize)の基本的な使い方とよく使う関数について紹介しています。
Takato Shiroto
December 03, 2019
Tweet
Share
More Decks by Takato Shiroto
See All by Takato Shiroto
Exploratory v6.7の紹介
takatoshiroto
0
910
Exploratory v6.6の紹介
takatoshiroto
0
1.6k
Exploratory v6.5の紹介
takatoshiroto
0
5.1k
コンバージョン率と信頼区間の推移を可視化する方法
takatoshiroto
1
330
Exploratory Hour #104 - 別の列の値をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
0
220
Exploratory Hour #105 - 元のデータ順をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
1
280
Exploratory Hour #102 - complete関数を使って2つの時間の間の値を生成したい
takatoshiroto
0
120
Exploratory Hour #103 - 仕事の開始・終了時間データから、どの時間に何人働いているか知りたい
takatoshiroto
0
110
Exploratory v6.4の紹介
takatoshiroto
0
5.8k
Other Decks in Science
See All in Science
次代のデータサイエンティストへ~スキルチェックリスト、タスクリスト更新~
datascientistsociety
PRO
1
18k
機械学習 - 授業概要
trycycle
PRO
0
280
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
530
2025-06-11-ai_belgium
sofievl
1
210
KH Coderチュートリアル(スライド版)
koichih
1
54k
ランサムウェア対策にも考慮したVMware、Hyper-V、Azure、AWS間のリアルタイムレプリケーション「Zerto」を徹底解説
climbteam
0
170
AIによる科学の加速: 各領域での革新と共創の未来
masayamoriofficial
0
280
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
900
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
1k
高校生就活へのDA導入の提案
shunyanoda
0
6.1k
データマイニング - ノードの中心性
trycycle
PRO
0
320
HajimetenoLT vol.17
hashimoto_kei
1
110
Featured
See All Featured
Optimizing for Happiness
mojombo
379
70k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.6k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Testing 201, or: Great Expectations
jmmastey
46
7.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.6k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
[SF Ruby Conf 2025] Rails X
palkan
0
490
Transcript
EXPLORATORY 1
2 εϐʔΧʔ നށ ܟొ Customer Succes EXPLORATORY ུྺ େֶࡏֶதʹϑʔυϩεΛݮΒͨ͢ΊʹɺֶੜஂମΛ্ཱͪ͛දΛ ΊΔɻͦͷޙɺϏδωεΛΔͨΊʹԽֶϝʔΧʔͷσϡϙϯͱ
ϑʔυςοΫܥελʔτΞοϓͰӦۀͱϚʔέςΟϯάΛܦݧɻΞϓ ϦͷͷͨΊʹσʔλαΠΤϯε͕ඞཁͩͱײ͡ɺΞϓϦʹಛԽ ͨ͠ϢʔβʔͷߦಈੳπʔϧΛ։ൃ͢ΔاۀʹͯɺΞϓϦۀքͷ KPIੳͳͲΛ୲͢ΔɻݱࡏExploratory, Inc. ͰΧελϚʔαΫη εΛ୲͢ΔΒɺσʔλͷՄࢹԽͱ୳ࡧతσʔλੳΛઐͱͯ͠ σʔλαΠΤϯεͷීٴʹऔΓΉɻ @ShirotoTakato
Exploratory Hour
ࠓिͷ࣭ σʔλΛूܭ͍ͨ͠
Customer Name Sales Mike 34 Mike 26 Mike 36 5
ܭࢉΛ࡞ͷ߹1ߦ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿܭࢉΛ࡞ʢMutateʣ Customer Name Counts Sales_avg Mike 3 32 Mike 3 32 Mike 3 32
Customer Name counts Sales_avg Mike 3 32 Customer Name Sales
Mike 34 Mike 26 Mike 36 6 ूܭͷ߹ɺάϧʔϓ͝ͱʹ·ͱΊͯ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿूܭʢSummarizeʣ
7 ूܭʢSummarizeʣ
ؔ ఠཁ sum άϧʔϓͷதͷͷ߹ܭ n άϧʔϓͷதͷߦ n_distinct άϧʔϓͷதͷҰҙͷͷ mean άϧʔϓͷฏۉ
median άϧʔϓͷதԝ min άϧʔϓͷ࠷খ max άϧʔϓͷ࠷େ first άϧʔϓͷ࠷ॳͷ last άϧʔϓͷ࠷ޙͷ ूܭ ؔ 8
ؔ ఠཁ nth άϧʔϓͷN൪ͷ sd άϧʔϓͷඪ४ภࠩ var άϧʔϓͷࢄ IQR άϧʔϓͷ̐Ґൣғ(75%͔Β25%·Ͱ)
mad άϧʔϓͷฏۉઈରภࠩ na_count άϧʔϓͷܽଛͷ na_percent άϧʔϓͷܽଛͷׂ߹ ूܭ ؔ 9
• جຊతͳूܭؔʢߦͷɺ߹ܭɺฏۉɺҰҙͳͷʣ • ࠷සΛmodeؔͰٻΊΔ • ࠷ॳͷʢ࠷ޙͷʣͱ࠷খʢ࠷େʣͷҧ͍ • ϩδΧϧܕͷूܭؔʢTRUEͷɺTRUEͷׂ߹ʣ ूܭ (Summarize)
ച্σʔλ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ूܭ͍ͨ͠
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
15 εςοϓͷྻϔομϝχϡʔ͔Βूܭ (Summarize)Λબ͢Δ
16 ूܭͷμΠΞϩά͕දࣔ͞Εͨ
17 ʹߦͷΛબ͢Δ ϓϨϏϡʔը໘ʹબ͞Ε͕ͨදࣔ͞ ΕΔɻαϯϓϧ͞Εͨ5000ߦΛදࣔ͢Δ ͜ͱ͕Ͱ͖Δɻ
18 άϧʔϓԽʹCustomer IDΛબ͢Δ Customer ID͝ͱʹάϧʔϓԽͯ͠ɺ ߦͷΛूܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
20 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
21 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
22 ҰҙͳͷΛ༻͢Δͱɺॏෳͨ͠ΛΧϯτ ͤͣʹछྨͷΛٻΊΔ͜ͱ͕Ͱ͖Δ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike
ص Tom ϊʔτ Tom ϖϯ Tom ϊʔτ 3छྨ 2छྨ
23 ϓϥεϘλϯΛΫϦοΫͯ͠ΛՃ͢Δ
24 ʹSub-CategoryΛબͼɺूܭؔʹҰҙͳͷ (unique)Λબ͢Δ ߪങͨ͠αϒΧςΰϦʔͷछྨΛओ ܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
26 ʹSalesΛબͼɺूܭؔʹ߹ܭΛબ͢Δ ސ٬͝ͱʹച্ͷ߹ܭΛूܭ͢Δ ͜ͱ͕Ͱ͖ͨ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country Mike ??? Tom ??? ࠃΧςΰϦܕͷͨΊूܭͰ͖ͳ͍ʁ
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country_mode Mike Japan Tom US ࠷සʢmodeʣ
30 ʹCountryΛબͼɺूܭؔʹ࠷සΛબ͢Δ ސ٬ͷ࠷จճ͕ଟ͍ࠃ͕Ճ Θͬͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ސ٬͕࠷ॳʹߪೖͨ͠ΛٻΊ͍ͨ
33 ʹOrder DateΛબͼɺूܭؔʹ࠷ॳͷ(first)Λબ͢Δ
34 ຊʹ࠷ॳͷͰ͍͍ͷ͔ʁ
35 ͜ͷσʔλจͷঢॱʹฒͼସ͑͞Ε͍ͯͳ͍
࠷ॳͷ vs ࠷খ
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2015-12-3 ࠷ॳͷ(first)ͷ߹
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2014-7-14 ࠷খ(min)ͷ߹
39 ʹOrder DateΛબͼɺूܭؔʹ࠷খ(min)Λબ͢Δ ސ٬͕࠷ॳʹจ͕ͨ͠ूܭ ͞Εͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
41 ฦͷྻʹTRUE͔FALSEΛͱΔϩδΧϧܕͷྻ
ϩδΧϧܕͷूܭؔ
• TRUEͷ(FALSEͷ) • TRUEͷׂ߹(FASLEͷׂ߹) ϩδΧϧܕͷूܭؔ
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 2 TRUEͷͷ߹
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 0.6666 TRUEͷׂ߹ (%)ͷ߹
46 ʹReturnedΛબͼɺूܭؔʹTRUEͷΛબ͢Δ
ूܭ͢Δ͜ͱ͕Ͱ͖ͨ
Q&A
None
None
None
Contact Email
[email protected]
Twitter Hashtag #ExploratoryHour ͰπΠʔτʂ Twitter @ExploratoryJp Exploratory
Hour https://bit.ly/30odd9q