Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory Hour #41 データを集計したい
Search
Takato Shiroto
December 03, 2019
Science
0
93
Exploratory Hour #41 データを集計したい
2019/12/3(水)に行ったExploratory Hourのスライドです。
このスライドでは、集計 (Summarize)の基本的な使い方とよく使う関数について紹介しています。
Takato Shiroto
December 03, 2019
Tweet
Share
More Decks by Takato Shiroto
See All by Takato Shiroto
Exploratory v6.7の紹介
takatoshiroto
0
910
Exploratory v6.6の紹介
takatoshiroto
0
1.6k
Exploratory v6.5の紹介
takatoshiroto
0
5.1k
コンバージョン率と信頼区間の推移を可視化する方法
takatoshiroto
1
320
Exploratory Hour #104 - 別の列の値をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
0
210
Exploratory Hour #105 - 元のデータ順をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
1
280
Exploratory Hour #102 - complete関数を使って2つの時間の間の値を生成したい
takatoshiroto
0
120
Exploratory Hour #103 - 仕事の開始・終了時間データから、どの時間に何人働いているか知りたい
takatoshiroto
0
110
Exploratory v6.4の紹介
takatoshiroto
0
5.8k
Other Decks in Science
See All in Science
Text-to-SQLの既存の評価指標を問い直す
gotalab555
1
110
タンパク質間相互作⽤を利⽤した⼈⼯知能による新しい薬剤遺伝⼦-疾患相互作⽤の同定
tagtag
0
100
防災デジタル分野での官民共創の取り組み (1)防災DX官民共創をどう進めるか
ditccsugii
0
350
データベース14: B+木 & ハッシュ索引
trycycle
PRO
0
500
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
870
高校生就活へのDA導入の提案
shunyanoda
0
6k
機械学習 - pandas入門
trycycle
PRO
0
340
AIによる科学の加速: 各領域での革新と共創の未来
masayamoriofficial
0
230
MCMCのR-hatは分散分析である
moricup
0
490
データベース15: ビッグデータ時代のデータベース
trycycle
PRO
0
380
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
1
210
Hakonwa-Quaternion
hiranabe
1
150
Featured
See All Featured
How to Ace a Technical Interview
jacobian
280
24k
Unsuck your backbone
ammeep
671
58k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
658
61k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Gamification - CAS2011
davidbonilla
81
5.5k
Visualization
eitanlees
150
16k
Code Reviewing Like a Champion
maltzj
526
40k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Thoughts on Productivity
jonyablonski
73
4.9k
Transcript
EXPLORATORY 1
2 εϐʔΧʔ നށ ܟొ Customer Succes EXPLORATORY ུྺ େֶࡏֶதʹϑʔυϩεΛݮΒͨ͢ΊʹɺֶੜஂମΛ্ཱͪ͛දΛ ΊΔɻͦͷޙɺϏδωεΛΔͨΊʹԽֶϝʔΧʔͷσϡϙϯͱ
ϑʔυςοΫܥελʔτΞοϓͰӦۀͱϚʔέςΟϯάΛܦݧɻΞϓ ϦͷͷͨΊʹσʔλαΠΤϯε͕ඞཁͩͱײ͡ɺΞϓϦʹಛԽ ͨ͠ϢʔβʔͷߦಈੳπʔϧΛ։ൃ͢ΔاۀʹͯɺΞϓϦۀքͷ KPIੳͳͲΛ୲͢ΔɻݱࡏExploratory, Inc. ͰΧελϚʔαΫη εΛ୲͢ΔΒɺσʔλͷՄࢹԽͱ୳ࡧతσʔλੳΛઐͱͯ͠ σʔλαΠΤϯεͷීٴʹऔΓΉɻ @ShirotoTakato
Exploratory Hour
ࠓिͷ࣭ σʔλΛूܭ͍ͨ͠
Customer Name Sales Mike 34 Mike 26 Mike 36 5
ܭࢉΛ࡞ͷ߹1ߦ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿܭࢉΛ࡞ʢMutateʣ Customer Name Counts Sales_avg Mike 3 32 Mike 3 32 Mike 3 32
Customer Name counts Sales_avg Mike 3 32 Customer Name Sales
Mike 34 Mike 26 Mike 36 6 ूܭͷ߹ɺάϧʔϓ͝ͱʹ·ͱΊͯ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿूܭʢSummarizeʣ
7 ूܭʢSummarizeʣ
ؔ ఠཁ sum άϧʔϓͷதͷͷ߹ܭ n άϧʔϓͷதͷߦ n_distinct άϧʔϓͷதͷҰҙͷͷ mean άϧʔϓͷฏۉ
median άϧʔϓͷதԝ min άϧʔϓͷ࠷খ max άϧʔϓͷ࠷େ first άϧʔϓͷ࠷ॳͷ last άϧʔϓͷ࠷ޙͷ ूܭ ؔ 8
ؔ ఠཁ nth άϧʔϓͷN൪ͷ sd άϧʔϓͷඪ४ภࠩ var άϧʔϓͷࢄ IQR άϧʔϓͷ̐Ґൣғ(75%͔Β25%·Ͱ)
mad άϧʔϓͷฏۉઈରภࠩ na_count άϧʔϓͷܽଛͷ na_percent άϧʔϓͷܽଛͷׂ߹ ूܭ ؔ 9
• جຊతͳूܭؔʢߦͷɺ߹ܭɺฏۉɺҰҙͳͷʣ • ࠷සΛmodeؔͰٻΊΔ • ࠷ॳͷʢ࠷ޙͷʣͱ࠷খʢ࠷େʣͷҧ͍ • ϩδΧϧܕͷूܭؔʢTRUEͷɺTRUEͷׂ߹ʣ ूܭ (Summarize)
ച্σʔλ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ूܭ͍ͨ͠
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
15 εςοϓͷྻϔομϝχϡʔ͔Βूܭ (Summarize)Λબ͢Δ
16 ूܭͷμΠΞϩά͕දࣔ͞Εͨ
17 ʹߦͷΛબ͢Δ ϓϨϏϡʔը໘ʹબ͞Ε͕ͨදࣔ͞ ΕΔɻαϯϓϧ͞Εͨ5000ߦΛදࣔ͢Δ ͜ͱ͕Ͱ͖Δɻ
18 άϧʔϓԽʹCustomer IDΛબ͢Δ Customer ID͝ͱʹάϧʔϓԽͯ͠ɺ ߦͷΛूܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
20 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
21 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
22 ҰҙͳͷΛ༻͢Δͱɺॏෳͨ͠ΛΧϯτ ͤͣʹछྨͷΛٻΊΔ͜ͱ͕Ͱ͖Δ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike
ص Tom ϊʔτ Tom ϖϯ Tom ϊʔτ 3छྨ 2छྨ
23 ϓϥεϘλϯΛΫϦοΫͯ͠ΛՃ͢Δ
24 ʹSub-CategoryΛબͼɺूܭؔʹҰҙͳͷ (unique)Λબ͢Δ ߪങͨ͠αϒΧςΰϦʔͷछྨΛओ ܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
26 ʹSalesΛબͼɺूܭؔʹ߹ܭΛબ͢Δ ސ٬͝ͱʹച্ͷ߹ܭΛूܭ͢Δ ͜ͱ͕Ͱ͖ͨ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country Mike ??? Tom ??? ࠃΧςΰϦܕͷͨΊूܭͰ͖ͳ͍ʁ
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country_mode Mike Japan Tom US ࠷සʢmodeʣ
30 ʹCountryΛબͼɺूܭؔʹ࠷සΛબ͢Δ ސ٬ͷ࠷จճ͕ଟ͍ࠃ͕Ճ Θͬͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ސ٬͕࠷ॳʹߪೖͨ͠ΛٻΊ͍ͨ
33 ʹOrder DateΛબͼɺूܭؔʹ࠷ॳͷ(first)Λબ͢Δ
34 ຊʹ࠷ॳͷͰ͍͍ͷ͔ʁ
35 ͜ͷσʔλจͷঢॱʹฒͼସ͑͞Ε͍ͯͳ͍
࠷ॳͷ vs ࠷খ
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2015-12-3 ࠷ॳͷ(first)ͷ߹
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2014-7-14 ࠷খ(min)ͷ߹
39 ʹOrder DateΛબͼɺूܭؔʹ࠷খ(min)Λબ͢Δ ސ٬͕࠷ॳʹจ͕ͨ͠ूܭ ͞Εͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
41 ฦͷྻʹTRUE͔FALSEΛͱΔϩδΧϧܕͷྻ
ϩδΧϧܕͷूܭؔ
• TRUEͷ(FALSEͷ) • TRUEͷׂ߹(FASLEͷׂ߹) ϩδΧϧܕͷूܭؔ
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 2 TRUEͷͷ߹
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 0.6666 TRUEͷׂ߹ (%)ͷ߹
46 ʹReturnedΛબͼɺूܭؔʹTRUEͷΛબ͢Δ
ूܭ͢Δ͜ͱ͕Ͱ͖ͨ
Q&A
None
None
None
Contact Email
[email protected]
Twitter Hashtag #ExploratoryHour ͰπΠʔτʂ Twitter @ExploratoryJp Exploratory
Hour https://bit.ly/30odd9q