Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory Hour #41 データを集計したい
Search
Takato Shiroto
December 03, 2019
Science
0
91
Exploratory Hour #41 データを集計したい
2019/12/3(水)に行ったExploratory Hourのスライドです。
このスライドでは、集計 (Summarize)の基本的な使い方とよく使う関数について紹介しています。
Takato Shiroto
December 03, 2019
Tweet
Share
More Decks by Takato Shiroto
See All by Takato Shiroto
Exploratory v6.7の紹介
takatoshiroto
0
900
Exploratory v6.6の紹介
takatoshiroto
0
1.6k
Exploratory v6.5の紹介
takatoshiroto
0
5.1k
コンバージョン率と信頼区間の推移を可視化する方法
takatoshiroto
1
320
Exploratory Hour #104 - 別の列の値をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
0
200
Exploratory Hour #105 - 元のデータ順をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
1
260
Exploratory Hour #102 - complete関数を使って2つの時間の間の値を生成したい
takatoshiroto
0
120
Exploratory Hour #103 - 仕事の開始・終了時間データから、どの時間に何人働いているか知りたい
takatoshiroto
0
110
Exploratory v6.4の紹介
takatoshiroto
0
5.8k
Other Decks in Science
See All in Science
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
680
実力評価性能を考慮した弓道高校生全国大会の大会制度設計の提案 / (konakalab presentation at MSS 2025.03)
konakalab
2
170
テンソル分解による糖尿病の組織特異的遺伝子発現の統合解析を用いた関連疾患の予測
tagtag
2
190
02_西村訓弘_プログラムディレクター_人口減少を機にひらく未来社会.pdf
sip3ristex
0
480
データマイニング - グラフデータと経路
trycycle
PRO
1
130
Hakonwa-Quaternion
hiranabe
1
100
Quelles valorisations des logiciels vers le monde socio-économique dans un contexte de Science Ouverte ?
bluehats
1
390
データベース05: SQL(2/3) 結合質問
trycycle
PRO
0
700
Ignite の1年間の軌跡
ktombow
0
130
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
890
2025-06-11-ai_belgium
sofievl
1
110
Transport information Geometry: Current and Future II
lwc2017
0
150
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
How GitHub (no longer) Works
holman
314
140k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
The Cost Of JavaScript in 2023
addyosmani
51
8.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
16
940
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Six Lessons from altMBA
skipperchong
28
3.8k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
32
5.9k
The Cult of Friendly URLs
andyhume
79
6.4k
Transcript
EXPLORATORY 1
2 εϐʔΧʔ നށ ܟొ Customer Succes EXPLORATORY ུྺ େֶࡏֶதʹϑʔυϩεΛݮΒͨ͢ΊʹɺֶੜஂମΛ্ཱͪ͛දΛ ΊΔɻͦͷޙɺϏδωεΛΔͨΊʹԽֶϝʔΧʔͷσϡϙϯͱ
ϑʔυςοΫܥελʔτΞοϓͰӦۀͱϚʔέςΟϯάΛܦݧɻΞϓ ϦͷͷͨΊʹσʔλαΠΤϯε͕ඞཁͩͱײ͡ɺΞϓϦʹಛԽ ͨ͠ϢʔβʔͷߦಈੳπʔϧΛ։ൃ͢ΔاۀʹͯɺΞϓϦۀքͷ KPIੳͳͲΛ୲͢ΔɻݱࡏExploratory, Inc. ͰΧελϚʔαΫη εΛ୲͢ΔΒɺσʔλͷՄࢹԽͱ୳ࡧతσʔλੳΛઐͱͯ͠ σʔλαΠΤϯεͷීٴʹऔΓΉɻ @ShirotoTakato
Exploratory Hour
ࠓिͷ࣭ σʔλΛूܭ͍ͨ͠
Customer Name Sales Mike 34 Mike 26 Mike 36 5
ܭࢉΛ࡞ͷ߹1ߦ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿܭࢉΛ࡞ʢMutateʣ Customer Name Counts Sales_avg Mike 3 32 Mike 3 32 Mike 3 32
Customer Name counts Sales_avg Mike 3 32 Customer Name Sales
Mike 34 Mike 26 Mike 36 6 ूܭͷ߹ɺάϧʔϓ͝ͱʹ·ͱΊͯ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿूܭʢSummarizeʣ
7 ूܭʢSummarizeʣ
ؔ ఠཁ sum άϧʔϓͷதͷͷ߹ܭ n άϧʔϓͷதͷߦ n_distinct άϧʔϓͷதͷҰҙͷͷ mean άϧʔϓͷฏۉ
median άϧʔϓͷதԝ min άϧʔϓͷ࠷খ max άϧʔϓͷ࠷େ first άϧʔϓͷ࠷ॳͷ last άϧʔϓͷ࠷ޙͷ ूܭ ؔ 8
ؔ ఠཁ nth άϧʔϓͷN൪ͷ sd άϧʔϓͷඪ४ภࠩ var άϧʔϓͷࢄ IQR άϧʔϓͷ̐Ґൣғ(75%͔Β25%·Ͱ)
mad άϧʔϓͷฏۉઈରภࠩ na_count άϧʔϓͷܽଛͷ na_percent άϧʔϓͷܽଛͷׂ߹ ूܭ ؔ 9
• جຊతͳूܭؔʢߦͷɺ߹ܭɺฏۉɺҰҙͳͷʣ • ࠷සΛmodeؔͰٻΊΔ • ࠷ॳͷʢ࠷ޙͷʣͱ࠷খʢ࠷େʣͷҧ͍ • ϩδΧϧܕͷूܭؔʢTRUEͷɺTRUEͷׂ߹ʣ ूܭ (Summarize)
ച্σʔλ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ूܭ͍ͨ͠
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
15 εςοϓͷྻϔομϝχϡʔ͔Βूܭ (Summarize)Λબ͢Δ
16 ूܭͷμΠΞϩά͕දࣔ͞Εͨ
17 ʹߦͷΛબ͢Δ ϓϨϏϡʔը໘ʹબ͞Ε͕ͨදࣔ͞ ΕΔɻαϯϓϧ͞Εͨ5000ߦΛදࣔ͢Δ ͜ͱ͕Ͱ͖Δɻ
18 άϧʔϓԽʹCustomer IDΛબ͢Δ Customer ID͝ͱʹάϧʔϓԽͯ͠ɺ ߦͷΛूܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
20 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
21 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
22 ҰҙͳͷΛ༻͢Δͱɺॏෳͨ͠ΛΧϯτ ͤͣʹछྨͷΛٻΊΔ͜ͱ͕Ͱ͖Δ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike
ص Tom ϊʔτ Tom ϖϯ Tom ϊʔτ 3छྨ 2छྨ
23 ϓϥεϘλϯΛΫϦοΫͯ͠ΛՃ͢Δ
24 ʹSub-CategoryΛબͼɺूܭؔʹҰҙͳͷ (unique)Λબ͢Δ ߪങͨ͠αϒΧςΰϦʔͷछྨΛओ ܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
26 ʹSalesΛબͼɺूܭؔʹ߹ܭΛબ͢Δ ސ٬͝ͱʹച্ͷ߹ܭΛूܭ͢Δ ͜ͱ͕Ͱ͖ͨ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country Mike ??? Tom ??? ࠃΧςΰϦܕͷͨΊूܭͰ͖ͳ͍ʁ
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country_mode Mike Japan Tom US ࠷සʢmodeʣ
30 ʹCountryΛબͼɺूܭؔʹ࠷සΛબ͢Δ ސ٬ͷ࠷จճ͕ଟ͍ࠃ͕Ճ Θͬͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ސ٬͕࠷ॳʹߪೖͨ͠ΛٻΊ͍ͨ
33 ʹOrder DateΛબͼɺूܭؔʹ࠷ॳͷ(first)Λબ͢Δ
34 ຊʹ࠷ॳͷͰ͍͍ͷ͔ʁ
35 ͜ͷσʔλจͷঢॱʹฒͼସ͑͞Ε͍ͯͳ͍
࠷ॳͷ vs ࠷খ
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2015-12-3 ࠷ॳͷ(first)ͷ߹
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2014-7-14 ࠷খ(min)ͷ߹
39 ʹOrder DateΛબͼɺूܭؔʹ࠷খ(min)Λબ͢Δ ސ٬͕࠷ॳʹจ͕ͨ͠ूܭ ͞Εͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
41 ฦͷྻʹTRUE͔FALSEΛͱΔϩδΧϧܕͷྻ
ϩδΧϧܕͷूܭؔ
• TRUEͷ(FALSEͷ) • TRUEͷׂ߹(FASLEͷׂ߹) ϩδΧϧܕͷूܭؔ
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 2 TRUEͷͷ߹
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 0.6666 TRUEͷׂ߹ (%)ͷ߹
46 ʹReturnedΛબͼɺूܭؔʹTRUEͷΛબ͢Δ
ूܭ͢Δ͜ͱ͕Ͱ͖ͨ
Q&A
None
None
None
Contact Email
[email protected]
Twitter Hashtag #ExploratoryHour ͰπΠʔτʂ Twitter @ExploratoryJp Exploratory
Hour https://bit.ly/30odd9q