Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exploratory Hour #41 データを集計したい
Search
Takato Shiroto
December 03, 2019
Science
0
89
Exploratory Hour #41 データを集計したい
2019/12/3(水)に行ったExploratory Hourのスライドです。
このスライドでは、集計 (Summarize)の基本的な使い方とよく使う関数について紹介しています。
Takato Shiroto
December 03, 2019
Tweet
Share
More Decks by Takato Shiroto
See All by Takato Shiroto
Exploratory v6.7の紹介
takatoshiroto
0
900
Exploratory v6.6の紹介
takatoshiroto
0
1.6k
Exploratory v6.5の紹介
takatoshiroto
0
5.1k
コンバージョン率と信頼区間の推移を可視化する方法
takatoshiroto
1
300
Exploratory Hour #104 - 別の列の値をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
0
170
Exploratory Hour #105 - 元のデータ順をもとに、カテゴリー列の値の順序を指定したい
takatoshiroto
1
230
Exploratory Hour #102 - complete関数を使って2つの時間の間の値を生成したい
takatoshiroto
0
99
Exploratory Hour #103 - 仕事の開始・終了時間データから、どの時間に何人働いているか知りたい
takatoshiroto
0
97
Exploratory v6.4の紹介
takatoshiroto
0
5.8k
Other Decks in Science
See All in Science
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2024
yuya4
3
230
トラブルがあったコンペに学ぶデータ分析
tereka114
2
930
最適化超入門
tkm2261
14
3.3k
Direct Preference Optimization
zchenry
0
280
化学におけるAI・シミュレーション活用のトレンドと 汎用原子レベルシミュレーター: Matlantisを使った素材開発
matlantis
0
270
大規模画像テキストデータのフィルタリング手法の紹介
lyakaap
7
1.5k
機械学習を支える連続最適化
nearme_tech
PRO
1
150
DEIM2024 チュートリアル ~AWSで生成AIのRAGを使ったチャットボットを作ってみよう~
yamahiro
3
1.3k
【人工衛星開発】能見研究室紹介動画
02hattori11sat03
0
150
Sociovirology
uni_of_nomi
0
100
学術講演会中央大学学員会八王子支部
tagtag
0
230
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
hurutoriya
5
2.3k
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
730
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
380
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
How to Ace a Technical Interview
jacobian
276
23k
KATA
mclloyd
29
14k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Agile that works and the tools we love
rasmusluckow
327
21k
Unsuck your backbone
ammeep
668
57k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Transcript
EXPLORATORY 1
2 εϐʔΧʔ നށ ܟొ Customer Succes EXPLORATORY ུྺ େֶࡏֶதʹϑʔυϩεΛݮΒͨ͢ΊʹɺֶੜஂମΛ্ཱͪ͛දΛ ΊΔɻͦͷޙɺϏδωεΛΔͨΊʹԽֶϝʔΧʔͷσϡϙϯͱ
ϑʔυςοΫܥελʔτΞοϓͰӦۀͱϚʔέςΟϯάΛܦݧɻΞϓ ϦͷͷͨΊʹσʔλαΠΤϯε͕ඞཁͩͱײ͡ɺΞϓϦʹಛԽ ͨ͠ϢʔβʔͷߦಈੳπʔϧΛ։ൃ͢ΔاۀʹͯɺΞϓϦۀքͷ KPIੳͳͲΛ୲͢ΔɻݱࡏExploratory, Inc. ͰΧελϚʔαΫη εΛ୲͢ΔΒɺσʔλͷՄࢹԽͱ୳ࡧతσʔλੳΛઐͱͯ͠ σʔλαΠΤϯεͷීٴʹऔΓΉɻ @ShirotoTakato
Exploratory Hour
ࠓिͷ࣭ σʔλΛूܭ͍ͨ͠
Customer Name Sales Mike 34 Mike 26 Mike 36 5
ܭࢉΛ࡞ͷ߹1ߦ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿܭࢉΛ࡞ʢMutateʣ Customer Name Counts Sales_avg Mike 3 32 Mike 3 32 Mike 3 32
Customer Name counts Sales_avg Mike 3 32 Customer Name Sales
Mike 34 Mike 26 Mike 36 6 ूܭͷ߹ɺάϧʔϓ͝ͱʹ·ͱΊͯ1ߦʹܭࢉ݁ՌΛฦ͢ ྫɿूܭʢSummarizeʣ
7 ूܭʢSummarizeʣ
ؔ ఠཁ sum άϧʔϓͷதͷͷ߹ܭ n άϧʔϓͷதͷߦ n_distinct άϧʔϓͷதͷҰҙͷͷ mean άϧʔϓͷฏۉ
median άϧʔϓͷதԝ min άϧʔϓͷ࠷খ max άϧʔϓͷ࠷େ first άϧʔϓͷ࠷ॳͷ last άϧʔϓͷ࠷ޙͷ ूܭ ؔ 8
ؔ ఠཁ nth άϧʔϓͷN൪ͷ sd άϧʔϓͷඪ४ภࠩ var άϧʔϓͷࢄ IQR άϧʔϓͷ̐Ґൣғ(75%͔Β25%·Ͱ)
mad άϧʔϓͷฏۉઈରภࠩ na_count άϧʔϓͷܽଛͷ na_percent άϧʔϓͷܽଛͷׂ߹ ूܭ ؔ 9
• جຊతͳूܭؔʢߦͷɺ߹ܭɺฏۉɺҰҙͳͷʣ • ࠷සΛmodeؔͰٻΊΔ • ࠷ॳͷʢ࠷ޙͷʣͱ࠷খʢ࠷େʣͷҧ͍ • ϩδΧϧܕͷूܭؔʢTRUEͷɺTRUEͷׂ߹ʣ ूܭ (Summarize)
ച্σʔλ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ूܭ͍ͨ͠
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
15 εςοϓͷྻϔομϝχϡʔ͔Βूܭ (Summarize)Λબ͢Δ
16 ूܭͷμΠΞϩά͕දࣔ͞Εͨ
17 ʹߦͷΛબ͢Δ ϓϨϏϡʔը໘ʹબ͞Ε͕ͨදࣔ͞ ΕΔɻαϯϓϧ͞Εͨ5000ߦΛදࣔ͢Δ ͜ͱ͕Ͱ͖Δɻ
18 άϧʔϓԽʹCustomer IDΛબ͢Δ Customer ID͝ͱʹάϧʔϓԽͯ͠ɺ ߦͷΛूܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
20 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
21 ͲͷΑ͏ʹߪങͨ͠ͷछྨΛ͑Ε͍͍͔ʁ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike ص
Tom ϊʔτ Tom ϖϯ Tom ϊʔτ
22 ҰҙͳͷΛ༻͢Δͱɺॏෳͨ͠ΛΧϯτ ͤͣʹछྨͷΛٻΊΔ͜ͱ͕Ͱ͖Δ ސ٬໊ Mike ϖϯ Mike ϊʔτ Mike
ص Tom ϊʔτ Tom ϖϯ Tom ϊʔτ 3छྨ 2छྨ
23 ϓϥεϘλϯΛΫϦοΫͯ͠ΛՃ͢Δ
24 ʹSub-CategoryΛબͼɺूܭؔʹҰҙͳͷ (unique)Λબ͢Δ ߪങͨ͠αϒΧςΰϦʔͷछྨΛओ ܭ͢Δ͜ͱ͕Ͱ͖ͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
26 ʹSalesΛબͼɺूܭؔʹ߹ܭΛબ͢Δ ސ٬͝ͱʹച্ͷ߹ܭΛूܭ͢Δ ͜ͱ͕Ͱ͖ͨ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country Mike ??? Tom ??? ࠃΧςΰϦܕͷͨΊूܭͰ͖ͳ͍ʁ
Customer Name Country Mike China Mike Japan Mike Japan Tom
US Tom Japan Tom US Customer Name Country_mode Mike Japan Tom US ࠷සʢmodeʣ
30 ʹCountryΛબͼɺूܭؔʹ࠷සΛબ͢Δ ސ٬ͷ࠷จճ͕ଟ͍ࠃ͕Ճ Θͬͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
ސ٬͕࠷ॳʹߪೖͨ͠ΛٻΊ͍ͨ
33 ʹOrder DateΛબͼɺूܭؔʹ࠷ॳͷ(first)Λબ͢Δ
34 ຊʹ࠷ॳͷͰ͍͍ͷ͔ʁ
35 ͜ͷσʔλจͷঢॱʹฒͼସ͑͞Ε͍ͯͳ͍
࠷ॳͷ vs ࠷খ
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2015-12-3 ࠷ॳͷ(first)ͷ߹
Customer Name Order Date Mike 2015-12-3 Mike 2014-7-14 Mike 2015-12-24
Customer Name ։࢝ Mike 2014-7-14 ࠷খ(min)ͷ߹
39 ʹOrder DateΛબͼɺूܭؔʹ࠷খ(min)Λબ͢Δ ސ٬͕࠷ॳʹจ͕ͨ͠ूܭ ͞Εͨɻ
CustomerID͝ͱʹ • จ݅ • ߪങͨ͠ͷछྨ • ച্߹ܭ • ࠃ •
ސ٬ͷ։࢝ • ฦ ूܭ͍ͨ͠
41 ฦͷྻʹTRUE͔FALSEΛͱΔϩδΧϧܕͷྻ
ϩδΧϧܕͷूܭؔ
• TRUEͷ(FALSEͷ) • TRUEͷׂ߹(FASLEͷׂ߹) ϩδΧϧܕͷूܭؔ
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 2 TRUEͷͷ߹
Customer Name Returned Mike TRUE Mike FALSE Mike TRUE Customer
Name ฦ Mike 0.6666 TRUEͷׂ߹ (%)ͷ߹
46 ʹReturnedΛબͼɺूܭؔʹTRUEͷΛબ͢Δ
ूܭ͢Δ͜ͱ͕Ͱ͖ͨ
Q&A
None
None
None
Contact Email
[email protected]
Twitter Hashtag #ExploratoryHour ͰπΠʔτʂ Twitter @ExploratoryJp Exploratory
Hour https://bit.ly/30odd9q