Upgrade to Pro — share decks privately, control downloads, hide ads and more …

複数の列の一気に集計できる summarize関数の紹介

複数の列の一気に集計できる summarize関数の紹介

このスライドは、2019/10/8のExploratory Hourで使用したものです。

今回は、複数の列を一気に集計するときに使用するsummarize関数について紹介しました。
・全ての列を集計する summarize_all
・列名を指定して集計する summarize_at
・データタイプを指定して集計する summarize_if

下記にExploratory Hourの詳細がありますので、ご興味のある方はご覧ください。

https://exploratory.io/note/GMq1Qom5tS/Exploratory-hour-hGL8PDW9pu

Takato Shiroto

October 08, 2019
Tweet

More Decks by Takato Shiroto

Other Decks in Technology

Transcript

  1. 2 εϐʔΧʔ ੢ా צҰ࿠ CEO EXPLORATORY ུྺ 2016೥ɺσʔλαΠΤϯεͷຽओԽͷͨΊɺExploratory, Inc Λ

    ্ཱͪ͛Δɻ Exploratory, Inc.ͰCEOΛ຿ΊΔ͔ͨΘΒɺσʔλαΠΤϯεɾ ϒʔτΩϟϯϓɾτϨʔχϯάͳͲΛ௨ͯ͠γϦίϯόϨʔͰ ߦΘΕ͍ͯΔ࠷ઌ୺ͷσʔλαΠΤϯεͷීٴͱڭҭʹऔΓ૊ Ήɻ ถΦϥΫϧຊࣾͰɺ16೥ʹΘͨΓσʔλαΠΤϯεͷ։ൃνʔ ϜΛ཰͍ɺػցֶशɺϏοάɾσʔλɺϏδωεɾΠϯςϦδΣ ϯεɺσʔλϕʔεʹؔ͢Δ਺ଟ͘ͷ੡඼ΛੈʹૹΓग़ͨ͠ɻ @KanAugust
  2. ؔ਺ ఠཁ sum άϧʔϓͷதͷ஋ͷ߹ܭ n άϧʔϓͷதͷߦ਺ n_distinct άϧʔϓͷதͷҰҙͷ஋ͷ਺ mean άϧʔϓͷฏۉ஋

    median άϧʔϓͷதԝ஋ min άϧʔϓ಺ͷ࠷খ஋ max άϧʔϓ಺ͷ࠷େ஋ ूܭ ؔ਺ 7
  3. ؔ਺ ఠཁ first άϧʔϓͷ࠷ॳͷ஋ last άϧʔϓͷ࠷ޙͷ஋ nth άϧʔϓͷN൪໨ͷ஋ sd άϧʔϓͷඪ४ภࠩ

    var άϧʔϓͷ෼ࢄ IQR άϧʔϓͷ̐෼Ґൣғ(75%఺͔Β25%఺·Ͱ) mad άϧʔϓͷฏۉઈରภࠩ ूܭ ؔ਺ 8
  4. ؔ਺ ఠཁ any ྫ: 
 any(sales > 500) ͕TRUE,
 গͳ͘ͱ΋salesͷ஋͕500Ҏ্ͷߦ͕1ͭҎ্͋Δ

    all ྫ: 
 all(sales > 500) ͕TRUE,
 άϧʔϓ಺શͯͷsalesͷ஋͕500Ҏ্ na_count άϧʔϓ಺ͷܽଛ஋ͷ਺ na_percent άϧʔϓ಺ͷܽଛ஋ͷׂ߹ ूܭ ؔ਺ 9
  5. ߦͷ਺ ฏۉ 3 32 Customer_Segment Profit Consumer 34 Consumer 26

    Consumer 36 Corporate 38 Corporate 22 Corporate 27 10 summarizeίϚϯυ + ूܭؔ਺ n: ߦͷ਺ͱmean: ฏۉΛܭࢉ ूܭ
  6. Customer_Segment counts avg Consumer 3 32 Corporate 3 29 group_by(Customer_Segment)

    Customer_Segment Profit Consumer 34 Consumer 26 Consumer 36 Corporate 38 Corporate 22 Corporate 27 13 summarizeίϚϯυΛ࢖ͬͯ άϧʔϓ͝ͱͷߦͷ਺ͱฏۉΛܭࢉ άϧʔϓ͝ͱʹूܭ
  7. Q&A