Slide 1

Slide 1 text

第7回 TableauPrepユーザー会 Prepの集計機能についておさらいしてみる 2023-05-25 AKIHIRO HORIKAWA 1

Slide 2

Slide 2 text

自己紹介 名前: Akihiro Horikawa 所属: 東邦ガス株式会社 (東海地方の総合エネルギー企業) ※ 本発表は登壇者個人の見解であり、所属企業の公式見解ではありません 役割: 社内データ分析チームリーダー、データ関連の技術調査・教育、ほか Tableau歴: 約3年半。 DATASaber Apprentice挑戦中(5/1~) Twitter: ほーりー @holywater044 コミュニティ: 中部Tableauユーザー会(幹事)、 SnowVillage(村人)、 ほか 2 TECHPLAY 中部Tableauユーザー会 https://techplay.jp/co mmunity/tableau- chubu YOUTUBE SnowVillage みんなのSQL講座 https://www.youtube. com/watch?v=NFKjC WzlS7o

Slide 3

Slide 3 text

本発表の概要 ⚫データ前処理の1つ、「集計」について話します 3

Slide 4

Slide 4 text

その前に・・・ もりたさん、PrepStar受賞おめでとうございます!! 4

Slide 5

Slide 5 text

本発表の概要 ⚫対象者 • Prepの集計について、これから使ってみようという方、 使っているけどなんとなくという方 ⚫ねらい • 集計の「概念」、「画面の見方と操作方法」、「注意点」を、あらためておさらい • Prepで集計を使うときの、見通しをよくしたい 5

Slide 6

Slide 6 text

本発表の概要 ⚫本日、おさらいすること • 「集計」とは、データの粒度を変えること • 集計方法は、文字と数値で少し違う • 左の窓が「粒度」、右の窓が「集計」 • 「平均や比率の、平均」には注意 6

Slide 7

Slide 7 text

目次 はじめに 1.データの粒度 2.データ型と集計方法 3.Prepの「集計」ステップ 4.注意点・Tips まとめ 7

Slide 8

Slide 8 text

はじめに 8

Slide 9

Slide 9 text

はじめに みなさんは Prepくん をどう使われているでしょうか? 9

Slide 10

Slide 10 text

はじめに もしかすると、こんなふうに感じてる方もいらっしゃるかもしれません 10 抽出 集計 カラム加工 結合 ? べつにどれも Desktopでもできる じゃないか

Slide 11

Slide 11 text

はじめに 私見ですが、こんなときが Prepくん の出番と考えています。 11 • クリーニングや整形しないと使えないデータの「下拵え」 ▪ そのデータを使う誰もがやらないといけないなら、先にすましておく方が効率的 ▪ Desktopから切り離してPrepに置く方が、中身がわかり易く、人に伝え易い • Desktopでパフォーマンス出ないのをなんとかする ▪ ある程度規模の大きいデータの話になりますが、複雑な計算や集計を、先にやって おくと、Desktopが軽くなります • 目的の粒度のデータに、あらかじめ集計しておく ▪ Desktopで粒度の異なるデータを同時に扱うと、慣れないと事故るのが怖いです ▪ 分析目的にもよりますが、あらかじめ粒度の揃ったデータにしておけると安心です

Slide 12

Slide 12 text

はじめに 私見ですが、こんなときが Prepくん の出番と考えています。 12 • クリーニングや整形しないと使えないデータの「下拵え」 ▪ そのデータを使う誰もがやらないといけないなら、先にすましておく方が効率的 ▪ Desktopから切り離してPrepに置く方が、中身がわかり易く、人に伝え易い • Desktopでパフォーマンス出ないのをなんとかする ▪ ある程度規模の大きいデータの話になりますが、複雑な計算や集計を、先にやって おくと、Desktopが軽くなります • 目的の粒度のデータに、あらかじめ集計しておく ▪ Desktopで粒度の異なるデータを同時に扱うと、慣れないと事故るのが怖いです ▪ 分析目的にもよりますが、あらかじめ粒度の揃ったデータにしておけると安心です 大雑把なイメージ 生データ 整備済データ (分析用データ) DesktopのViz (≒GetData) (≒Choose VisualMapping)

Slide 13

Slide 13 text

はじめに ⚫さて、前置きが長くなりましたが、本日は「集計」が主役になります! 13

Slide 14

Slide 14 text

1.データの粒度 14

Slide 15

Slide 15 text

データの粒度 • データは「現実世界の出来事」を、なんらか記録したものです • 通常、「データの1レコードが何を現すか」(どんな単位で情報を記録したか) は、決まっています • この「1レコードが表す情報の単位」が データの粒度 です 15 粗い 買った商品毎の売上 (・・・決まってるはずです。決まってるといいなぁw) 1回の購買毎の売上 顧客毎の売上 細かい

Slide 16

Slide 16 text

集計=粒度の変更 • 「粒度の細かいデータ」は、集計で「粒度の粗いデータ」に変換できます • このとき、「わかりやすくなる」代償に、情報量の一部を失います • よって「細かい→粗い」はできますが、「粗い→細かい」は通常できません 16 ■購買データ ■「顧客」で集計したデータ (=顧客の特徴) 粗 細

Slide 17

Slide 17 text

• 粒度は、通常、1~複数個のディメンションで定義します(主に4W) • いわゆる集計軸で、同じデータでも、ビジネス目的によって何を使うか変わります 集計=粒度の変更 17 ■購買データ ■「月」で集計したデータ (=売上月報) 粗 細

Slide 18

Slide 18 text

2.データ型と集計方法 18

Slide 19

Slide 19 text

集計方法の種類 • 先程の例では、いろんな「集計方法」を使っています 19 ■注文データ ■ 「顧客」で集計したデータ カウント 最小値 最大値 平均 個別カウント

Slide 20

Slide 20 text

分類? 集計方法 数値 日時・日付 文字列 件数系 カウント 〇 〇 〇 個別カウント △1 △1 〇 最頻値 △1 △1 〇 統計系 合計 〇 - - 平均 〇 △2 - 標準偏差/母標準偏差 〇 △2 - 分散/母分散 〇 △2 - 順位系 最小値 〇 〇 △3 最大値 〇 〇 △3 中央値 〇 △2 △3 百分位 〇 △2 △3 分類? 集計方法 数値 日時・日付 文字列 件数系 カウント 〇 〇 〇 個別カウント △1 △1 〇 最頻値 △1 △1 〇 統計系 合計 〇 - - 平均 〇 △2 - 標準偏差/母標準偏差 〇 △2 - 分散/母分散 〇 △2 - 順位系 最小値 〇 〇 △3 最大値 〇 〇 △3 中央値 〇 △2 △3 百分位 〇 △2 △3 • 使える集計方法は、データ型によって制約があります データ型と集計方法 20 黄色がPrepで 使えるもの △3:値に順序関係があれば、 一応可能(優良可など) Prepでは文字列昇順に なるので、頭に数字つける などが必要 △1:とりうる値の種類が少ない、 またはビンにすれば一応可能 △2:基準日からの日数とかに 変換すれば一応可能だが、 あまりやらない認識

Slide 21

Slide 21 text

おまけ1: Desktopの右ドラッグ&ドロップで出るやつ ≒メジャー ≒ディメンジョン 百分位 だけない

Slide 22

Slide 22 text

おまけ2: RFM分析 • 顧客分析などで使われるRFM分析にも、集計が使われています 22 Recency 直近性 日付の最大値と、基準日との日数差 Frequency 購買頻度 (対象期間内の)レコード数のカウント Monetary 購買金額 (対象期間内の)金額の合計

Slide 23

Slide 23 text

3.Prepの「集計」ステップ 23

Slide 24

Slide 24 text

Prepの「集計」ステップ ようやく、Prepの 「集計」ステップの話です。 24 ①追加フィールド ②グループ化フィールド ③集計フィールド (左の窓) (右の窓)

Slide 25

Slide 25 text

①追加フィールド 25

Slide 26

Slide 26 text

①追加フィールド • ここから使うカラムを選択する 26 あまり気にしていないかもですが、カラムが自動で 「グループ」と「SUM」に分類されています。 • データ型が文字列・日時・日付なら、「グループ」 ⇒ 粒度に使うことをガイド してくれてる カラムをダブルクリックすると、自動的に②に入る (集計にも使いますが) • データ型が数値なら、「SUM」 ⇒ 集計に使うことをガイドしてくれてる カラムをダブルクリックすると、自動的に③に入る

Slide 27

Slide 27 text

②グループ化フィールド 27

Slide 28

Slide 28 text

②グループ化フィールド • 集計後データの、粒度を指定する 28 ・ここに入れたカラムの組合せで1レコードとなるデータを 作ります。すなわち、粒度を指定しています ・1~複数カラムを置けます(例は1個ですが)

Slide 29

Slide 29 text

②グループ化フィールド • 日時・日付の場合 29 日時・日付の場合は、「レベルごとにグループ化」で、時間 の粒度を選べます

Slide 30

Slide 30 text

③集計フィールド 30

Slide 31

Slide 31 text

③集計フィールド • 集計するカラムと、その集計方法を指定する 31 ・ここに入れたカラムを、②で指定した粒度に集計します ・カラム毎に、集計関数を選択します

Slide 32

Slide 32 text

③集計フィールド • カラムのデータ型によって、選択できる集計関数が違います 32 文字列・日時・日付(①「グループ」) ・デフォルトはカウント ・4種類から選択 整数・小数(①「SUM」) ・デフォルトは合計 ・12種類から選択 (百分位も入れると17種類)

Slide 33

Slide 33 text

4.注意点・Tips 33

Slide 34

Slide 34 text

注意点: 平均や比率の、平均 • 平均や比率を表すカラムを、集計するとき注意が必要 ▪ テストの平均点、商品の割引率など • 例) テストの平均点 34 平均点の平均値 (58+60+53)÷3=57 学年全体の総得点と総人数を集計して、 平均点を計算しなおす 単純平均 荷重平均

Slide 35

Slide 35 text

Tips: カラム複製 • 1つのカラムに対して複数の集計をしたいときは、 集計の前のクリーニングで、 「フィールドの複製」で複製・別名にしておくとよいです 35

Slide 36

Slide 36 text

まとめ 36

Slide 37

Slide 37 text

まとめ Prepの「集計」について、おさらいしてみました。 • 「集計」とは、データの粒度を「細かい→粗い」に変えること • 集計方法は、文字(文字列・日時・日付)と数値(整数・小数)で 少し違う • 集計ステップは、左の窓が「粒度の指定」、右の窓が「集計方法の指定」 • 「平均や比率の、平均」では、戻って再計算した方がいいときあるので注意 37

Slide 38

Slide 38 text

38 ご清聴ありがとうございました。 以上