Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Prepの集計機能についておさらいしてみる

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 Prepの集計機能についておさらいしてみる

Avatar for holywater044

holywater044

May 25, 2023
Tweet

More Decks by holywater044

Other Decks in Technology

Transcript

  1. 自己紹介 名前: Akihiro Horikawa 所属: 東邦ガス株式会社 (東海地方の総合エネルギー企業) ※ 本発表は登壇者個人の見解であり、所属企業の公式見解ではありません 役割:

    社内データ分析チームリーダー、データ関連の技術調査・教育、ほか Tableau歴: 約3年半。 DATASaber Apprentice挑戦中(5/1~) Twitter: ほーりー @holywater044 コミュニティ: 中部Tableauユーザー会(幹事)、 SnowVillage(村人)、 ほか 2 TECHPLAY 中部Tableauユーザー会 https://techplay.jp/co mmunity/tableau- chubu YOUTUBE SnowVillage みんなのSQL講座 https://www.youtube. com/watch?v=NFKjC WzlS7o
  2. はじめに 私見ですが、こんなときが Prepくん の出番と考えています。 11 • クリーニングや整形しないと使えないデータの「下拵え」 ▪ そのデータを使う誰もがやらないといけないなら、先にすましておく方が効率的 ▪

    Desktopから切り離してPrepに置く方が、中身がわかり易く、人に伝え易い • Desktopでパフォーマンス出ないのをなんとかする ▪ ある程度規模の大きいデータの話になりますが、複雑な計算や集計を、先にやって おくと、Desktopが軽くなります • 目的の粒度のデータに、あらかじめ集計しておく ▪ Desktopで粒度の異なるデータを同時に扱うと、慣れないと事故るのが怖いです ▪ 分析目的にもよりますが、あらかじめ粒度の揃ったデータにしておけると安心です
  3. はじめに 私見ですが、こんなときが Prepくん の出番と考えています。 12 • クリーニングや整形しないと使えないデータの「下拵え」 ▪ そのデータを使う誰もがやらないといけないなら、先にすましておく方が効率的 ▪

    Desktopから切り離してPrepに置く方が、中身がわかり易く、人に伝え易い • Desktopでパフォーマンス出ないのをなんとかする ▪ ある程度規模の大きいデータの話になりますが、複雑な計算や集計を、先にやって おくと、Desktopが軽くなります • 目的の粒度のデータに、あらかじめ集計しておく ▪ Desktopで粒度の異なるデータを同時に扱うと、慣れないと事故るのが怖いです ▪ 分析目的にもよりますが、あらかじめ粒度の揃ったデータにしておけると安心です 大雑把なイメージ 生データ 整備済データ (分析用データ) DesktopのViz (≒GetData) (≒Choose VisualMapping)
  4. 分類? 集計方法 数値 日時・日付 文字列 件数系 カウント 〇 〇 〇

    個別カウント △1 △1 〇 最頻値 △1 △1 〇 統計系 合計 〇 - - 平均 〇 △2 - 標準偏差/母標準偏差 〇 △2 - 分散/母分散 〇 △2 - 順位系 最小値 〇 〇 △3 最大値 〇 〇 △3 中央値 〇 △2 △3 百分位 〇 △2 △3 分類? 集計方法 数値 日時・日付 文字列 件数系 カウント 〇 〇 〇 個別カウント △1 △1 〇 最頻値 △1 △1 〇 統計系 合計 〇 - - 平均 〇 △2 - 標準偏差/母標準偏差 〇 △2 - 分散/母分散 〇 △2 - 順位系 最小値 〇 〇 △3 最大値 〇 〇 △3 中央値 〇 △2 △3 百分位 〇 △2 △3 • 使える集計方法は、データ型によって制約があります データ型と集計方法 20 黄色がPrepで 使えるもの △3:値に順序関係があれば、 一応可能(優良可など) Prepでは文字列昇順に なるので、頭に数字つける などが必要 △1:とりうる値の種類が少ない、 またはビンにすれば一応可能 △2:基準日からの日数とかに 変換すれば一応可能だが、 あまりやらない認識
  5. ①追加フィールド • ここから使うカラムを選択する 26 あまり気にしていないかもですが、カラムが自動で 「グループ」と「SUM」に分類されています。 • データ型が文字列・日時・日付なら、「グループ」 ⇒ 粒度に使うことをガイド

    してくれてる カラムをダブルクリックすると、自動的に②に入る (集計にも使いますが) • データ型が数値なら、「SUM」 ⇒ 集計に使うことをガイドしてくれてる カラムをダブルクリックすると、自動的に③に入る
  6. 注意点: 平均や比率の、平均 • 平均や比率を表すカラムを、集計するとき注意が必要 ▪ テストの平均点、商品の割引率など • 例) テストの平均点 34

    平均点の平均値 (58+60+53)÷3=57 学年全体の総得点と総人数を集計して、 平均点を計算しなおす 単純平均 荷重平均