2022年度データアナリティクスII-第2回-20220418

⼭本祐輔静岡⼤学情報学部 [email protected] 2022年度前期データアナリティクスII – 山本担当モジュール2 2022年4月18日
⼭本祐輔クリエイティブコモンズライセンス (CC BY-NC-SA 4.0) データ選択・集約のための基礎的なSQL操作

前回のおさらい：シナリオあなたは新⽶データサイエンティスト．初めての案件が、⼩売店「杏森堂」からやってきました．杏森堂のセールス担当者杏森堂では，顧客台帳をオリジナルのExcelを使って管理しています．おかげさまで，売り上げも安定しています．Excelのデータも結構な量になってきたので，データ分析できると，いろんな知見が分かると思うんです．試しに少し分析していただけますか？

前回のおさらい：課題授業サポートWebsiteに掲載されたファイルと Excelを用いて、以下の3つの表を作成せよ商品A … 商品Z 2019年1月 2019年2月 … 2019年7月
商品ごとの年⽉別売上情報 A市 … H市 2019年1月 2019年2月 … 2019年7月各市ごとの年⽉別売上情報顧客名山本祐輔 … 静岡花子集計期間中に買い物を⾏っていない顧客のリスト

前回のおさらい：課題に⽤いるExcelファイル顧客台帳データ（2ファイル：kokyaku_daicho_X.csv）購買記録に関するデータ（ 2ファイル： uriage_X.csv）

世に存在する様々なバッドデータフォーマットが統一されていない… 1つのセルに複数データが入っている… データが空… データに重複がある… データが構造化されていない… ファイルが文字化けしている… 入力ルールに反している…

人間が読みやすいデータ計算機が処理しやすいデータ変換・加⼯

データの前処理のパターン（1/2）⽣データ絞り込みデータ結合データ変換データ条件にマッチするデータを検索複数のデータを統合データ内容の変換（加工，欠損値処理）集約データある基準でデータを集約し，新データを作成
データセットの特徴の把握

データの前処理のパターン（2/2）⽣データ変換データ集約データ機械学習⽤データ機械学習が可能な形式に変換（例：ダミー変数化）学習/テストデータデータ分割教師なし学習/統計モデリング教師あり学習

⽣データの重要性（1/2）店舗日時金額 A店 2019年1月 480万 A店 … …
A店 2022年3月 600万 B店 2019年1月 400万 B店 … … 店舗別の売上商品日時金額商品い 2019年1月 480万商品ろ … … 商品は 2022年3月 600万 … … … 商品別の売上集約済みのデータは再利用が難しい

⽣データの重要性（2/2）日時顧客ID 店舗商品個数小計 2019-12-11 C1 A店
商品い 1 270 2019-12-11 C1 A店商品は 3 450 … 2022-4-18 C100 Z店商品ろ 2 300 購買履歴（⽣データ）店舗日時金額 A店 2019年1月 480万 A店 … … A店 2022年3月 600万 B店 … … 店舗別の売上商品日時金額商品い 2019年1月 480万商品ろ … … 商品は 2022年3月 600万 … … … 商品別の売上データの統合と集約

⽣データの重要性（2/2）店舗日時金額 A店 2019年1月 480万 A店 … …
A店 2022年3月 600万 B店 … … 店舗別の売上商品日時金額商品い 2019年1月 480万商品ろ … … 商品は 2022年3月 600万 … … … 商品別の売上データの統合と集約日時顧客ID 店舗商品個数小計 2019-12-11 C1 A店商品い 1 270 2019-12-11 C1 A店商品は 3 450 … 2022-4-18 C100 Z店商品ろ 2 300 購買履歴（⽣データ）生データであるビッグデータをうまくデータ管理・処理する仕組みが必要

関係データベース（RDB: Relational Database） l データ管理者が指定したデータの整合性を担保 l ⼤規模データを効率よく検索・集計できる Wikipediaを扱う関係データベースのER図（画像出典：https://ja.wikipedia.org/）

SQL 関係データベース（RDB）に対する問い合わせ言語ｰデータの定義，作成，更新，削除，検索，集約に使うｰサイズが⼤きいデータセットに対して効率よく検索/抽出処理できる SELECT * FROM 購買履歴
WHERE 店舗 = “A店” AND ⽇時 BETWEEN X AND Y ORDER BY 顧客ID !"#$%&'()*+,-./0123456789:

データサイエンスにおける主要⾔語の⽐較 SQL Python R 扱えるデータ量 DBのサイズ（メモリにのらないデータ量でもOK）メモリにのりきる
量に限定メモリにのりきる量に限定処理速度速い普通遅い分散処理自動最適化記述コスト大記述コスト大計算機能・基本的な統計処理・集約演算に長けるあらゆる分野で充実（言語処理，深層学習はPython一択?）統計分野に強みデータ可視化なしありあり必要なデータをSQLで引っ張ってきて，Python/Rで変換・分析

今回のお題関係データベース上に格納された架空の小売店の購買データを題材に、 SQLでデータの抽出・集約を行う 15

様々な関係データベースのマネジメントシステム（RDBMS）商⽤オープンソース本番環境テスト環境/組込本演習で使うのはコレ

課題: 購買データ × SQL 1

シナリオ（1/2）あなたは新⽶データサイエンティスト．前回の案件でデータ分析の可能性を感じた「杏森堂」から新たな案件がやってきました．杏森堂のセールス担当者データ分析を試しにやっていただいて，データ分析の可能性を強く感じました．同時に，何も考えずに Excelでデータ管理をしていては、有意義なデータ分析ができないことも痛いほど分かりました…

シナリオ（2/2）あなたは新⽶データサイエンティスト．前回の案件でデータ分析の可能性を感じた「杏森堂」から新たな案件がやってきました．杏森堂のセールス担当者あの後，弊社では関係データベースを導入し，購買データをきっちり管理し，生データを収集しています．その結果，Excelでは扱えないくらいの量のデータが集まりつつあります．弊社の手に負えないので，データサイエンティストの
力をお借りして，データの傾向を把握したいです！

Day 2 (& Day 3) の課題授業サポートWebsiteで入手できるデータとSQL を用いて、顧客の購買頻度を分析し，以下の項目について分析結果を得なさい． 1.
顧客ごとの購買頻度 2. 購買頻度に対応する顧客の数 3. 該当する購買頻度以下の顧客数の累積値

データベースの構造レシート明細（receipt）論理名物理名型 Key 売上年⽉⽇ sales_ymd 整数 PK
売上エポック秒 sales_epoch ⽂字列店舗コード store_cd ⽂字列 PK,FK レシート番号 receipt_no ⽂字列 PK レシートサブ番号 receipt_sub_no ⽂字列 PK 顧客ID customer_id ⽂字列 FK 商品コード product_cd ⽂字列 FK 売上数量 quantity 数値売上⾦額 amount 数値顧客（customer）論理名物理名型 Key 顧客ID customer_id ⽂字列 PK 名前 customer_name 数値性別コード gender_cd ⽂字列性別 gender ⽂字列⽣年⽉⽇ birth_day ⽇付年齢 age 数値郵便番号 postal_cd ⽂字列住所 address ⽂字列会員申込店舗コード application_store_cd ⽂字列 FK 会員申込⽇ application_date ⽂字列ステータスコード status_cd ⽂字列ジオコード（geocode）論理名物理名型 Key 郵便番号 postal_cd ⽂字列都道府県 prefecture ⽂字列市区町村 city ⽂字列町域 town ⽂字列通り street ⽂字列字丁⽬ address ⽂字列住所 full_address ⽂字列経度 longitude 数値緯度 latitude 数値商品（product）論理名物理名型 Key 商品コード product_cd ⽂字列 PK カテゴリ⼤区分コード category_major_cd ⽂字列カテゴリ中区分コード category_medium_cd ⽂字列カテゴリ⼩区分コード category_small_cd ⽂字列 FK 単価 unit_price 数値原価 unit_cost 数値カテゴリ（category）論理名物理名型 Key カテゴリ⼤区分コード category_major_cd ⽂字列カテゴリ⼤区分名 category_major_name ⽂字列カテゴリ中区分コード category_medium_cd ⽂字列カテゴリ中区分名 category_medium_name ⽂字列カテゴリ⼩区分コード category_small_cd ⽂字列 PK カテゴリ⼩区分名 category_small_name ⽂字列店舗（store）論理名物理名型 Key 店舗コード store_cd ⽂字列 PK 店舗名 store_name ⽂字列都道府県コード prefecture_cd ⽂字列都道府県 prefecture ⽂字列住所 address ⽂字列住所カナ address_kana ⽂字列電話番号 tel_no ⽂字列経度 longitude 数値緯度 latitude 数値フロア⾯積 floor_area 数値出典：データサイエンティスト協会「データサイエンス100本ノック」

授業サポートWebsite https://data-analytics2022.hontolab.org/

2 Google Colaboratoryの使い方

Google Colaboratoryとは？ l ブラウザで実⾏できるPython(& R)の実⾏環境 l Googleのインフラ上で対話的にPythonを実⾏できる

セル：コードを書く箇所セルセル

コードの実⾏セル左端の再⽣ボタンをクリックすると，そのセルのコードを実⾏できる

新規セルの作り⽅ 1. 画⾯左上の「+コード」をクリック 2. 空のセルが追加される

SQLの実⾏ 1. 読み込むデータベースを設定 2. セルの冒頭に“%%sql”と書く． 1⾏空けて、その下にSQL⽂を書いて実⾏

3 データ分析で用いるSQL

射影（1/2） SELECT * FROM 顧客リスト; 顧客ID 姓名誕生年誕生日
居住県 1 青木葵 1982 9月25日 A県 2 伊藤博 1966 7月7日 B県 … 100 山本五十八 2002 8月3日 Z県テーブル：顧客リスト指定したテーブルから抽出する属性（列）を指定しレコードを抽出アスタリスクはすべての属性

射影（2/2） SELECT 顧客ID, 居住県 FROM 顧客リスト; 顧客ID 居住県 1 A県
2 B県 … 100 Z県テーブル：顧客リスト指定したテーブルから抽出する属性（列）を指定しレコードを抽出

選択 SELECT * FROM 顧客リスト WHERE 居住県 = “A県”; 顧客ID
姓名誕生年誕生日居住県 1 青木葵 1982 9月25日 A県 17 鈴木次郎 1988 1月4日 A県 … 50 浜松マッコイ 1997 2月29日 A県テーブル：顧客リストテーブルから条件にマッチするレコードを抽出

WHERE句の中で使える演算⼦の例演算子意味 A = B AはBである A != B
AはBでない A > B AはBより大きい A >= B AはB以上 X BETWEEN A AND B XはA以上B以下 A IN (B, C, D) AはB,C，Dのいずれか A LIKE ‘xxx%’ Aはxxxから始まる文字列 A AND B AかつB A OR B AまたはB 参考：https://www.sejuku.net/blog/51583

整列（1/2） SELECT * FROM 顧客リスト ORDER BY 利⽤歴 DESC; 顧客ID
姓名利用歴購買額 1 青木葵 10 300万 2 伊藤博 10 400万 … 100 山本五十八 1 20万テーブル：顧客リスト指定した列情報を⽤いてレコードを並び替る DESCは降順．ASCだと昇順

整列（2/2） SELECT * FROM 顧客リスト ORDER BY 利⽤歴, 購買額 DESC;
顧客ID 姓名利用歴購買額 2 伊藤博 10 400万 1 青木葵 10 300万 … 100 山本五十八 1 20万テーブル：顧客リスト整列基準を複数設けることも可能利⽤歴が同⼀の場合、購買額で整列

集約（1/2） SELECT 書籍, COUNT(*) FROM 貸出履歴 GROUP BY 書籍; 貸出日
顧客ID 書籍 2019-01-28 001 走れメロス 2019-02-07 003 走れメロス 2019-02-28 016 走れメロス 2019-03-11 021 雪国 2019-04-01 001 雪国テーブル：貸出履歴指定した列の情報が⼀致するレコードをまとめ，情報を集約する COUNTはまとめたレコードの総数を返す書籍 COUNT(*) 走れメロス 3 雪国 2

COUNT以外の代表的な集計関数（例）売上日商品ID 小計 2019-01-28 A 500 2019-02-07 A 1000
2019-02-28 B 700 2019-03-11 B 600 2019-04-01 C 400 テーブル：売上履歴商品ID MAX(小計) A 1000 B 700 C 400 商品ID SUM(小計) A 1500 B 1300 C 400 商品ID AVG(小計) A 750 B 650 C 400 最⼤値合計平均 SELECT 商品ID, f(⼩計) FROM 売上履歴 GROUP BY 商品ID;

集約（2/2）売上日商品ID 小計 2019-01-28 A 500 2019-02-07 A 1000
2019-02-28 B 700 2019-03-11 B 600 2019-04-01 C 400 テーブル：売上履歴 SELECT AVG(⼩計) AS 平均⼩計 FROM 売上履歴; 平均小計 640 集計関数はGROUP BYを使わない時でも使える

副問い合わせ（1/2）売上日商品ID 小計 2019-01-28 A 500 2019-02-07 A 1000
2019-02-28 B 700 2019-03-11 B 600 2019-04-01 C 400 テーブル：売上履歴 SELECT * FROM 貸出履歴 WHERE ⼩計 > (SELECT AVG(⼩計) FROM 売上履歴); 別のSQL⽂の結果を⽤いて問い合わせを⾏う売上日商品ID 小計 2019-02-07 A 1000 2019-02-28 B 700 SQL 実⾏結果

副問い合わせ（2/2） SELECT * FROM 貸出履歴 WHERE ⼩計 > (SELECT AVG(⼩計)
FROM 売上履歴); WITH 平均表 AS ( SELECT AVG(⼩計) AS 値 FROM 売上履歴 ) SELECT * FROM 貸出履歴 WHERE ⼩計 > 平均表.値; ＝ l WITH句を使って可読性をあげることが可能 l ⾼負荷を避けるため副問い合わせの使いすぎは避ける

ウィンドウ関数（分析関数）(1/2) l データ分析のための新しいSQL関数 l 結果⾏の集約演算を⾏うことなく集計・分析を⾏う部門売上合計 A 1100 B
1400 C 1500 部門売上合計全体合計売上割合 A 1100 4000 0.275 B 1400 4000 0.350 C 1500 4000 0.375 売上テーブル

1400 C 1500 全体合計 4000 SELECT SUM(売上合計) AS 全体合計 FROM 売上テーブル売上テーブル単純な集約演算の場合集約してしまうので，各⾏の情報が失われる

1400 C 1500 部門売上合計全体合計売上割合 A 1100 4000 0.275 B 1400 4000 0.350 C 1500 4000 0.375 SELECT *, SUM(売上合計) OVER() AS 全体合計, 売上合計 / SUM(売上合計) OVER() AS 売上割合 FROM 売上テーブル売上テーブルウィンドウ関数を⽤いた場合

ウィンドウ関数のポイント参考1: https://qiita.com/w-sato-ist/items/63600a3ab84aad38e879 参考2: https://qiita.com/HiromuMasuda0228/items/0b20d461f1a80bd30cfc lPARTITION BY句とORDER BY句の動作理解 l⽬的に応じたウィンドウ関数の使い分け関数例
意味 AVG 全体の平均、グループごとの平均、累積平均 COUNT 全体の数、グループごとの数、累積数 SUM 全体の合計、グループごとの合計、累積合計 ROW_NUMBER ソートして順位付けする FIRST_VALUE 最初の行の値を利用できる LAG 前の行の値を利用できる

ウィンドウ関数におけるORDER BY（1/2） SELECT customer_id, amount, RANK() OVER (ORDER BY amount
DESC) AS ranking FROM receipt; receiptテーブル

ウィンドウ関数におけるORDER BY（2/2） SELECT customer_id, amount, RANK() OVER (ORDER BY amount
DESC) AS ranking FROM receipt; SQLの結果内部的にamountでソートした結果を保持しておいて、順位を求める

ウィンドウ関数におけるPARTITION BY（1/2） receiptテーブル SELECT DISTINCT sales_ymd, SUM(amount) OVER (PARTITION BY
sales_ymd) AS amount, SUM(amount) OVER () AS total_amount FROM receipt;

ウィンドウ関数におけるPARTITION BY（2/2） SQLの結果 SELECT DISTINCT sales_ymd, SUM(amount) OVER (PARTITION BY
sales_ymd) AS amount, SUM(amount) OVER () AS total_amount FROM receipt; 内部的にsales_ymdごとにまとめた情報を保持しておいて、各⾏の演算を利⽤する

2022年度データアナリティクスII-第2回-20220418

2022年度データアナリティクスII-第2回-20220418

More Decks by Y. Yamamoto

Other Decks in Education

Featured

Transcript