Slide 1

Slide 1 text

Copyright 2023 @Isokan_DD データを整理する技術 - より良いデータ利活用のために - Made by いそひまかん 2023/12/04

Slide 2

Slide 2 text

2 ● VRCでは ・DS集会運営主催 ・たまにLT登壇します ● 普段のお仕事 ・データサイエンティスト/WEBエンジニア ・通販/金融業界向けへのデータ解析 ・機械学習系プロダクト開発 ・Python/Tableau使いです ・統計検定2級取得 ● 趣味 ・ご飯巡り/飯テロ ・ホラーワールド巡り いそひまかん @Isokan_DD おつきみ / Otsukimi ©HYPERSPACE ©GBXD

Slide 3

Slide 3 text

はじめに 目的 - データを整理する考え方を学んでデータ分析やDXの参考にしてもらいたい 対象者 - DXに興味があるor推進したい人 - データサイエンスに興味ある初学者、学生 - 社内データを活かしたいけど、どうしていいか分からない人 このLTで取り扱わないもの - データウェアハウス・データレイク設計(教えてほしい…) - 具体的な前処理の技法 - ツールの紹介 3

Slide 4

Slide 4 text

もくじ 1. はじめに 2. そもそもデータとは a. 構造データと非構造データ b. なぜデータの整理が必要なのか 3. データを整理する技術 a. 1セルに一値/欠損と重複をなくす b. ナチュラルキーを探す c. マスターデータと履歴データに分ける d. 正規化/ER図を作ろう 4. まとめ 5. 出典・参考文献 4

Slide 5

Slide 5 text

そもそもデータ とは? 今さらだけどちゃんと捉えよう 5

Slide 6

Slide 6 text

構造データと非構造データ 構造データ - データを格納する構成が定まっている - データの型が定まっている - データに対しての操作が楽 例:RDBに格納されてるデータ 非構造データ - データの構成が定まっていないデータ 例:エクセルファイル、動画、音楽ファイルなど *json, csvといった構成要素は決まっているが、データの型を定義されていないものを半構造データと呼びます *本LTではテキストファイル形式のデータに焦点を充てて構造データへ昇華させていくことを目的とします 6

Slide 7

Slide 7 text

なぜデータの整理が必要なのか 7 やりたい分析に対して、データが不足していることはよくある “データ が 存在 し なけれ ば、 データ 活用 が 進ま ない のは 当然 です。 優秀 な デー タ サイエンティスト を 採用 し ても 問題 は 解決 し ませ ん。 高度 な テクノロジー や アルゴリズム を 導入 し ても 問題 は 解決 し ませ ん。 この よう な 状況 を 打開 する には、 データ ソース を 整備 する こと が 重要 です。” ゆずたそ; 渡部 徹太郎; 伊藤 徹郎. 実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ. 株式会社技術評論社.

Slide 8

Slide 8 text

データを整理する 技術 8 ここからが本題です

Slide 9

Slide 9 text

こんなデータを例に ある通販業界企業の現場担当者からこんな依頼が 「売上向上につながる施策をデータから提案してほしい」 9 *ChatGPTによる生成データセットを基に作者によって編集した 何から始めよう… おつきみ / Otsukimi ©HYPERSPACE ©GBXD

Slide 10

Slide 10 text

重複や欠損の取り扱い - 1セルに値は一つ(第一正規化) - 表記の統一させる - 欠損(空欄)データを埋める(不明、999など) - 重複を削除する - セル結合はやめよう 10

Slide 11

Slide 11 text

蛇足 - ナチュラルキーを特定する - 表データやテーブルが一意になる列(変数) - ナチュラルキーを特定する事はビジネスモデルの理解に繋がる 11 名前だけでユニークにならないのはなぜか を考えると業務理解につながるよ - 1人で複数アカウント作れる? - たまたま同姓同名? おつきみ / Otsukimi ©HYPERSPACE ©GBXD

Slide 12

Slide 12 text

先ほどの取り扱いをデータに取り入れる 最低限の集計(一定期間での売上や購買人数総計)が可能になる 12

Slide 13

Slide 13 text

CRUDを考える - 生成(Create)・参照(Read)・更新(Update)・削除(Delete)の頭文字をとったもの - データの入口から出口までの流れを把握できるようになる →顧客行動の理解に繋がる 13

Slide 14

Slide 14 text

マスタデータと履歴データに分ける ● マスタデータは商品一覧や社員一覧など ● マスタを作ることで表記ゆれを防げる 例:業種や商品のジャンル ● 履歴データを残す事でロールバックへの対応やデータ分析に応用できる(購買間隔 の算出、購買行動) ● データが見やすくなる 14

Slide 15

Slide 15 text

正規化/ER図を作ろう 15 ● 正規化:テーブルを使いやすいように整理すること ● 正規形:データベースにおいて冗長性をなくし、一貫性と効率性を保持したデータ 形式 ● 正規化にあたってER図が役に立つ

Slide 16

Slide 16 text

実際にER図を作ってみる 主従関係を突き止めよう 16 住所から性別は名前に紐づい ているから顧客マスタでまとめ られそう。 価格、個数、購入商品ジャン ルは商品名に紐づけられそ う。 おつきみ / Otsukimi ©HYPERSPACE ©GBXD

Slide 17

Slide 17 text

実際にER図を作ってみる データの関係性が分かりやすくなって、外部にも説明しやすくなった 17

Slide 18

Slide 18 text

実際にER図を作ってみる データの関係性が分かりやすくなって、外部にも説明しやすくなった 18 実はさっきの表の時点でもう正規化され ているんだ。ここでは第二正規形と呼ぶ よ。 おつきみ / Otsukimi ©HYPERSPACE ©GBXD

Slide 19

Slide 19 text

まとめ 19 振り返ってみましょう

Slide 20

Slide 20 text

まとめ データ利活用目的でデータを整理するには以下の方法がある。 - 1セルに一値/欠損と重複をなくす - ナチュラルキーを探す - マスターデータと履歴データに分ける - 正規化/ER図を作ろう 20

Slide 21

Slide 21 text

まとめ データ利活用目的でデータを整理するには以下の方法がある。 - 1セルに一値/欠損と重複をなくす - ナチュラルキーを探す - マスターデータと履歴データに分ける - 正規化/ER図を作ろう 21 全部を取り組みにいくのは難しい? それならまずはセル結合を使うことをやめる ことから始めましょう おつきみ / Otsukimi ©HYPERSPACE ©GBXD

Slide 22

Slide 22 text

出典・参考文献 - ゆずたそ; 渡部 徹太郎; 伊藤 徹郎. 実践的データ基盤への処方箋〜 ビジネス価値 創出のためのデータ・システム・ヒトのノウハウ. 株式会社技術評論社. - ミック. 達人に学ぶDB設計徹底指南書. 翔泳社 - 斎藤友樹. データ分析基盤入門. 技術評論社 - Reis, Joe; Housley, Matt. Fundamentals of Data Engineering (English Edition). O'Reilly Media 22

Slide 23

Slide 23 text

End of File ご清聴ありがとうございました。 23