Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データを整理する技術

 データを整理する技術

2023年12月5日にCS集会にて発表したスライドになります。

本スライドは以下の対象者に向け、データ整理の重要性とデータ分析に生かせる考え方を中心に取り上げて作成しました。
【対象】
- DXに興味があるor推進したい人
- データサイエンスに興味ある初学者、学生
- 社内データを活かしたいけど、どうしていいか分からない人

いそひまかん

December 11, 2023
Tweet

More Decks by いそひまかん

Other Decks in Technology

Transcript

  1. 2 • VRCでは ・DS集会運営主催 ・たまにLT登壇します • 普段のお仕事 ・データサイエンティスト/WEBエンジニア ・通販/金融業界向けへのデータ解析 ・機械学習系プロダクト開発

    ・Python/Tableau使いです ・統計検定2級取得 • 趣味 ・ご飯巡り/飯テロ ・ホラーワールド巡り いそひまかん @Isokan_DD おつきみ / Otsukimi ©HYPERSPACE ©GBXD
  2. はじめに 目的 - データを整理する考え方を学んでデータ分析やDXの参考にしてもらいたい 対象者 - DXに興味があるor推進したい人 - データサイエンスに興味ある初学者、学生 -

    社内データを活かしたいけど、どうしていいか分からない人 このLTで取り扱わないもの - データウェアハウス・データレイク設計(教えてほしい…) - 具体的な前処理の技法 - ツールの紹介 3
  3. もくじ 1. はじめに 2. そもそもデータとは a. 構造データと非構造データ b. なぜデータの整理が必要なのか 3.

    データを整理する技術 a. 1セルに一値/欠損と重複をなくす b. ナチュラルキーを探す c. マスターデータと履歴データに分ける d. 正規化/ER図を作ろう 4. まとめ 5. 出典・参考文献 4
  4. 構造データと非構造データ 構造データ - データを格納する構成が定まっている - データの型が定まっている - データに対しての操作が楽 例:RDBに格納されてるデータ 非構造データ

    - データの構成が定まっていないデータ 例:エクセルファイル、動画、音楽ファイルなど *json, csvといった構成要素は決まっているが、データの型を定義されていないものを半構造データと呼びます *本LTではテキストファイル形式のデータに焦点を充てて構造データへ昇華させていくことを目的とします 6
  5. なぜデータの整理が必要なのか 7 やりたい分析に対して、データが不足していることはよくある “データ が 存在 し なけれ ば、 データ

    活用 が 進ま ない のは 当然 です。 優秀 な デー タ サイエンティスト を 採用 し ても 問題 は 解決 し ませ ん。 高度 な テクノロジー や アルゴリズム を 導入 し ても 問題 は 解決 し ませ ん。 この よう な 状況 を 打開 する には、 データ ソース を 整備 する こと が 重要 です。” ゆずたそ; 渡部 徹太郎; 伊藤 徹郎. 実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ. 株式会社技術評論社.
  6. まとめ データ利活用目的でデータを整理するには以下の方法がある。 - 1セルに一値/欠損と重複をなくす - ナチュラルキーを探す - マスターデータと履歴データに分ける - 正規化/ER図を作ろう

    21 全部を取り組みにいくのは難しい? それならまずはセル結合を使うことをやめる ことから始めましょう おつきみ / Otsukimi ©HYPERSPACE ©GBXD
  7. 出典・参考文献 - ゆずたそ; 渡部 徹太郎; 伊藤 徹郎. 実践的データ基盤への処方箋〜 ビジネス価値 創出のためのデータ・システム・ヒトのノウハウ.

    株式会社技術評論社. - ミック. 達人に学ぶDB設計徹底指南書. 翔泳社 - 斎藤友樹. データ分析基盤入門. 技術評論社 - Reis, Joe; Housley, Matt. Fundamentals of Data Engineering (English Edition). O'Reilly Media 22