Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Alteryx で取り組むデータクレンジング

TomokiYasuhara
September 05, 2023

Alteryx で取り組むデータクレンジング

DevelopersIO 2023 ビデオセッションの資料です。
動画
https://www.youtube.com/watch?v=VpItZqCl7PU

TomokiYasuhara

September 05, 2023
Tweet

More Decks by TomokiYasuhara

Other Decks in Technology

Transcript

  1. この動画でお話しすること 3 • 「データクレンジング」の概要と一般的な手順 • Alteryx でのデータクレンジングについて ◦ Alteryx の概要

    ◦ Alteryx でデータクレンジングを行うメリット ◦ 便利な機能を持つツール ◦ 簡単な設定でのデータクレンジング実施例 • お話ししないこと ◦ 名寄せの手順 ◦ Alteryx や各ツールの詳細 など
  2. 目次 4 • データクレンジングの基本 ◦ データクレンジングとは? ◦ 名寄せとの違い ◦ データクレンジングのステップ

    • Alteryx によるデータクレンジング ◦ Alteryx とは? ◦ Alteryx で取り組むメリット ◦ クレンジングに利用可能なツールの例 • Alteryx によるデータクレンジングの実施例 • さいごに
  3. データクレンジングとは 6 • 「データの表記を統一し、データ品質を整える作業」 • データの利用時に、表記の違いのために活用が困難な場面がある ◦ ひらがな、カタカナ、漢字、英語 ◦ 空白や区切り文字の有無

    顧客名 内容 クラスメソッド株式会社 正式な名称 クラスメソッド 「株式会社」を省略 クラスメソッド(株) 株式会社を「(株)」と省略 クラスメソッドカブシキガイシャ 半角カナ クラスメソッド (株) 半角スペースを含む Classmethod, Inc. 英語表記
  4. データクレンジングのステップ:クレンジングの目的・方針決定 9 • クレンジングの目的・方針決定 ◦ クレンジング対象のデータや量、どこまでの精度でクレンジングを行 うかを決定する 目的 対象のデータや量 精度

    商品データを一意に特定できる状 態にする すべての商品データ クレンジングに使用するツールの 標準機能でクレンジング実施し、 その後、目検で判定を行う 直近で購買実績のある取引先企 業ごとに集計を行う 過去5年以内の購買履歴データ クレンジングに使用するツールの 標準機能でのみクレンジングを行 う 目的・方針の例
  5. データクレンジングのステップ:クレンジングの実施 11 ・クレンジング対象外のデータ を除外する
 
 ・クレンジングの実施順を決定 する
 
 ・データ項目(カラム)を分ける かどうか検討する など


    
 ・目検結果をルールに反映
 ・作成したルールに基づき、各 種ツールによるクレンジングを 実施する
 ・実施した結果を確認する
 
 ・分析者しか判断ができない データの確認
 
 ・ツールで一括処理できない ケースがほとんどのため、変 換処理を追加するなどルール の更新を行う
 
 
 
 
 クレンジングルールの作成 クレンジング実施
 目検での確認
 必要に応じて、何度かサイクルまわす
  6. クレンジングに利用可能なツールの例① 16 • データの状況把握 ツール 概要 フィールドサマリーツール • 選択したフィールドのでデータ型に応じた要約情報を出力 文字列フィールド:最短の値、最長の値

    数値フィールド:最小値、最大値、分布(ヒストグラム) 集計ツール・ユニークツール • 選択したフィールドのデータをグループ化し、重複データの有無を確認可能 • ユニークな値の数を確認可能 ソートツール • データの並べ替えが可能 • データの内容を実際に確認する際は、並べ替えられていることで確認が容易 になる場面がある
  7. クレンジングに利用可能なツールの例② 17 • 変換(クレンジング処理) ツール 概要 データクレンジングツール • クレンジングに使用可能な機能がまとまったツール 大文字小文字変換、空白削除、不要な文字の一括削除 など

    フォーミュラツール • フィールドに対して関数を適用できます • クレンジングに使用可能な関数が存在する regexreplace、replace、trim など 検索置換ツール • ユーザーが自作した変換マスターをもとにデータを変換可能 列分割ツール・正規表現ツール • フィールドを分割し、データ項目を分割する際に便利
  8. ワークフロー形式でデータ加工処理を作成する 19 • 「どのような処理をどのような順番で行ったか」をワークフローを通して確 認できる ◦ 共有・レビューが容易 • 処理の変更が容易 ◦

    データクレンジングでは、結果に応じて処理内容をアップデートすること がほとんど ◦ 既存の処理(ワークフロー)の任意の位置にツールを追加できる
  9. 設定 23 • 対象データ ◦ 架空のアンケートデータ • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)したい

    • データの詳細 ◦ 件数:10,000件 ◦ データ項目:回答日付(ans_date)、所属企業(corp) ◦ 期間:2020-01-01 ~ 2023-06-30 ◦ アンケート回答時に、回答者の所属企業名を自由記述として手入力して いる →表記ゆれがある
  10. クレンジングの目的・方針決定 25 クレンジングの
 目的・方針決定
 データの状況把握
 クレンジングの実施
 • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)する

    • 対象データ ◦ 直近の回答について確認する ◦ ここでは、2022年以降のデータを対象とする • 精度 ◦ クレンジングに使用するツールの標準機能でのみクレンジングを行う ▪ 目検による手作業での修正は実施しない
  11. さいごに 27 • データクレンジング ◦ 「データの表記を統一し、データ品質を整える作業」 ◦ データ分析や効率的な名寄せの前段階として実施 ◦ 効果的なデータクレンジングのためには、ステップを踏むことが必要

    • Alteryx で取り組むメリット ◦ データクレンジングに便利なツールを標準で備えている ◦ ワークフロー形式のため、処理内容を理解しやすく、変更(追加・削 除)も容易