Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Alteryx で取り組むデータクレンジング
Search
TomokiYasuhara
September 05, 2023
Technology
0
210
Alteryx で取り組むデータクレンジング
DevelopersIO 2023 ビデオセッションの資料です。
動画
https://www.youtube.com/watch?v=VpItZqCl7PU
TomokiYasuhara
September 05, 2023
Tweet
Share
More Decks by TomokiYasuhara
See All by TomokiYasuhara
240313_8週連続ウェビナー_イチから学ぶImmuta
cm_yasuhara
0
480
セキュアかつスムーズなデータアクセス!Alteryxにおける認証情報管理の今をご紹介
cm_yasuhara
0
500
Other Decks in Technology
See All in Technology
フロントエンド設計にモブ設計を導入してみた / 20241212_cloudsign_TechFrontMeetup
bengo4com
0
1.9k
Ruby on Railsで作る銘柄スクリーニング
shoe116
0
120
あの日俺達が夢見たサーバレスアーキテクチャ/the-serverless-architecture-we-dreamed-of
tomoki10
0
280
大幅アップデートされたRagas v0.2をキャッチアップ
os1ma
2
380
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
340
re:Invent2024のIaC周りのアップデート&セッションの共有/around-re-invent-2024-iac-updates
tomoki10
0
990
新機能Amazon GuardDuty Extended Threat Detectionはネ申って話
cmusudakeisuke
0
470
Splunk Enterpriseで S3のデータを直接検索してみた!
recruitengineers
PRO
2
140
『GRANBLUE FANTASY: Relink』続・最高の「没入感」を実現するカットシーン制作手法とそれを支える技術
cygames
0
130
レンジャーシステムズ | 会社紹介(採用ピッチ)
rssytems
0
130
Amazon SageMaker Unified Studio(Preview)、Lakehouse と Amazon S3 Tables
ishikawa_satoru
0
140
データパイプラインをなんとかした話 / Improving the Data Pipeline in IVRy
mirakui
1
330
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Docker and Python
trallard
41
3.1k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
KATA
mclloyd
29
14k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Code Reviewing Like a Champion
maltzj
520
39k
We Have a Design System, Now What?
morganepeng
51
7.3k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Git: the NoSQL Database
bkeepers
PRO
427
64k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Transcript
Alteryxで取り組む データクレンジング 2023/8/11 アライアンス事業部 安原朋紀
自己紹介 2 氏名:安原朋紀 所属:クラスメソッド株式会社 アライアンス事業部 担当:Alteryx や Tableau に関する技術支援 DevelopersIO:https://dev.classmethod.jp/author/yasuhara-tomoki/
この動画でお話しすること 3 • 「データクレンジング」の概要と一般的な手順 • Alteryx でのデータクレンジングについて ◦ Alteryx の概要
◦ Alteryx でデータクレンジングを行うメリット ◦ 便利な機能を持つツール ◦ 簡単な設定でのデータクレンジング実施例 • お話ししないこと ◦ 名寄せの手順 ◦ Alteryx や各ツールの詳細 など
目次 4 • データクレンジングの基本 ◦ データクレンジングとは? ◦ 名寄せとの違い ◦ データクレンジングのステップ
• Alteryx によるデータクレンジング ◦ Alteryx とは? ◦ Alteryx で取り組むメリット ◦ クレンジングに利用可能なツールの例 • Alteryx によるデータクレンジングの実施例 • さいごに
データクレンジングの基本 5
データクレンジングとは 6 • 「データの表記を統一し、データ品質を整える作業」 • データの利用時に、表記の違いのために活用が困難な場面がある ◦ ひらがな、カタカナ、漢字、英語 ◦ 空白や区切り文字の有無
顧客名 内容 クラスメソッド株式会社 正式な名称 クラスメソッド 「株式会社」を省略 クラスメソッド(株) 株式会社を「(株)」と省略 クラスメソッドカブシキガイシャ 半角カナ クラスメソッド (株) 半角スペースを含む Classmethod, Inc. 英語表記
名寄せとの違い 7 • 名寄せ ◦ 「複数のデータソースに散らばっているデータを照合し、同じ情報を まとめること」 • 名寄せの対象データに、誤記や表記ゆれが含まれていると、名寄せ の精度や効率が低下してしまう
◦ 「名寄せ」を成功させるための前段階の作業として「データクレンジン グ」を行う
データクレンジングのステップ 8 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施
データクレンジングのステップ:クレンジングの目的・方針決定 9 • クレンジングの目的・方針決定 ◦ クレンジング対象のデータや量、どこまでの精度でクレンジングを行 うかを決定する 目的 対象のデータや量 精度
商品データを一意に特定できる状 態にする すべての商品データ クレンジングに使用するツールの 標準機能でクレンジング実施し、 その後、目検で判定を行う 直近で購買実績のある取引先企 業ごとに集計を行う 過去5年以内の購買履歴データ クレンジングに使用するツールの 標準機能でのみクレンジングを行 う 目的・方針の例
データクレンジングのステップ:データの状況把握 10 • 対象のデータを実際に確認するステップ • データがどのように汚れているかを確認 ◦ データの欠損、表記揺れ、重複といった観点から、現状を確認する
データクレンジングのステップ:クレンジングの実施 11 ・クレンジング対象外のデータ を除外する ・クレンジングの実施順を決定 する ・データ項目(カラム)を分ける かどうか検討する など
・目検結果をルールに反映 ・作成したルールに基づき、各 種ツールによるクレンジングを 実施する ・実施した結果を確認する ・分析者しか判断ができない データの確認 ・ツールで一括処理できない ケースがほとんどのため、変 換処理を追加するなどルール の更新を行う クレンジングルールの作成 クレンジング実施 目検での確認 必要に応じて、何度かサイクルまわす
Alteryx による データクレンジング 12
Alteryx とは? 13 • セルフサービス分析のプラットフォーム ◦ データの準備から分析・レポーティングまでを実施可能 • ツールと呼ばれる特定の機能を持ったアイコンを配置し、繋げていくこ とで、データ処理の流れをワークフローとして作成する
• GUIでの操作が基本 ◦ 普段コードを記述しないユーザーでも、データの読み込み、加工、分 析までの一連の処理を実装可能
Alteryx で取り組むメリット 14 • クレンジング時に利用可能な基本機能が豊富 • ワークフロー形式でデータ加工処理を作成する • 他ツールの機能を呼び出せる
クレンジングに利用可能な 基本機能が豊富 15
クレンジングに利用可能なツールの例① 16 • データの状況把握 ツール 概要 フィールドサマリーツール • 選択したフィールドのでデータ型に応じた要約情報を出力 文字列フィールド:最短の値、最長の値
数値フィールド:最小値、最大値、分布(ヒストグラム) 集計ツール・ユニークツール • 選択したフィールドのデータをグループ化し、重複データの有無を確認可能 • ユニークな値の数を確認可能 ソートツール • データの並べ替えが可能 • データの内容を実際に確認する際は、並べ替えられていることで確認が容易 になる場面がある
クレンジングに利用可能なツールの例② 17 • 変換(クレンジング処理) ツール 概要 データクレンジングツール • クレンジングに使用可能な機能がまとまったツール 大文字小文字変換、空白削除、不要な文字の一括削除 など
フォーミュラツール • フィールドに対して関数を適用できます • クレンジングに使用可能な関数が存在する regexreplace、replace、trim など 検索置換ツール • ユーザーが自作した変換マスターをもとにデータを変換可能 列分割ツール・正規表現ツール • フィールドを分割し、データ項目を分割する際に便利
ワークフロー形式で データ加工処理を作成する 18
ワークフロー形式でデータ加工処理を作成する 19 • 「どのような処理をどのような順番で行ったか」をワークフローを通して確 認できる ◦ 共有・レビューが容易 • 処理の変更が容易 ◦
データクレンジングでは、結果に応じて処理内容をアップデートすること がほとんど ◦ 既存の処理(ワークフロー)の任意の位置にツールを追加できる
他ツールの機能を呼び出せる 20
他ツールの機能を呼び出せる 21 • Python ツール・R ツール ◦ ワークフロー内で、データ分析・加工機能が豊富なプログラミング言 語の機能を利用可能 •
API の利用 ◦ ダウンロードツール ◦ 今後は、AI の活用にも期待
Alteryx による データクレンジングの実施例 22
設定 23 • 対象データ ◦ 架空のアンケートデータ • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)したい
• データの詳細 ◦ 件数:10,000件 ◦ データ項目:回答日付(ans_date)、所属企業(corp) ◦ 期間:2020-01-01 ~ 2023-06-30 ◦ アンケート回答時に、回答者の所属企業名を自由記述として手入力して いる →表記ゆれがある
サンプルデータの内容 24 • データの一部 「株式会社」の表記の違い 同一企業の可能性がある 欠損値
クレンジングの目的・方針決定 25 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)する
• 対象データ ◦ 直近の回答について確認する ◦ ここでは、2022年以降のデータを対象とする • 精度 ◦ クレンジングに使用するツールの標準機能でのみクレンジングを行う ▪ 目検による手作業での修正は実施しない
データの状況把握 26 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 以降は、Alteryx の画面でご紹介
さいごに 27 • データクレンジング ◦ 「データの表記を統一し、データ品質を整える作業」 ◦ データ分析や効率的な名寄せの前段階として実施 ◦ 効果的なデータクレンジングのためには、ステップを踏むことが必要
• Alteryx で取り組むメリット ◦ データクレンジングに便利なツールを標準で備えている ◦ ワークフロー形式のため、処理内容を理解しやすく、変更(追加・削 除)も容易
None