Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Alteryx で取り組むデータクレンジング
Search
TomokiYasuhara
September 05, 2023
Technology
0
130
Alteryx で取り組むデータクレンジング
DevelopersIO 2023 ビデオセッションの資料です。
動画
https://www.youtube.com/watch?v=VpItZqCl7PU
TomokiYasuhara
September 05, 2023
Tweet
Share
More Decks by TomokiYasuhara
See All by TomokiYasuhara
240313_8週連続ウェビナー_イチから学ぶImmuta
cm_yasuhara
0
350
セキュアかつスムーズなデータアクセス!Alteryxにおける認証情報管理の今をご紹介
cm_yasuhara
0
450
Other Decks in Technology
See All in Technology
カード発行会社(イシュア)を 支えるシステム解説
yutadayo
0
160
社内LLMハッカソン2024発表資料
streamwest1629
0
370
120リポジトリを1つのMonorepoに統合した理由
disc99
1
300
Claude3 on Bedrock with Converse API + Tool use でチャットアプリを作成してみた/Building-a-Chat-App-Using-Claude3-on-Bedrock-with-the-Converse-API+Tool-Use
ren8k
0
480
AWSの生成AIサービス Amazon Bedrock入門!(2024/6月版)
minorun365
PRO
2
160
自動化と効率化のためにGitHub Actionsを使いこなそう
devops_vtj
4
460
MySQLのリリースモデルの変更点と最新アップデート / MySQLNewReleaseModel
yoshiakiyamasaki
2
260
デプロイして本番システムで使うことから考えるAI
shibuiwilliam
1
180
feature flag と OpenTelemetry
biwashi
4
790
PostmanのAIアシスタント Postbot / Postman's AI Assistant Postbot
yokawasa
1
140
Okioに愛を込めて
ryunen344
3
640
OSS活動のススメ / oss-activities
gotok365
4
450
Featured
See All Featured
Code Review Best Practice
trishagee
57
16k
How to train your dragon (web standard)
notwaldorf
78
5.4k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
How to Ace a Technical Interview
jacobian
273
22k
Art, The Web, and Tiny UX
lynnandtonic
290
19k
5 minutes of I Can Smell Your CMS
philhawksworth
200
19k
How to name files
jennybc
66
95k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
9k
Unsuck your backbone
ammeep
664
57k
Agile that works and the tools we love
rasmusluckow
325
20k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
34
6.2k
Visualization
eitanlees
137
14k
Transcript
Alteryxで取り組む データクレンジング 2023/8/11 アライアンス事業部 安原朋紀
自己紹介 2 氏名:安原朋紀 所属:クラスメソッド株式会社 アライアンス事業部 担当:Alteryx や Tableau に関する技術支援 DevelopersIO:https://dev.classmethod.jp/author/yasuhara-tomoki/
この動画でお話しすること 3 • 「データクレンジング」の概要と一般的な手順 • Alteryx でのデータクレンジングについて ◦ Alteryx の概要
◦ Alteryx でデータクレンジングを行うメリット ◦ 便利な機能を持つツール ◦ 簡単な設定でのデータクレンジング実施例 • お話ししないこと ◦ 名寄せの手順 ◦ Alteryx や各ツールの詳細 など
目次 4 • データクレンジングの基本 ◦ データクレンジングとは? ◦ 名寄せとの違い ◦ データクレンジングのステップ
• Alteryx によるデータクレンジング ◦ Alteryx とは? ◦ Alteryx で取り組むメリット ◦ クレンジングに利用可能なツールの例 • Alteryx によるデータクレンジングの実施例 • さいごに
データクレンジングの基本 5
データクレンジングとは 6 • 「データの表記を統一し、データ品質を整える作業」 • データの利用時に、表記の違いのために活用が困難な場面がある ◦ ひらがな、カタカナ、漢字、英語 ◦ 空白や区切り文字の有無
顧客名 内容 クラスメソッド株式会社 正式な名称 クラスメソッド 「株式会社」を省略 クラスメソッド(株) 株式会社を「(株)」と省略 クラスメソッドカブシキガイシャ 半角カナ クラスメソッド (株) 半角スペースを含む Classmethod, Inc. 英語表記
名寄せとの違い 7 • 名寄せ ◦ 「複数のデータソースに散らばっているデータを照合し、同じ情報を まとめること」 • 名寄せの対象データに、誤記や表記ゆれが含まれていると、名寄せ の精度や効率が低下してしまう
◦ 「名寄せ」を成功させるための前段階の作業として「データクレンジン グ」を行う
データクレンジングのステップ 8 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施
データクレンジングのステップ:クレンジングの目的・方針決定 9 • クレンジングの目的・方針決定 ◦ クレンジング対象のデータや量、どこまでの精度でクレンジングを行 うかを決定する 目的 対象のデータや量 精度
商品データを一意に特定できる状 態にする すべての商品データ クレンジングに使用するツールの 標準機能でクレンジング実施し、 その後、目検で判定を行う 直近で購買実績のある取引先企 業ごとに集計を行う 過去5年以内の購買履歴データ クレンジングに使用するツールの 標準機能でのみクレンジングを行 う 目的・方針の例
データクレンジングのステップ:データの状況把握 10 • 対象のデータを実際に確認するステップ • データがどのように汚れているかを確認 ◦ データの欠損、表記揺れ、重複といった観点から、現状を確認する
データクレンジングのステップ:クレンジングの実施 11 ・クレンジング対象外のデータ を除外する ・クレンジングの実施順を決定 する ・データ項目(カラム)を分ける かどうか検討する など
・目検結果をルールに反映 ・作成したルールに基づき、各 種ツールによるクレンジングを 実施する ・実施した結果を確認する ・分析者しか判断ができない データの確認 ・ツールで一括処理できない ケースがほとんどのため、変 換処理を追加するなどルール の更新を行う クレンジングルールの作成 クレンジング実施 目検での確認 必要に応じて、何度かサイクルまわす
Alteryx による データクレンジング 12
Alteryx とは? 13 • セルフサービス分析のプラットフォーム ◦ データの準備から分析・レポーティングまでを実施可能 • ツールと呼ばれる特定の機能を持ったアイコンを配置し、繋げていくこ とで、データ処理の流れをワークフローとして作成する
• GUIでの操作が基本 ◦ 普段コードを記述しないユーザーでも、データの読み込み、加工、分 析までの一連の処理を実装可能
Alteryx で取り組むメリット 14 • クレンジング時に利用可能な基本機能が豊富 • ワークフロー形式でデータ加工処理を作成する • 他ツールの機能を呼び出せる
クレンジングに利用可能な 基本機能が豊富 15
クレンジングに利用可能なツールの例① 16 • データの状況把握 ツール 概要 フィールドサマリーツール • 選択したフィールドのでデータ型に応じた要約情報を出力 文字列フィールド:最短の値、最長の値
数値フィールド:最小値、最大値、分布(ヒストグラム) 集計ツール・ユニークツール • 選択したフィールドのデータをグループ化し、重複データの有無を確認可能 • ユニークな値の数を確認可能 ソートツール • データの並べ替えが可能 • データの内容を実際に確認する際は、並べ替えられていることで確認が容易 になる場面がある
クレンジングに利用可能なツールの例② 17 • 変換(クレンジング処理) ツール 概要 データクレンジングツール • クレンジングに使用可能な機能がまとまったツール 大文字小文字変換、空白削除、不要な文字の一括削除 など
フォーミュラツール • フィールドに対して関数を適用できます • クレンジングに使用可能な関数が存在する regexreplace、replace、trim など 検索置換ツール • ユーザーが自作した変換マスターをもとにデータを変換可能 列分割ツール・正規表現ツール • フィールドを分割し、データ項目を分割する際に便利
ワークフロー形式で データ加工処理を作成する 18
ワークフロー形式でデータ加工処理を作成する 19 • 「どのような処理をどのような順番で行ったか」をワークフローを通して確 認できる ◦ 共有・レビューが容易 • 処理の変更が容易 ◦
データクレンジングでは、結果に応じて処理内容をアップデートすること がほとんど ◦ 既存の処理(ワークフロー)の任意の位置にツールを追加できる
他ツールの機能を呼び出せる 20
他ツールの機能を呼び出せる 21 • Python ツール・R ツール ◦ ワークフロー内で、データ分析・加工機能が豊富なプログラミング言 語の機能を利用可能 •
API の利用 ◦ ダウンロードツール ◦ 今後は、AI の活用にも期待
Alteryx による データクレンジングの実施例 22
設定 23 • 対象データ ◦ 架空のアンケートデータ • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)したい
• データの詳細 ◦ 件数:10,000件 ◦ データ項目:回答日付(ans_date)、所属企業(corp) ◦ 期間:2020-01-01 ~ 2023-06-30 ◦ アンケート回答時に、回答者の所属企業名を自由記述として手入力して いる →表記ゆれがある
サンプルデータの内容 24 • データの一部 「株式会社」の表記の違い 同一企業の可能性がある 欠損値
クレンジングの目的・方針決定 25 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)する
• 対象データ ◦ 直近の回答について確認する ◦ ここでは、2022年以降のデータを対象とする • 精度 ◦ クレンジングに使用するツールの標準機能でのみクレンジングを行う ▪ 目検による手作業での修正は実施しない
データの状況把握 26 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 以降は、Alteryx の画面でご紹介
さいごに 27 • データクレンジング ◦ 「データの表記を統一し、データ品質を整える作業」 ◦ データ分析や効率的な名寄せの前段階として実施 ◦ 効果的なデータクレンジングのためには、ステップを踏むことが必要
• Alteryx で取り組むメリット ◦ データクレンジングに便利なツールを標準で備えている ◦ ワークフロー形式のため、処理内容を理解しやすく、変更(追加・削 除)も容易
None