Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Alteryx で取り組むデータクレンジング
Search
TomokiYasuhara
September 05, 2023
Technology
0
270
Alteryx で取り組むデータクレンジング
DevelopersIO 2023 ビデオセッションの資料です。
動画
https://www.youtube.com/watch?v=VpItZqCl7PU
TomokiYasuhara
September 05, 2023
Tweet
Share
More Decks by TomokiYasuhara
See All by TomokiYasuhara
240313_8週連続ウェビナー_イチから学ぶImmuta
cm_yasuhara
0
660
セキュアかつスムーズなデータアクセス!Alteryxにおける認証情報管理の今をご紹介
cm_yasuhara
0
600
Other Decks in Technology
See All in Technology
多野優介
tanoyusuke
1
470
E2Eテスト設計_自動化のリアル___Playwrightでの実践とMCPの試み__AIによるテスト観点作成_.pdf
findy_eventslides
1
500
ZOZOのAI活用実践〜社内基盤からサービス応用まで〜
zozotech
PRO
0
200
Goにおける 生成AIによるコード生成の ベンチマーク評価入門
daisuketakeda
2
110
社内報はAIにやらせよう / Let AI handle the company newsletter
saka2jp
7
1.1k
データエンジニアがこの先生きのこるには...?
10xinc
0
450
多様な事業ドメインのクリエイターへ 価値を届けるための営みについて
massyuu
1
410
Trust as Infrastructure
bcantrill
0
350
ACA でMAGI システムを社内で展開しようとした話
mappie_kochi
1
290
バイブコーディングと継続的デプロイメント
nwiizo
2
460
小学4年生夏休みの自由研究「ぼくと Copilot エージェント」
taichinakamura
0
500
o11yで育てる、強い内製開発組織
_awache
3
120
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Writing Fast Ruby
sferik
629
62k
Site-Speed That Sticks
csswizardry
11
880
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Agile that works and the tools we love
rasmusluckow
331
21k
BBQ
matthewcrist
89
9.8k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
850
How STYLIGHT went responsive
nonsquared
100
5.8k
Making Projects Easy
brettharned
119
6.4k
KATA
mclloyd
32
15k
Embracing the Ebb and Flow
colly
88
4.8k
Transcript
Alteryxで取り組む データクレンジング 2023/8/11 アライアンス事業部 安原朋紀
自己紹介 2 氏名:安原朋紀 所属:クラスメソッド株式会社 アライアンス事業部 担当:Alteryx や Tableau に関する技術支援 DevelopersIO:https://dev.classmethod.jp/author/yasuhara-tomoki/
この動画でお話しすること 3 • 「データクレンジング」の概要と一般的な手順 • Alteryx でのデータクレンジングについて ◦ Alteryx の概要
◦ Alteryx でデータクレンジングを行うメリット ◦ 便利な機能を持つツール ◦ 簡単な設定でのデータクレンジング実施例 • お話ししないこと ◦ 名寄せの手順 ◦ Alteryx や各ツールの詳細 など
目次 4 • データクレンジングの基本 ◦ データクレンジングとは? ◦ 名寄せとの違い ◦ データクレンジングのステップ
• Alteryx によるデータクレンジング ◦ Alteryx とは? ◦ Alteryx で取り組むメリット ◦ クレンジングに利用可能なツールの例 • Alteryx によるデータクレンジングの実施例 • さいごに
データクレンジングの基本 5
データクレンジングとは 6 • 「データの表記を統一し、データ品質を整える作業」 • データの利用時に、表記の違いのために活用が困難な場面がある ◦ ひらがな、カタカナ、漢字、英語 ◦ 空白や区切り文字の有無
顧客名 内容 クラスメソッド株式会社 正式な名称 クラスメソッド 「株式会社」を省略 クラスメソッド(株) 株式会社を「(株)」と省略 クラスメソッドカブシキガイシャ 半角カナ クラスメソッド (株) 半角スペースを含む Classmethod, Inc. 英語表記
名寄せとの違い 7 • 名寄せ ◦ 「複数のデータソースに散らばっているデータを照合し、同じ情報を まとめること」 • 名寄せの対象データに、誤記や表記ゆれが含まれていると、名寄せ の精度や効率が低下してしまう
◦ 「名寄せ」を成功させるための前段階の作業として「データクレンジン グ」を行う
データクレンジングのステップ 8 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施
データクレンジングのステップ:クレンジングの目的・方針決定 9 • クレンジングの目的・方針決定 ◦ クレンジング対象のデータや量、どこまでの精度でクレンジングを行 うかを決定する 目的 対象のデータや量 精度
商品データを一意に特定できる状 態にする すべての商品データ クレンジングに使用するツールの 標準機能でクレンジング実施し、 その後、目検で判定を行う 直近で購買実績のある取引先企 業ごとに集計を行う 過去5年以内の購買履歴データ クレンジングに使用するツールの 標準機能でのみクレンジングを行 う 目的・方針の例
データクレンジングのステップ:データの状況把握 10 • 対象のデータを実際に確認するステップ • データがどのように汚れているかを確認 ◦ データの欠損、表記揺れ、重複といった観点から、現状を確認する
データクレンジングのステップ:クレンジングの実施 11 ・クレンジング対象外のデータ を除外する ・クレンジングの実施順を決定 する ・データ項目(カラム)を分ける かどうか検討する など
・目検結果をルールに反映 ・作成したルールに基づき、各 種ツールによるクレンジングを 実施する ・実施した結果を確認する ・分析者しか判断ができない データの確認 ・ツールで一括処理できない ケースがほとんどのため、変 換処理を追加するなどルール の更新を行う クレンジングルールの作成 クレンジング実施 目検での確認 必要に応じて、何度かサイクルまわす
Alteryx による データクレンジング 12
Alteryx とは? 13 • セルフサービス分析のプラットフォーム ◦ データの準備から分析・レポーティングまでを実施可能 • ツールと呼ばれる特定の機能を持ったアイコンを配置し、繋げていくこ とで、データ処理の流れをワークフローとして作成する
• GUIでの操作が基本 ◦ 普段コードを記述しないユーザーでも、データの読み込み、加工、分 析までの一連の処理を実装可能
Alteryx で取り組むメリット 14 • クレンジング時に利用可能な基本機能が豊富 • ワークフロー形式でデータ加工処理を作成する • 他ツールの機能を呼び出せる
クレンジングに利用可能な 基本機能が豊富 15
クレンジングに利用可能なツールの例① 16 • データの状況把握 ツール 概要 フィールドサマリーツール • 選択したフィールドのでデータ型に応じた要約情報を出力 文字列フィールド:最短の値、最長の値
数値フィールド:最小値、最大値、分布(ヒストグラム) 集計ツール・ユニークツール • 選択したフィールドのデータをグループ化し、重複データの有無を確認可能 • ユニークな値の数を確認可能 ソートツール • データの並べ替えが可能 • データの内容を実際に確認する際は、並べ替えられていることで確認が容易 になる場面がある
クレンジングに利用可能なツールの例② 17 • 変換(クレンジング処理) ツール 概要 データクレンジングツール • クレンジングに使用可能な機能がまとまったツール 大文字小文字変換、空白削除、不要な文字の一括削除 など
フォーミュラツール • フィールドに対して関数を適用できます • クレンジングに使用可能な関数が存在する regexreplace、replace、trim など 検索置換ツール • ユーザーが自作した変換マスターをもとにデータを変換可能 列分割ツール・正規表現ツール • フィールドを分割し、データ項目を分割する際に便利
ワークフロー形式で データ加工処理を作成する 18
ワークフロー形式でデータ加工処理を作成する 19 • 「どのような処理をどのような順番で行ったか」をワークフローを通して確 認できる ◦ 共有・レビューが容易 • 処理の変更が容易 ◦
データクレンジングでは、結果に応じて処理内容をアップデートすること がほとんど ◦ 既存の処理(ワークフロー)の任意の位置にツールを追加できる
他ツールの機能を呼び出せる 20
他ツールの機能を呼び出せる 21 • Python ツール・R ツール ◦ ワークフロー内で、データ分析・加工機能が豊富なプログラミング言 語の機能を利用可能 •
API の利用 ◦ ダウンロードツール ◦ 今後は、AI の活用にも期待
Alteryx による データクレンジングの実施例 22
設定 23 • 対象データ ◦ 架空のアンケートデータ • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)したい
• データの詳細 ◦ 件数:10,000件 ◦ データ項目:回答日付(ans_date)、所属企業(corp) ◦ 期間:2020-01-01 ~ 2023-06-30 ◦ アンケート回答時に、回答者の所属企業名を自由記述として手入力して いる →表記ゆれがある
サンプルデータの内容 24 • データの一部 「株式会社」の表記の違い 同一企業の可能性がある 欠損値
クレンジングの目的・方針決定 25 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)する
• 対象データ ◦ 直近の回答について確認する ◦ ここでは、2022年以降のデータを対象とする • 精度 ◦ クレンジングに使用するツールの標準機能でのみクレンジングを行う ▪ 目検による手作業での修正は実施しない
データの状況把握 26 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 以降は、Alteryx の画面でご紹介
さいごに 27 • データクレンジング ◦ 「データの表記を統一し、データ品質を整える作業」 ◦ データ分析や効率的な名寄せの前段階として実施 ◦ 効果的なデータクレンジングのためには、ステップを踏むことが必要
• Alteryx で取り組むメリット ◦ データクレンジングに便利なツールを標準で備えている ◦ ワークフロー形式のため、処理内容を理解しやすく、変更(追加・削 除)も容易
None