Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Alteryx で取り組むデータクレンジング
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
TomokiYasuhara
September 05, 2023
Technology
0
290
Alteryx で取り組むデータクレンジング
DevelopersIO 2023 ビデオセッションの資料です。
動画
https://www.youtube.com/watch?v=VpItZqCl7PU
TomokiYasuhara
September 05, 2023
Tweet
Share
More Decks by TomokiYasuhara
See All by TomokiYasuhara
240313_8週連続ウェビナー_イチから学ぶImmuta
cm_yasuhara
0
710
セキュアかつスムーズなデータアクセス!Alteryxにおける認証情報管理の今をご紹介
cm_yasuhara
0
640
Other Decks in Technology
See All in Technology
マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察
markunet
2
230
OpenClawで回す組織運営
jacopen
3
680
Abuse report だけじゃない。AWS から緊急連絡が来る状況とは?昨今の攻撃や被害の事例の紹介と備えておきたい考え方について
kazzpapa3
1
390
「ストレッチゾーンに挑戦し続ける」ことって難しくないですか? メンバーの持続的成長を支えるEMの環境設計
sansantech
PRO
3
580
DX Improvement at Scale
ntk1000
3
450
20260305_【白金鉱業】分析者が地理情報を武器にするための軽量なアドホック分析環境
yucho147
3
220
[JAWSDAYS2026]Who is responsible for IAM
mizukibbb
0
340
作りっぱなしで終わらせない! 価値を出し続ける AI エージェントのための「信頼性」設計 / Designing Reliability for AI Agents that Deliver Continuous Value
aoto
PRO
2
270
EMからVPoEを経てCTOへ:マネジメントキャリアパスにおける葛藤と成長
kakehashi
PRO
9
1.5k
モブプログラミング再入門 ー 基本から見直す、AI時代のチーム開発の選択肢 ー / A Re-introduction of Mob Programming
takaking22
5
1.2k
[JAWS DAYS 2026]私の AWS DevOps Agent 推しポイント
furuton
0
130
楽しく学ぼう!コミュニティ入門 AWSと人が つむいできたストーリー
hiroramos4
PRO
1
180
Featured
See All Featured
The Curse of the Amulet
leimatthew05
1
9.8k
GraphQLとの向き合い方2022年版
quramy
50
14k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
64
53k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
280
エンジニアに許された特別な時間の終わり
watany
106
240k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
460
The Cost Of JavaScript in 2023
addyosmani
55
9.8k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Visualization
eitanlees
150
17k
GitHub's CSS Performance
jonrohan
1032
470k
Transcript
Alteryxで取り組む データクレンジング 2023/8/11 アライアンス事業部 安原朋紀
自己紹介 2 氏名:安原朋紀 所属:クラスメソッド株式会社 アライアンス事業部 担当:Alteryx や Tableau に関する技術支援 DevelopersIO:https://dev.classmethod.jp/author/yasuhara-tomoki/
この動画でお話しすること 3 • 「データクレンジング」の概要と一般的な手順 • Alteryx でのデータクレンジングについて ◦ Alteryx の概要
◦ Alteryx でデータクレンジングを行うメリット ◦ 便利な機能を持つツール ◦ 簡単な設定でのデータクレンジング実施例 • お話ししないこと ◦ 名寄せの手順 ◦ Alteryx や各ツールの詳細 など
目次 4 • データクレンジングの基本 ◦ データクレンジングとは? ◦ 名寄せとの違い ◦ データクレンジングのステップ
• Alteryx によるデータクレンジング ◦ Alteryx とは? ◦ Alteryx で取り組むメリット ◦ クレンジングに利用可能なツールの例 • Alteryx によるデータクレンジングの実施例 • さいごに
データクレンジングの基本 5
データクレンジングとは 6 • 「データの表記を統一し、データ品質を整える作業」 • データの利用時に、表記の違いのために活用が困難な場面がある ◦ ひらがな、カタカナ、漢字、英語 ◦ 空白や区切り文字の有無
顧客名 内容 クラスメソッド株式会社 正式な名称 クラスメソッド 「株式会社」を省略 クラスメソッド(株) 株式会社を「(株)」と省略 クラスメソッドカブシキガイシャ 半角カナ クラスメソッド (株) 半角スペースを含む Classmethod, Inc. 英語表記
名寄せとの違い 7 • 名寄せ ◦ 「複数のデータソースに散らばっているデータを照合し、同じ情報を まとめること」 • 名寄せの対象データに、誤記や表記ゆれが含まれていると、名寄せ の精度や効率が低下してしまう
◦ 「名寄せ」を成功させるための前段階の作業として「データクレンジン グ」を行う
データクレンジングのステップ 8 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施
データクレンジングのステップ:クレンジングの目的・方針決定 9 • クレンジングの目的・方針決定 ◦ クレンジング対象のデータや量、どこまでの精度でクレンジングを行 うかを決定する 目的 対象のデータや量 精度
商品データを一意に特定できる状 態にする すべての商品データ クレンジングに使用するツールの 標準機能でクレンジング実施し、 その後、目検で判定を行う 直近で購買実績のある取引先企 業ごとに集計を行う 過去5年以内の購買履歴データ クレンジングに使用するツールの 標準機能でのみクレンジングを行 う 目的・方針の例
データクレンジングのステップ:データの状況把握 10 • 対象のデータを実際に確認するステップ • データがどのように汚れているかを確認 ◦ データの欠損、表記揺れ、重複といった観点から、現状を確認する
データクレンジングのステップ:クレンジングの実施 11 ・クレンジング対象外のデータ を除外する ・クレンジングの実施順を決定 する ・データ項目(カラム)を分ける かどうか検討する など
・目検結果をルールに反映 ・作成したルールに基づき、各 種ツールによるクレンジングを 実施する ・実施した結果を確認する ・分析者しか判断ができない データの確認 ・ツールで一括処理できない ケースがほとんどのため、変 換処理を追加するなどルール の更新を行う クレンジングルールの作成 クレンジング実施 目検での確認 必要に応じて、何度かサイクルまわす
Alteryx による データクレンジング 12
Alteryx とは? 13 • セルフサービス分析のプラットフォーム ◦ データの準備から分析・レポーティングまでを実施可能 • ツールと呼ばれる特定の機能を持ったアイコンを配置し、繋げていくこ とで、データ処理の流れをワークフローとして作成する
• GUIでの操作が基本 ◦ 普段コードを記述しないユーザーでも、データの読み込み、加工、分 析までの一連の処理を実装可能
Alteryx で取り組むメリット 14 • クレンジング時に利用可能な基本機能が豊富 • ワークフロー形式でデータ加工処理を作成する • 他ツールの機能を呼び出せる
クレンジングに利用可能な 基本機能が豊富 15
クレンジングに利用可能なツールの例① 16 • データの状況把握 ツール 概要 フィールドサマリーツール • 選択したフィールドのでデータ型に応じた要約情報を出力 文字列フィールド:最短の値、最長の値
数値フィールド:最小値、最大値、分布(ヒストグラム) 集計ツール・ユニークツール • 選択したフィールドのデータをグループ化し、重複データの有無を確認可能 • ユニークな値の数を確認可能 ソートツール • データの並べ替えが可能 • データの内容を実際に確認する際は、並べ替えられていることで確認が容易 になる場面がある
クレンジングに利用可能なツールの例② 17 • 変換(クレンジング処理) ツール 概要 データクレンジングツール • クレンジングに使用可能な機能がまとまったツール 大文字小文字変換、空白削除、不要な文字の一括削除 など
フォーミュラツール • フィールドに対して関数を適用できます • クレンジングに使用可能な関数が存在する regexreplace、replace、trim など 検索置換ツール • ユーザーが自作した変換マスターをもとにデータを変換可能 列分割ツール・正規表現ツール • フィールドを分割し、データ項目を分割する際に便利
ワークフロー形式で データ加工処理を作成する 18
ワークフロー形式でデータ加工処理を作成する 19 • 「どのような処理をどのような順番で行ったか」をワークフローを通して確 認できる ◦ 共有・レビューが容易 • 処理の変更が容易 ◦
データクレンジングでは、結果に応じて処理内容をアップデートすること がほとんど ◦ 既存の処理(ワークフロー)の任意の位置にツールを追加できる
他ツールの機能を呼び出せる 20
他ツールの機能を呼び出せる 21 • Python ツール・R ツール ◦ ワークフロー内で、データ分析・加工機能が豊富なプログラミング言 語の機能を利用可能 •
API の利用 ◦ ダウンロードツール ◦ 今後は、AI の活用にも期待
Alteryx による データクレンジングの実施例 22
設定 23 • 対象データ ◦ 架空のアンケートデータ • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)したい
• データの詳細 ◦ 件数:10,000件 ◦ データ項目:回答日付(ans_date)、所属企業(corp) ◦ 期間:2020-01-01 ~ 2023-06-30 ◦ アンケート回答時に、回答者の所属企業名を自由記述として手入力して いる →表記ゆれがある
サンプルデータの内容 24 • データの一部 「株式会社」の表記の違い 同一企業の可能性がある 欠損値
クレンジングの目的・方針決定 25 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)する
• 対象データ ◦ 直近の回答について確認する ◦ ここでは、2022年以降のデータを対象とする • 精度 ◦ クレンジングに使用するツールの標準機能でのみクレンジングを行う ▪ 目検による手作業での修正は実施しない
データの状況把握 26 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 以降は、Alteryx の画面でご紹介
さいごに 27 • データクレンジング ◦ 「データの表記を統一し、データ品質を整える作業」 ◦ データ分析や効率的な名寄せの前段階として実施 ◦ 効果的なデータクレンジングのためには、ステップを踏むことが必要
• Alteryx で取り組むメリット ◦ データクレンジングに便利なツールを標準で備えている ◦ ワークフロー形式のため、処理内容を理解しやすく、変更(追加・削 除)も容易
None