Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
システム/データ品質保証のための Airflow 活用法
Search
Hank Ehly
October 20, 2022
Technology
0
620
システム/データ品質保証のための Airflow 活用法
Hank Ehly
October 20, 2022
Tweet
Share
More Decks by Hank Ehly
See All by Hank Ehly
Fivetranでデータ移動を自動化する
hankehly
0
600
Celeryの紹介と本番運用のTips
hankehly
0
970
ChatGPTを活用した 便利ツールの紹介
hankehly
1
1.3k
Efficient Energy Analytics with Airflow, Spark, and MLFlow
hankehly
0
340
Deferrable Operators入門
hankehly
0
670
【初心者/ハンズオン】Dockerコンテナの基礎知識
hankehly
0
550
Compositeパターン: オブジェクトの階層関係をエレガントに表現する方法
hankehly
0
320
10/29 Airflowの基礎を学ぶハンズオンワークショップ
hankehly
0
270
海外の記事からコードレビューのBest Practiceを集めてみました
hankehly
0
980
Other Decks in Technology
See All in Technology
GitLab Duo Agent Platformで実現する“AI駆動・継続的サービス開発”と最新情報のアップデート
jeffi7
0
210
20251209_WAKECareer_生成AIを活用した設計・開発プロセス
syobochim
5
1.3k
モダンデータスタック (MDS) の話とデータ分析が起こすビジネス変革
sutotakeshi
0
410
ML PM Talk #1 - ML PMの分類に関する考察
lycorptech_jp
PRO
1
710
プロダクトマネジメントの分業が生む「デリバリーの渋滞」を解消するTPMの越境
recruitengineers
PRO
3
720
EM歴1年10ヶ月のぼくがぶち当たった苦悩とこれからへ向けて
maaaato
0
270
Haskell を武器にして挑む競技プログラミング ─ 操作的思考から意味モデル思考へ
naoya
0
150
AWS CLIの新しい認証情報設定方法aws loginコマンドの実態
wkm2
3
380
第4回 「メタデータ通り」 リアル開催
datayokocho
0
120
計算機科学をRubyと歩む 〜DFA型正規表現エンジンをつくる~
ydah
3
190
Microsoft Agent 365 を 30 分でなんとなく理解する
skmkzyk
1
1k
小さな判断で育つ、大きな意思決定力 / 20251204 Takahiro Kinjo
shift_evolve
PRO
1
580
Featured
See All Featured
Code Review Best Practice
trishagee
74
19k
GitHub's CSS Performance
jonrohan
1032
470k
How to train your dragon (web standard)
notwaldorf
97
6.4k
The Language of Interfaces
destraynor
162
25k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.6k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Transcript
システム/データ品質保証のための Airflow 活用法 2022/10/20 hankehly
自己紹介 • Hank Ehly(名:ハンク 姓:イーリー) • ENECHANGE株式会社 • qiita.com/hankehly •
github.com/hankehly • connpass.com/user/hankehly
アジェンダ 1. Airflowとは 2. QAにどう役立てる
• ワークフロー管理システム(作成・実行・監視) • Airbnb、メルカリ、楽天、Tesla、Twitter、等々 Airflowとは • Python
ワークフロー名 実行頻度 成功/失敗回数
None
None
AirflowをQAにどう役立てるか 1. データパイプラインにおけるデータの品質担保 ② 結果の形式 は問題ないか? ① SQL実行 ③ 必要なデータは
入っているか? ./01_run_sql.sh ./02_check_data.sh ./03_send_email.sh … 品質保証しにくいパイプライン
AirflowをQAにどう役立てるか 2. 継続的な End-To-End (E2E) テストの実行 • 既存テストスクリプトそのまま利用できる(コンテナ/Python/Bash) • パラレル実行
• REST APIから実行可 • 通知機能(Slack、Eメール等) • 途中から再実行 • QAチームに実行権限を付与できる 開始 Seleniumで 画面操作 成功/失敗判定 Slack エラー通知 スクリーンショットを Google Driveに転送 Asanaチケット起票 NG OK Slack 成功通知
AirflowをQAにどう役立てるか 3. システムモニタリング • 定期的にシステムの “正確さ” およびデータの精度/鮮度を確認する • 結果を通知する /ping
は[200 OK]を 返している? 例)5分ごとに、サービス X,Y,Z にHTTPリクエスト送信 データ更新 されている? 例)毎週月曜日8時にデータの最終更新日を確認する
ワークショップ 10/29(土)にAirflowのハンズオンワークショップを開催予定 << Airflowのことが分かる記事