Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
初心者データエンジニアのAWSを用いたETL開発
Search
takumi maki ( JSL )
December 23, 2024
0
7
初心者データエンジニアのAWSを用いたETL開発
みんなのPython勉強会#111 発表スライド
takumi maki ( JSL )
December 23, 2024
Tweet
Share
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
We Are The Robots
honzajavorek
0
140
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
52k
The Invisible Side of Design
smashingmag
302
51k
Producing Creativity
orderedlist
PRO
348
40k
Mind Mapping
helmedeiros
PRO
0
55
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
Transcript
初心者データエンジニアの AWSを用いたETL開発 牧卓見 ( t_maki )
- 2021年 日本システム技研 入社 - webアプリ開発エンジニアとして活動 - 今秋からデータエンジニアリングの仕事を担当 自己紹介
データエンジニアリング / ETL
上司から、お仕事の依頼 なんか、新規プロジェクトでさ ITエンジニア向けのサービスを作 りたいんだよねえ。 トレンドとか知りたいから、 記事 投稿サイトとかから データを 取ってきてよ。
毎週 (月09:00) の会議に そのデータを使いたいんだ 上司から、お仕事の依頼
• 経営陣はITエンジニアのトレンドを知りたい • データは記事投稿サイトから取ってくる • 毎週月曜日、朝 9時の会議にデータを使う 要件定義
• Qiita APIを使って1週間の記事を取得 • 1週間の中でいいね数 👍が多い記事をピック 基本設計
• AWS Glueで、ETL処理を実行 ◦ スケジュールは、会議前 月曜日 08:00 ◦ オリジナルデータは、 S3(JSON形式)とDynamoDBに格納
◦ 加工データは、 S3(TSV形式)に格納 • AWS CDKでリソースを構築 ◦ インフラのコード化( IaC) 詳細設計
AWS 構成図 オリジナルデータ 加工データ
EXTRACT AWS Glueで、ETL処理を実行 LOAD TRANSFORM LOAD
AWS CDKで、リソースを構築
AWS CDKでデータ活用の基盤を構築 Glue ジョブ用の IAMロール
スケジュールは会議前 8:00
無事、上司にデータを提出できました
• ETL開発の手順 ◦ ローカルで実行 & 検証 ◦ CDKでリソースを構築 ◦ AWS上で動作確認
学び
次への意欲 • 大規模なETL開発に挑戦してみたい ◦ Glue の ジョブタイプ 「Glue Ray」 を使ってみたい
この発表で、伝えたかったこと 少しでも、データエンジニアリングについて 興味を持っていただけたら幸いです。
大歓迎 !! • Python / django が好き • webアプリ開発が好き •
長野で働きたい (株) 日本システム技研 で一緒に働きませんか ?
• 【初心者向け】ETLとは?3種類の機能や導入メリット、おすすめツールを紹介 • ETL とは? - 抽出、変換、ロードの説明 - AWS •
Qiita API v2の仕様 • AWS Glue(分析用データ抽出、変換、ロード (ETL) ) • AWS CDK とは 参考