Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
初心者データエンジニアのAWSを用いたETL開発
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
takumi maki ( JSL )
December 23, 2024
0
7
初心者データエンジニアのAWSを用いたETL開発
みんなのPython勉強会#111 発表スライド
takumi maki ( JSL )
December 23, 2024
Tweet
Share
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Marketing to machines
jonoalderson
1
5k
Between Models and Reality
mayunak
2
230
Chasing Engaging Ingredients in Design
codingconduct
0
130
Done Done
chrislema
186
16k
How STYLIGHT went responsive
nonsquared
100
6k
Scaling GitHub
holman
464
140k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Embracing the Ebb and Flow
colly
88
5k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
Site-Speed That Sticks
csswizardry
13
1.1k
Transcript
初心者データエンジニアの AWSを用いたETL開発 牧卓見 ( t_maki )
- 2021年 日本システム技研 入社 - webアプリ開発エンジニアとして活動 - 今秋からデータエンジニアリングの仕事を担当 自己紹介
データエンジニアリング / ETL
上司から、お仕事の依頼 なんか、新規プロジェクトでさ ITエンジニア向けのサービスを作 りたいんだよねえ。 トレンドとか知りたいから、 記事 投稿サイトとかから データを 取ってきてよ。
毎週 (月09:00) の会議に そのデータを使いたいんだ 上司から、お仕事の依頼
• 経営陣はITエンジニアのトレンドを知りたい • データは記事投稿サイトから取ってくる • 毎週月曜日、朝 9時の会議にデータを使う 要件定義
• Qiita APIを使って1週間の記事を取得 • 1週間の中でいいね数 👍が多い記事をピック 基本設計
• AWS Glueで、ETL処理を実行 ◦ スケジュールは、会議前 月曜日 08:00 ◦ オリジナルデータは、 S3(JSON形式)とDynamoDBに格納
◦ 加工データは、 S3(TSV形式)に格納 • AWS CDKでリソースを構築 ◦ インフラのコード化( IaC) 詳細設計
AWS 構成図 オリジナルデータ 加工データ
EXTRACT AWS Glueで、ETL処理を実行 LOAD TRANSFORM LOAD
AWS CDKで、リソースを構築
AWS CDKでデータ活用の基盤を構築 Glue ジョブ用の IAMロール
スケジュールは会議前 8:00
無事、上司にデータを提出できました
• ETL開発の手順 ◦ ローカルで実行 & 検証 ◦ CDKでリソースを構築 ◦ AWS上で動作確認
学び
次への意欲 • 大規模なETL開発に挑戦してみたい ◦ Glue の ジョブタイプ 「Glue Ray」 を使ってみたい
この発表で、伝えたかったこと 少しでも、データエンジニアリングについて 興味を持っていただけたら幸いです。
大歓迎 !! • Python / django が好き • webアプリ開発が好き •
長野で働きたい (株) 日本システム技研 で一緒に働きませんか ?
• 【初心者向け】ETLとは?3種類の機能や導入メリット、おすすめツールを紹介 • ETL とは? - 抽出、変換、ロードの説明 - AWS •
Qiita API v2の仕様 • AWS Glue(分析用データ抽出、変換、ロード (ETL) ) • AWS CDK とは 参考