Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
初心者データエンジニアのAWSを用いたETL開発
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
takumi maki ( JSL )
December 23, 2024
0
7
初心者データエンジニアのAWSを用いたETL開発
みんなのPython勉強会#111 発表スライド
takumi maki ( JSL )
December 23, 2024
Tweet
Share
Featured
See All Featured
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Navigating Weather and Climate Data
rabernat
0
110
So, you think you're a good person
axbom
PRO
2
1.9k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
160
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Practical Orchestrator
shlominoach
191
11k
How STYLIGHT went responsive
nonsquared
100
6k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Are puppies a ranking factor?
jonoalderson
1
2.7k
Test your architecture with Archunit
thirion
1
2.2k
Everyday Curiosity
cassininazir
0
130
Transcript
初心者データエンジニアの AWSを用いたETL開発 牧卓見 ( t_maki )
- 2021年 日本システム技研 入社 - webアプリ開発エンジニアとして活動 - 今秋からデータエンジニアリングの仕事を担当 自己紹介
データエンジニアリング / ETL
上司から、お仕事の依頼 なんか、新規プロジェクトでさ ITエンジニア向けのサービスを作 りたいんだよねえ。 トレンドとか知りたいから、 記事 投稿サイトとかから データを 取ってきてよ。
毎週 (月09:00) の会議に そのデータを使いたいんだ 上司から、お仕事の依頼
• 経営陣はITエンジニアのトレンドを知りたい • データは記事投稿サイトから取ってくる • 毎週月曜日、朝 9時の会議にデータを使う 要件定義
• Qiita APIを使って1週間の記事を取得 • 1週間の中でいいね数 👍が多い記事をピック 基本設計
• AWS Glueで、ETL処理を実行 ◦ スケジュールは、会議前 月曜日 08:00 ◦ オリジナルデータは、 S3(JSON形式)とDynamoDBに格納
◦ 加工データは、 S3(TSV形式)に格納 • AWS CDKでリソースを構築 ◦ インフラのコード化( IaC) 詳細設計
AWS 構成図 オリジナルデータ 加工データ
EXTRACT AWS Glueで、ETL処理を実行 LOAD TRANSFORM LOAD
AWS CDKで、リソースを構築
AWS CDKでデータ活用の基盤を構築 Glue ジョブ用の IAMロール
スケジュールは会議前 8:00
無事、上司にデータを提出できました
• ETL開発の手順 ◦ ローカルで実行 & 検証 ◦ CDKでリソースを構築 ◦ AWS上で動作確認
学び
次への意欲 • 大規模なETL開発に挑戦してみたい ◦ Glue の ジョブタイプ 「Glue Ray」 を使ってみたい
この発表で、伝えたかったこと 少しでも、データエンジニアリングについて 興味を持っていただけたら幸いです。
大歓迎 !! • Python / django が好き • webアプリ開発が好き •
長野で働きたい (株) 日本システム技研 で一緒に働きませんか ?
• 【初心者向け】ETLとは?3種類の機能や導入メリット、おすすめツールを紹介 • ETL とは? - 抽出、変換、ロードの説明 - AWS •
Qiita API v2の仕様 • AWS Glue(分析用データ抽出、変換、ロード (ETL) ) • AWS CDK とは 参考