Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
初心者データエンジニアのAWSを用いたETL開発
Search
takumi maki ( JSL )
December 23, 2024
0
7
初心者データエンジニアのAWSを用いたETL開発
みんなのPython勉強会#111 発表スライド
takumi maki ( JSL )
December 23, 2024
Tweet
Share
Featured
See All Featured
The Cult of Friendly URLs
andyhume
79
6.7k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Done Done
chrislema
186
16k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.1k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
130
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
110
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.9k
Six Lessons from altMBA
skipperchong
29
4.1k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
42k
Speed Design
sergeychernyshev
33
1.4k
Transcript
初心者データエンジニアの AWSを用いたETL開発 牧卓見 ( t_maki )
- 2021年 日本システム技研 入社 - webアプリ開発エンジニアとして活動 - 今秋からデータエンジニアリングの仕事を担当 自己紹介
データエンジニアリング / ETL
上司から、お仕事の依頼 なんか、新規プロジェクトでさ ITエンジニア向けのサービスを作 りたいんだよねえ。 トレンドとか知りたいから、 記事 投稿サイトとかから データを 取ってきてよ。
毎週 (月09:00) の会議に そのデータを使いたいんだ 上司から、お仕事の依頼
• 経営陣はITエンジニアのトレンドを知りたい • データは記事投稿サイトから取ってくる • 毎週月曜日、朝 9時の会議にデータを使う 要件定義
• Qiita APIを使って1週間の記事を取得 • 1週間の中でいいね数 👍が多い記事をピック 基本設計
• AWS Glueで、ETL処理を実行 ◦ スケジュールは、会議前 月曜日 08:00 ◦ オリジナルデータは、 S3(JSON形式)とDynamoDBに格納
◦ 加工データは、 S3(TSV形式)に格納 • AWS CDKでリソースを構築 ◦ インフラのコード化( IaC) 詳細設計
AWS 構成図 オリジナルデータ 加工データ
EXTRACT AWS Glueで、ETL処理を実行 LOAD TRANSFORM LOAD
AWS CDKで、リソースを構築
AWS CDKでデータ活用の基盤を構築 Glue ジョブ用の IAMロール
スケジュールは会議前 8:00
無事、上司にデータを提出できました
• ETL開発の手順 ◦ ローカルで実行 & 検証 ◦ CDKでリソースを構築 ◦ AWS上で動作確認
学び
次への意欲 • 大規模なETL開発に挑戦してみたい ◦ Glue の ジョブタイプ 「Glue Ray」 を使ってみたい
この発表で、伝えたかったこと 少しでも、データエンジニアリングについて 興味を持っていただけたら幸いです。
大歓迎 !! • Python / django が好き • webアプリ開発が好き •
長野で働きたい (株) 日本システム技研 で一緒に働きませんか ?
• 【初心者向け】ETLとは?3種類の機能や導入メリット、おすすめツールを紹介 • ETL とは? - 抽出、変換、ロードの説明 - AWS •
Qiita API v2の仕様 • AWS Glue(分析用データ抽出、変換、ロード (ETL) ) • AWS CDK とは 参考