Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Glue Studio Visual ETL実装時にハマったこと
Search
KOKI TAMURA
April 12, 2025
Programming
440
1
Share
Glue Studio Visual ETL実装時にハマったこと
KOKI TAMURA
April 12, 2025
More Decks by KOKI TAMURA
See All by KOKI TAMURA
DLTをふんわり理解しよう
kokitamura
0
92
RCPと宣言型ポリシーについてのお話し
kokitamura
1
340
Amazon Nova のトークナイザについて調べてみた
kokitamura
0
130
Other Decks in Programming
See All in Programming
CSC307 Lecture 17
javiergs
PRO
0
240
Skillは並べた。動かなかった。契約で繋いだ。— 65個のSkillから、自走する開発サイクルへ
junholee
0
760
New "Type" system on PicoRuby
pocke
1
190
誰も頼んでない機能を出荷した話
zekutax
0
140
Kubernetesを使わない環境にもCloud Nativeなデプロイを実現する / Enabling Cloud Native deployments without the complexity of Kubernetes
linyows
3
570
ReactとSvelteのその先、Ripple-TS / Beyond React and Svelte: Ripple-TS
ssssota
3
850
技術記事、AIに書かせるか、自分で書くか? 〜それでも私が自分の手で書く理由〜 / #QiitaConference
jnchito
2
1.1k
SPMマルチモジュールで テストカバレッジを取得する技法
yosshi4486
0
120
AIとRubyの静的型付け
ukin0k0
0
130
GitHub Copilot CLIのいいところ
htkym
2
1.1k
Agentic UI beyond Chats Architecture Patterns & Open Standards @ngMunich 05/2026
manfredsteyer
PRO
0
150
密結合なバックエンドから TypeScript のコードを生成する
kemuridama
1
360
Featured
See All Featured
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
350
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
250
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
Optimizing for Happiness
mojombo
378
71k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Writing Fast Ruby
sferik
630
63k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
330
Automating Front-end Workflow
addyosmani
1370
210k
Darren the Foodie - Storyboard
khoart
PRO
3
3.3k
Rails Girls Zürich Keynote
gr2m
96
14k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.8k
New Earth Scene 8
popppiees
3
2.3k
Transcript
Glue Studio Visual ETL実装時にハマったこと K.Tamura
自己紹介 田村 晃輝 虎ノ門のどこかのSIer企業ででエンジニアしています JAWS-UG 富山 / SRE支部メンバー @koki46926199 元
富山県民 エンジニア歴 2年 AWS歴は1年ほど 最近までAWSマルチアカウント管理の設計、構築業務を担当 今日のトピック: JAWS-UG 富山のTシャツ着忘れました
はじめに 普段ETL処理をスクリプトで実装している人が、GUIで実装することができる AWS Glue Visual Editor を触ってみたら大ハマりしたよってお話です…
質問 みなさん AWS Glue って使ったことありますか?? AWS Glue
AWS Glue ざっくり概要 ・ データの変換・統合(Jobs) ・ データの品質管理(Data Quality) ・ オーケストレーション(Workflow)
・ メタデータ管理(Data Catalog, Connections) https://docs.aws.amazon.com/ja_jp/glue/latest/dg/components-key-concepts.html
AWS Glue ざっくり概要 ・ データの変換・統合(Jobs) ・ データの品質管理(Data Quality) ・ オーケストレーション(Workflow)
・ メタデータ管理(Data Catalog, Connections) https://docs.aws.amazon.com/ja_jp/glue/latest/dg/components-key-concepts.html
データの変換・統合(Jobs)の種類 ・ Script Editor(Python Shell, Spark, Ray) ・ Notebook ・
Visual ETL(Spark)
用語解説 各処理を表すボックスのことを ノード と呼びます
ハマったこと一覧 ・ Visual作成時はScriptタブで編集しない ・ 列の型推測について ・ Decimal型の取り扱い ・ Unionするときのテーブルの列順について ・
カスタムコードの実装 ・ (おまけ)DynamicFrame で発生するエラーの追い方
Visual作成時はScriptタブで編集しない スクリプトを編集してジョブを保存するとGUIでの編集が出来なくなります(Visualタブも消失) よって、Visualを編集する場合は、Visual上のみで編集を行いましょう。 https://docs.aws.amazon.com/ja_jp/glue/latest/dg/edit-nodes-script.html Edit scriptクリックすると注意書きを表示してくれます
列の型推測について Visual EditorでDBなどのソースからデータ取り込み時、推測して型変換してくれます 検証時、Unionしたタイミングで型推測して勝手にすべてStringに変換される事象が発生 これに気付かずに集計後テーブルにマージしてしまったので、型の不整合でエラーになりました…
データ型の修正 各ノードのOutput Schemaでも修正は可能ですが、次ノードで再度型推測される場合があります なので、DBに登録行う直前か結合後に Change Schemaで明示的に型変換するのが確実
Decimal型の取り扱い Change Schemaでも桁数指定ができないので SQLで明示的に型変換(CAST)する形で修正していました decimal(15,0)で定義しているデータが、なぜか小数点2桁で表示されてしまう データ型を確認したところdecimal(10,2)に自動的に型変換されていました
Unionするときのテーブルの列順について 列順を完璧に合わせてからUnionしましょう 列が各テーブルで合ってない(列数、命名)はエラーになってはくれますが 列順違ってもそのまま実行されて、データにNullが入ってきます さらにデータも想定した列に入っていないことから、使い物にならなくなるので注意しましょう
カスタムコードの実装 データフレームを使って変換するときに使う Custom Transform は 実施後にそのまま後続のノードを設定すると 変換したデータが反映されていません
カスタムコードを実装した場合に必要になること Custom Transform 後に Select From Collection を挟みましょう この中の 0
にCustom Transformで変換したデータが入ってます
(おまけ)エラーの追い方 「o404.py WriteDynamicFrameの呼び出し中にエラー」 といった、読んでも分からないエラーが出てきます この場合Cloudwatch logs を確認してみると詳細が書いてありますので、見てみましょう
(おまけ)エラーの追い方 ここまで追っていくことで、ようやくエラーの詳細が判明しました 今回は、factory_cd カラムに対して NULL を挿入しようと したことが原因で、エラーが発生しているようです
まとめ ・ Visual作成時はScriptタブで編集しない ・ データ型を各ノードで確認しながら実装しよう ・ カスタムコードの実装後は、 Select From Collection
ノードでデータを取得しよう ・ DynamicFrame で発生するエラーは、 Cloudwatch logs を確認しよう
最後に JAWS-UG 富山 の宣伝 2025/05/10(土) Amazon Bedrock ハンズオン2本立てでやります! お時間ある方は、ぜひ一緒にハンズオンやりましょう タイムテーブル