Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DataFusionのネットワークでつまづいたはなし
Search
yu_sa18
August 16, 2023
Technology
630
0
Share
DataFusionのネットワークでつまづいたはなし
セゾン情報システムズ クラウド LT 大会 vol.4 の資料です
https://saison-coloris.connpass.com/event/291496/
yu_sa18
August 16, 2023
More Decks by yu_sa18
See All by yu_sa18
BigQuery Continuous query
yu_sa18
0
140
BigQuery の AWS Glue フェデレーションデータセット
yu_sa18
0
120
Duet AI in BigQuery
yu_sa18
0
240
BigQuery Studio
yu_sa18
0
490
【Google Cloud】組織なしプロジェクトを組織へ移行する
yu_sa18
0
440
BigQueryテーブル最適化
yu_sa18
0
200
Datastream for BigQuery を使ってみた
yu_sa18
0
450
Other Decks in Technology
See All in Technology
string地獄を脱出する
sansantech
PRO
1
100
食べログのサーキットブレーカー導入を振り返って
atpons
1
150
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
5
190
ビジュアルプログラミングIoTLT vol.23
1ftseabass
PRO
0
160
Agentic Design Patterns
glaforge
0
290
AI時代に改めて考える、ドメイン駆動設計 - モデリングが「AIへの共通言語」になる
littlehands
8
2.9k
Claude code Orchestra
ozakiomumkj
2
690
さきさん文庫の書籍ができるまで
sakiengineer
0
320
APIテストとは?
nagix
0
160
類似画像検索モデルの開発ノウハウ
lycorptech_jp
PRO
4
1k
AIが変えた"品質の守り方"
kkakizaki
13
5.4k
Claude Codeですべての日常業務を爆速化しよう!
minorun365
PRO
16
16k
Featured
See All Featured
Embracing the Ebb and Flow
colly
88
5.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
230
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
70
39k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
Speed Design
sergeychernyshev
33
1.8k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
200
Design in an AI World
tapps
1
220
Why Our Code Smells
bkeepers
PRO
340
58k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
It's Worth the Effort
3n
188
29k
Ruling the World: When Life Gets Gamed
codingconduct
0
240
Transcript
Cloud Data Fusion のネットワークで つまづいたはなし 2023/8/15 澤木 佑果
自己紹介 2 セゾン情報システムズ 所属 DataSpider と PIMSYNC 維持開発担当 おいしいものを食べることが好き(最近はガリガリくんがお供) Google
Cloud では BigQuery と Cloud Storage をよく使っている
Cloud Data Fusion とは? 3 Google Cloud のフルマネージドのデータ統合サービス GUI でパイプラインを作成する
パイプラインの実行は Dataproc が行う
作りたいパイプライン 4 作りたかったのは Amazon RDS for PostgreSQL のデータを BigQuery に格納するパイプライン
BigQuery Amazon RDS
Amazon RDS に接続できない 5 Amazon RDS に接続するには AWS のセキュリティグループに 接続元の
IP アドレスを登録する必要がある では Cloud Data Fusion が使っている IP アドレスは どこで確認するんだろう?
Cloud Data Fusion のネットワーク 6 パイプラインを設計する設計環境と実行する実行環境がある 設計環境は Cloud Data Fusion
インスタンス、 実行環境は Dataproc クラスタが 稼働する さらに、Cloud Data Fusion には パブリックインスタンスと プライベートインスタンスがある [Cloud Data Fusion]ネットワーキング
Cloud Data Fusion のネットワーク 7 パブリック・プライベートの違いは実行環境が稼働する VPC ネットワーク パブリックインスタンス •
デフォルトの VPC ネットワークで稼働する • 簡単に作成できるが最低限のファイアウォールのみ設定されているのでセキュリ ティのリスクあり プライベートインスタンス • 任意の VPC ネットワーク上で稼働する • 稼働する VPC ネットワークの設定や、バージョンによってはインターネット接続す るために Cloud NAT が必要 • よりセキュアにパイプラインを実行できる [Cloud Data Fusion]ネットワーキング
動かしてみる ①パブリックインスタンス 8 設計環境の IP アドレスは見つけられなかった パイプラインをデプロイ後実行すると、 実行環境の Dataproc クラスタが生成される
動かしてみる ①パブリックインスタンス 9 Dataproc のノード VM にエフェメラル外部 IP アドレスが付与されていた
動かしてみる ②プライベートインスタンス 10 こちらも設計環境の IP アドレスは見つけられなかった パイプライン実行時、外部 IP アドレスが付与されていない Dataproc
ノードが作られているのを確認した
実際に使った構成 11 実行環境で Amazon RDS と接続できることをめざした プライベートインスタンスで Cloud Data Fusion
を作成し、 Cloud NAT を使うことで、Dataproc が Amazon RDS に接続するときの IP アドレスを見えるようにした
構築時のつまづきポイント① 12 Cloud NAT の IP アドレスを自動付与設定にすると、 Cloud NAT が必要な状況でないと
IP アドレスがわからない 別途外部 IP アドレスを持たない VM を用意することで Cloud NAT の IP アドレスを確認、AWS のセキュリティグループに追加する
構築時のつまづきポイント② 13 パイプラインを実行したらプロビジョニング状態から進まない Dataproc の詳細ページの警告文より、 各ノードが相互通信できるように ファイアウォールを設定する必要があった
つまづいてみて 14 検証時間は当初予想していたより増えたが、つまづいてよかった • Cloud Data Fusion 以外の各サービスの動きも確認して進めることで、 各サービスへの理解が深まった •
公式ドキュメントのチュートリアルが豊富なので、とりあえず作ってみるがやり やすい