Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DataFusionのネットワークでつまづいたはなし
Search
yu_sa18
August 16, 2023
Technology
0
580
DataFusionのネットワークでつまづいたはなし
セゾン情報システムズ クラウド LT 大会 vol.4 の資料です
https://saison-coloris.connpass.com/event/291496/
yu_sa18
August 16, 2023
Tweet
Share
More Decks by yu_sa18
See All by yu_sa18
BigQuery Continuous query
yu_sa18
0
120
BigQuery の AWS Glue フェデレーションデータセット
yu_sa18
0
98
Duet AI in BigQuery
yu_sa18
0
160
BigQuery Studio
yu_sa18
0
450
【Google Cloud】組織なしプロジェクトを組織へ移行する
yu_sa18
0
310
BigQueryテーブル最適化
yu_sa18
0
190
Datastream for BigQuery を使ってみた
yu_sa18
0
410
Other Decks in Technology
See All in Technology
Figma Dev Mode MCP Serverを用いたUI開発
zoothezoo
0
100
オフィスビルを監視しよう:フィジカル×デジタルにまたがるSLI/SLO設計と運用の難しさ / Monitoring Office Buildings: The Challenge of Physical-Digital SLI/SLO Design & Operation
bitkey
1
370
SEQUENCE object comparison - db tech showcase 2025 LT2
nori_shinoda
0
290
Rethinking Incident Response: Context-Aware AI in Practice
rrreeeyyy
1
580
SREのためのeBPF活用ステップアップガイド
egmc
2
1.1k
United™️ Airlines®️ Customer®️ USA Contact Numbers: Complete 2025 Support Guide
flyunitedguide
0
790
LLM時代の検索
shibuiwilliam
2
670
AIでテストプロセス自動化に挑戦する
sakatakazunori
1
180
DatabricksにOLTPデータベース『Lakebase』がやってきた!
inoutk
0
160
AWS CDKの仕組み / how-aws-cdk-works
gotok365
10
970
【あのMCPって、どんな処理してるの?】 AWS CDKでの開発で便利なAWS MCP Servers特集
yoshimi0227
6
840
マルチプロダクト環境におけるSREの役割 / SRE NEXT 2025 lunch session
sugamasao
1
580
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Music & Morning Musume
bryan
46
6.7k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
For a Future-Friendly Web
brad_frost
179
9.8k
Facilitating Awesome Meetings
lara
54
6.5k
Being A Developer After 40
akosma
90
590k
A better future with KSS
kneath
238
17k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Code Review Best Practice
trishagee
69
19k
Why Our Code Smells
bkeepers
PRO
336
57k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.3k
Transcript
Cloud Data Fusion のネットワークで つまづいたはなし 2023/8/15 澤木 佑果
自己紹介 2 セゾン情報システムズ 所属 DataSpider と PIMSYNC 維持開発担当 おいしいものを食べることが好き(最近はガリガリくんがお供) Google
Cloud では BigQuery と Cloud Storage をよく使っている
Cloud Data Fusion とは? 3 Google Cloud のフルマネージドのデータ統合サービス GUI でパイプラインを作成する
パイプラインの実行は Dataproc が行う
作りたいパイプライン 4 作りたかったのは Amazon RDS for PostgreSQL のデータを BigQuery に格納するパイプライン
BigQuery Amazon RDS
Amazon RDS に接続できない 5 Amazon RDS に接続するには AWS のセキュリティグループに 接続元の
IP アドレスを登録する必要がある では Cloud Data Fusion が使っている IP アドレスは どこで確認するんだろう?
Cloud Data Fusion のネットワーク 6 パイプラインを設計する設計環境と実行する実行環境がある 設計環境は Cloud Data Fusion
インスタンス、 実行環境は Dataproc クラスタが 稼働する さらに、Cloud Data Fusion には パブリックインスタンスと プライベートインスタンスがある [Cloud Data Fusion]ネットワーキング
Cloud Data Fusion のネットワーク 7 パブリック・プライベートの違いは実行環境が稼働する VPC ネットワーク パブリックインスタンス •
デフォルトの VPC ネットワークで稼働する • 簡単に作成できるが最低限のファイアウォールのみ設定されているのでセキュリ ティのリスクあり プライベートインスタンス • 任意の VPC ネットワーク上で稼働する • 稼働する VPC ネットワークの設定や、バージョンによってはインターネット接続す るために Cloud NAT が必要 • よりセキュアにパイプラインを実行できる [Cloud Data Fusion]ネットワーキング
動かしてみる ①パブリックインスタンス 8 設計環境の IP アドレスは見つけられなかった パイプラインをデプロイ後実行すると、 実行環境の Dataproc クラスタが生成される
動かしてみる ①パブリックインスタンス 9 Dataproc のノード VM にエフェメラル外部 IP アドレスが付与されていた
動かしてみる ②プライベートインスタンス 10 こちらも設計環境の IP アドレスは見つけられなかった パイプライン実行時、外部 IP アドレスが付与されていない Dataproc
ノードが作られているのを確認した
実際に使った構成 11 実行環境で Amazon RDS と接続できることをめざした プライベートインスタンスで Cloud Data Fusion
を作成し、 Cloud NAT を使うことで、Dataproc が Amazon RDS に接続するときの IP アドレスを見えるようにした
構築時のつまづきポイント① 12 Cloud NAT の IP アドレスを自動付与設定にすると、 Cloud NAT が必要な状況でないと
IP アドレスがわからない 別途外部 IP アドレスを持たない VM を用意することで Cloud NAT の IP アドレスを確認、AWS のセキュリティグループに追加する
構築時のつまづきポイント② 13 パイプラインを実行したらプロビジョニング状態から進まない Dataproc の詳細ページの警告文より、 各ノードが相互通信できるように ファイアウォールを設定する必要があった
つまづいてみて 14 検証時間は当初予想していたより増えたが、つまづいてよかった • Cloud Data Fusion 以外の各サービスの動きも確認して進めることで、 各サービスへの理解が深まった •
公式ドキュメントのチュートリアルが豊富なので、とりあえず作ってみるがやり やすい