Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DataFusionのネットワークでつまづいたはなし
Search
yu_sa18
August 16, 2023
Technology
0
520
DataFusionのネットワークでつまづいたはなし
セゾン情報システムズ クラウド LT 大会 vol.4 の資料です
https://saison-coloris.connpass.com/event/291496/
yu_sa18
August 16, 2023
Tweet
Share
More Decks by yu_sa18
See All by yu_sa18
BigQuery Continuous query
yu_sa18
0
100
BigQuery の AWS Glue フェデレーションデータセット
yu_sa18
0
72
Duet AI in BigQuery
yu_sa18
0
140
BigQuery Studio
yu_sa18
0
380
【Google Cloud】組織なしプロジェクトを組織へ移行する
yu_sa18
0
240
BigQueryテーブル最適化
yu_sa18
0
180
Datastream for BigQuery を使ってみた
yu_sa18
0
380
Other Decks in Technology
See All in Technology
ホワイトボードチャレンジ 説明&実行資料
ichimichi
0
120
RSNA2024振り返り
nanachi
0
530
スタートアップ1人目QAエンジニアが QAチームを立ち上げ、“個”からチーム、 そして“組織”に成長するまで / How to set up QA team at reiwatravel
mii3king
2
1.3k
地方拠点で エンジニアリングマネージャーってできるの? 〜地方という制約を楽しむオーナーシップとコミュニティ作り〜
1coin
1
220
30分でわかる『アジャイルデータモデリング』
hanon52_
9
2.5k
滅・サービスクラス🔥 / Destruction Service Class
sinsoku
6
1.6k
Building Products in the LLM Era
ymatsuwitter
10
5k
Nekko Cloud、 これまでとこれから ~学生サークルが作る、 小さなクラウド
logica0419
2
880
現場で役立つAPIデザイン
nagix
32
11k
Cloud Spanner 導入で実現した快適な開発と運用について
colopl
1
320
君も受託系GISエンジニアにならないか
sudataka
2
410
Moved to https://speakerdeck.com/toshihue/presales-engineer-career-bridging-tech-biz-ja
toshihue
2
670
Featured
See All Featured
Git: the NoSQL Database
bkeepers
PRO
427
64k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
We Have a Design System, Now What?
morganepeng
51
7.4k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.4k
Unsuck your backbone
ammeep
669
57k
How STYLIGHT went responsive
nonsquared
98
5.4k
GraphQLとの向き合い方2022年版
quramy
44
13k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
630
Code Reviewing Like a Champion
maltzj
521
39k
Gamification - CAS2011
davidbonilla
80
5.1k
Transcript
Cloud Data Fusion のネットワークで つまづいたはなし 2023/8/15 澤木 佑果
自己紹介 2 セゾン情報システムズ 所属 DataSpider と PIMSYNC 維持開発担当 おいしいものを食べることが好き(最近はガリガリくんがお供) Google
Cloud では BigQuery と Cloud Storage をよく使っている
Cloud Data Fusion とは? 3 Google Cloud のフルマネージドのデータ統合サービス GUI でパイプラインを作成する
パイプラインの実行は Dataproc が行う
作りたいパイプライン 4 作りたかったのは Amazon RDS for PostgreSQL のデータを BigQuery に格納するパイプライン
BigQuery Amazon RDS
Amazon RDS に接続できない 5 Amazon RDS に接続するには AWS のセキュリティグループに 接続元の
IP アドレスを登録する必要がある では Cloud Data Fusion が使っている IP アドレスは どこで確認するんだろう?
Cloud Data Fusion のネットワーク 6 パイプラインを設計する設計環境と実行する実行環境がある 設計環境は Cloud Data Fusion
インスタンス、 実行環境は Dataproc クラスタが 稼働する さらに、Cloud Data Fusion には パブリックインスタンスと プライベートインスタンスがある [Cloud Data Fusion]ネットワーキング
Cloud Data Fusion のネットワーク 7 パブリック・プライベートの違いは実行環境が稼働する VPC ネットワーク パブリックインスタンス •
デフォルトの VPC ネットワークで稼働する • 簡単に作成できるが最低限のファイアウォールのみ設定されているのでセキュリ ティのリスクあり プライベートインスタンス • 任意の VPC ネットワーク上で稼働する • 稼働する VPC ネットワークの設定や、バージョンによってはインターネット接続す るために Cloud NAT が必要 • よりセキュアにパイプラインを実行できる [Cloud Data Fusion]ネットワーキング
動かしてみる ①パブリックインスタンス 8 設計環境の IP アドレスは見つけられなかった パイプラインをデプロイ後実行すると、 実行環境の Dataproc クラスタが生成される
動かしてみる ①パブリックインスタンス 9 Dataproc のノード VM にエフェメラル外部 IP アドレスが付与されていた
動かしてみる ②プライベートインスタンス 10 こちらも設計環境の IP アドレスは見つけられなかった パイプライン実行時、外部 IP アドレスが付与されていない Dataproc
ノードが作られているのを確認した
実際に使った構成 11 実行環境で Amazon RDS と接続できることをめざした プライベートインスタンスで Cloud Data Fusion
を作成し、 Cloud NAT を使うことで、Dataproc が Amazon RDS に接続するときの IP アドレスを見えるようにした
構築時のつまづきポイント① 12 Cloud NAT の IP アドレスを自動付与設定にすると、 Cloud NAT が必要な状況でないと
IP アドレスがわからない 別途外部 IP アドレスを持たない VM を用意することで Cloud NAT の IP アドレスを確認、AWS のセキュリティグループに追加する
構築時のつまづきポイント② 13 パイプラインを実行したらプロビジョニング状態から進まない Dataproc の詳細ページの警告文より、 各ノードが相互通信できるように ファイアウォールを設定する必要があった
つまづいてみて 14 検証時間は当初予想していたより増えたが、つまづいてよかった • Cloud Data Fusion 以外の各サービスの動きも確認して進めることで、 各サービスへの理解が深まった •
公式ドキュメントのチュートリアルが豊富なので、とりあえず作ってみるがやり やすい