$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DataFusionのネットワークでつまづいたはなし
Search
yu_sa18
August 16, 2023
Technology
0
600
DataFusionのネットワークでつまづいたはなし
セゾン情報システムズ クラウド LT 大会 vol.4 の資料です
https://saison-coloris.connpass.com/event/291496/
yu_sa18
August 16, 2023
Tweet
Share
More Decks by yu_sa18
See All by yu_sa18
BigQuery Continuous query
yu_sa18
0
130
BigQuery の AWS Glue フェデレーションデータセット
yu_sa18
0
110
Duet AI in BigQuery
yu_sa18
0
210
BigQuery Studio
yu_sa18
0
470
【Google Cloud】組織なしプロジェクトを組織へ移行する
yu_sa18
0
370
BigQueryテーブル最適化
yu_sa18
0
190
Datastream for BigQuery を使ってみた
yu_sa18
0
430
Other Decks in Technology
See All in Technology
Oracle Technology Night #95 GoldenGate 26ai の実装に迫る1
oracle4engineer
PRO
0
150
学習データって増やせばいいんですか?
ftakahashi
1
250
ML PM Talk #1 - ML PMの分類に関する考察
lycorptech_jp
PRO
1
730
グレートファイアウォールを自宅に建てよう
ctes091x
0
140
Haskell を武器にして挑む競技プログラミング ─ 操作的思考から意味モデル思考へ
naoya
4
830
日本Rubyの会の構造と実行とあと何か / hokurikurk01
takahashim
4
940
因果AIへの招待
sshimizu2006
0
930
AWS CLIの新しい認証情報設定方法aws loginコマンドの実態
wkm2
5
560
GitHub Copilotを使いこなす 実例に学ぶAIコーディング活用術
74th
3
1.7k
GitLab Duo Agent Platformで実現する“AI駆動・継続的サービス開発”と最新情報のアップデート
jeffi7
0
210
Kubernetes Multi-tenancy: Principles and Practices for Large Scale Internal Platforms
hhiroshell
0
110
EM歴1年10ヶ月のぼくがぶち当たった苦悩とこれからへ向けて
maaaato
0
270
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
970
Being A Developer After 40
akosma
91
590k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
We Have a Design System, Now What?
morganepeng
54
7.9k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Why Our Code Smells
bkeepers
PRO
340
57k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Transcript
Cloud Data Fusion のネットワークで つまづいたはなし 2023/8/15 澤木 佑果
自己紹介 2 セゾン情報システムズ 所属 DataSpider と PIMSYNC 維持開発担当 おいしいものを食べることが好き(最近はガリガリくんがお供) Google
Cloud では BigQuery と Cloud Storage をよく使っている
Cloud Data Fusion とは? 3 Google Cloud のフルマネージドのデータ統合サービス GUI でパイプラインを作成する
パイプラインの実行は Dataproc が行う
作りたいパイプライン 4 作りたかったのは Amazon RDS for PostgreSQL のデータを BigQuery に格納するパイプライン
BigQuery Amazon RDS
Amazon RDS に接続できない 5 Amazon RDS に接続するには AWS のセキュリティグループに 接続元の
IP アドレスを登録する必要がある では Cloud Data Fusion が使っている IP アドレスは どこで確認するんだろう?
Cloud Data Fusion のネットワーク 6 パイプラインを設計する設計環境と実行する実行環境がある 設計環境は Cloud Data Fusion
インスタンス、 実行環境は Dataproc クラスタが 稼働する さらに、Cloud Data Fusion には パブリックインスタンスと プライベートインスタンスがある [Cloud Data Fusion]ネットワーキング
Cloud Data Fusion のネットワーク 7 パブリック・プライベートの違いは実行環境が稼働する VPC ネットワーク パブリックインスタンス •
デフォルトの VPC ネットワークで稼働する • 簡単に作成できるが最低限のファイアウォールのみ設定されているのでセキュリ ティのリスクあり プライベートインスタンス • 任意の VPC ネットワーク上で稼働する • 稼働する VPC ネットワークの設定や、バージョンによってはインターネット接続す るために Cloud NAT が必要 • よりセキュアにパイプラインを実行できる [Cloud Data Fusion]ネットワーキング
動かしてみる ①パブリックインスタンス 8 設計環境の IP アドレスは見つけられなかった パイプラインをデプロイ後実行すると、 実行環境の Dataproc クラスタが生成される
動かしてみる ①パブリックインスタンス 9 Dataproc のノード VM にエフェメラル外部 IP アドレスが付与されていた
動かしてみる ②プライベートインスタンス 10 こちらも設計環境の IP アドレスは見つけられなかった パイプライン実行時、外部 IP アドレスが付与されていない Dataproc
ノードが作られているのを確認した
実際に使った構成 11 実行環境で Amazon RDS と接続できることをめざした プライベートインスタンスで Cloud Data Fusion
を作成し、 Cloud NAT を使うことで、Dataproc が Amazon RDS に接続するときの IP アドレスを見えるようにした
構築時のつまづきポイント① 12 Cloud NAT の IP アドレスを自動付与設定にすると、 Cloud NAT が必要な状況でないと
IP アドレスがわからない 別途外部 IP アドレスを持たない VM を用意することで Cloud NAT の IP アドレスを確認、AWS のセキュリティグループに追加する
構築時のつまづきポイント② 13 パイプラインを実行したらプロビジョニング状態から進まない Dataproc の詳細ページの警告文より、 各ノードが相互通信できるように ファイアウォールを設定する必要があった
つまづいてみて 14 検証時間は当初予想していたより増えたが、つまづいてよかった • Cloud Data Fusion 以外の各サービスの動きも確認して進めることで、 各サービスへの理解が深まった •
公式ドキュメントのチュートリアルが豊富なので、とりあえず作ってみるがやり やすい