Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DataFusionのネットワークでつまづいたはなし
Search
yu_sa18
August 16, 2023
Technology
630
0
Share
DataFusionのネットワークでつまづいたはなし
セゾン情報システムズ クラウド LT 大会 vol.4 の資料です
https://saison-coloris.connpass.com/event/291496/
yu_sa18
August 16, 2023
More Decks by yu_sa18
See All by yu_sa18
BigQuery Continuous query
yu_sa18
0
140
BigQuery の AWS Glue フェデレーションデータセット
yu_sa18
0
120
Duet AI in BigQuery
yu_sa18
0
240
BigQuery Studio
yu_sa18
0
490
【Google Cloud】組織なしプロジェクトを組織へ移行する
yu_sa18
0
440
BigQueryテーブル最適化
yu_sa18
0
200
Datastream for BigQuery を使ってみた
yu_sa18
0
450
Other Decks in Technology
See All in Technology
JEP 522 Deep Dive - G1 GC同期コスト削減によるスループット向上を徹底検証&解説
tabatad
1
390
long-running-tasks
cipepser
2
440
イベントで大活躍する電子ペーパー名札 〜その3〜 / ビジュアルプログラミングIoTLT vol.23
you
PRO
0
170
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
2
100
AIが変えた"品質の守り方"
kkakizaki
13
5.4k
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
270
類似画像検索モデルの開発ノウハウ
lycorptech_jp
PRO
4
1k
OpenID Connectによるサービス間連携
takesection
0
140
OpenClawとHermesAgentでAI新入社員を作った話
takanoriyanada
0
140
ポスター発表&デモと総括 / Poster Presentations & Demonstrations and Summary
ks91
PRO
0
160
Javaコミュニティをもっと楽しむための9箇条
takasyou
0
630
さきさん文庫の書籍ができるまで
sakiengineer
0
320
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Paper Plane (Part 1)
katiecoart
PRO
0
8k
How STYLIGHT went responsive
nonsquared
100
6.1k
Are puppies a ranking factor?
jonoalderson
1
3.4k
Bash Introduction
62gerente
615
210k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
120
Claude Code のすすめ
schroneko
67
220k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Designing Experiences People Love
moore
143
24k
Transcript
Cloud Data Fusion のネットワークで つまづいたはなし 2023/8/15 澤木 佑果
自己紹介 2 セゾン情報システムズ 所属 DataSpider と PIMSYNC 維持開発担当 おいしいものを食べることが好き(最近はガリガリくんがお供) Google
Cloud では BigQuery と Cloud Storage をよく使っている
Cloud Data Fusion とは? 3 Google Cloud のフルマネージドのデータ統合サービス GUI でパイプラインを作成する
パイプラインの実行は Dataproc が行う
作りたいパイプライン 4 作りたかったのは Amazon RDS for PostgreSQL のデータを BigQuery に格納するパイプライン
BigQuery Amazon RDS
Amazon RDS に接続できない 5 Amazon RDS に接続するには AWS のセキュリティグループに 接続元の
IP アドレスを登録する必要がある では Cloud Data Fusion が使っている IP アドレスは どこで確認するんだろう?
Cloud Data Fusion のネットワーク 6 パイプラインを設計する設計環境と実行する実行環境がある 設計環境は Cloud Data Fusion
インスタンス、 実行環境は Dataproc クラスタが 稼働する さらに、Cloud Data Fusion には パブリックインスタンスと プライベートインスタンスがある [Cloud Data Fusion]ネットワーキング
Cloud Data Fusion のネットワーク 7 パブリック・プライベートの違いは実行環境が稼働する VPC ネットワーク パブリックインスタンス •
デフォルトの VPC ネットワークで稼働する • 簡単に作成できるが最低限のファイアウォールのみ設定されているのでセキュリ ティのリスクあり プライベートインスタンス • 任意の VPC ネットワーク上で稼働する • 稼働する VPC ネットワークの設定や、バージョンによってはインターネット接続す るために Cloud NAT が必要 • よりセキュアにパイプラインを実行できる [Cloud Data Fusion]ネットワーキング
動かしてみる ①パブリックインスタンス 8 設計環境の IP アドレスは見つけられなかった パイプラインをデプロイ後実行すると、 実行環境の Dataproc クラスタが生成される
動かしてみる ①パブリックインスタンス 9 Dataproc のノード VM にエフェメラル外部 IP アドレスが付与されていた
動かしてみる ②プライベートインスタンス 10 こちらも設計環境の IP アドレスは見つけられなかった パイプライン実行時、外部 IP アドレスが付与されていない Dataproc
ノードが作られているのを確認した
実際に使った構成 11 実行環境で Amazon RDS と接続できることをめざした プライベートインスタンスで Cloud Data Fusion
を作成し、 Cloud NAT を使うことで、Dataproc が Amazon RDS に接続するときの IP アドレスを見えるようにした
構築時のつまづきポイント① 12 Cloud NAT の IP アドレスを自動付与設定にすると、 Cloud NAT が必要な状況でないと
IP アドレスがわからない 別途外部 IP アドレスを持たない VM を用意することで Cloud NAT の IP アドレスを確認、AWS のセキュリティグループに追加する
構築時のつまづきポイント② 13 パイプラインを実行したらプロビジョニング状態から進まない Dataproc の詳細ページの警告文より、 各ノードが相互通信できるように ファイアウォールを設定する必要があった
つまづいてみて 14 検証時間は当初予想していたより増えたが、つまづいてよかった • Cloud Data Fusion 以外の各サービスの動きも確認して進めることで、 各サービスへの理解が深まった •
公式ドキュメントのチュートリアルが豊富なので、とりあえず作ってみるがやり やすい