Rights Reserved. 24 前提:CSV連携をトリガーにBigQuery側へデータ転送する →DataprocやDataflowのような分散処理基盤は現状は必要ないと判断し、Cloud Run Jobsでミニマムに構築 →ただ、今後要件次第で部分的に組み込む可能性はある 比較項目 Cloud Run Jobs Dataflow(Apache Beam) Dataproc(Spark) セットアップの容易さ コンテナ実行のみでOK (軽量) Apache Beam パイプラ インの定義が必要 Spark/Hadoop クラスタの セットアップが必要 運用負荷 フルマネージド・ジョブ単 発実行(シンプル) ジョブ監視・パイプライン 管理が必要 クラスタのスケーリングや 管理が必要 適したジョブ規模 小〜中規模のバッチ処理 向け ストリーミング&大規模 バッチ向け 大規模データの分散処理 向け 処理の柔軟性 コンテナ内で自由にコー ドを記述可能(言語制約なし) Apache Beam の制約あ り(特殊なAPIが必要) Sparkエンジンの制約あり スケーラビリティ 自動スケール(ジョブ単位 で実行) ストリーミングスケール可 能 Spark クラスタで分散処 理 コスト 実行中のみ従量課金(ア イドルコストなし) ジョブワーカーの最低コス ト発生 クラスタ維持コストがかか る Eventarc / Workflows との 連携 親和性が高く統合しやす い(シンプルなバッチ処理向 け) パイプライン管理が複雑 ワークフロー組み込みが 難しい ユースケース 軽量・中規模のバッチ処 理(ETL, データ整形, マッピ ング) ストリーミングデータ処理 (ログ分析, IoT, Big Data) 大規模バッチ(ML, DWH 処理, 分散ETL)