Slide 25
Slide 25 text
24
Glueの注意点
Glueジョブの同実行数の上限には注意
• 「1ジョブあたりの最大同時実行数:1,000」 vs 「1アカウントあたりの最大同時実行数:50」(こっちが適用)
Glueジョブは処理を細かく分割して、ジョブの並列度を上げるような用途には向かない
Glueジョブ(Spark)のログが大量に出る
• CloudWatch Logsにデフォルトでログ出力されるが、Sparkのシステムログが大量に勝手に出力され、
見たいログが埋もがち。コード内でloggerするときに接頭辞を工夫する必要がある
データソースの設計がSparkジョブの実装の複雑さと性能を左右 (S3ならファイル構造/フォルダ構成)
• シンプルなファイル構造にする
JSONならネストが深いとクローラがうまくスキーマ解釈できない(カスタム分類子を上手って回避できるかも)
Sparkジョブで頑張ってパースできるけど、実装が複雑になる
• S3のフォルダ構成はSparkジョブの性能に大きく関わる。
(例) s3://aaaa/bbbb/ccc/file.txt
→aaa、bbb、cccがそれぞれパーティションになり、ジョブ内でパーティションを指定してデータをロードする。
いい感じにフォルダ分割してないと、データロード時に無駄なものを読み込むことになる。