Slide 18
Slide 18 text
同期されたデータの差異を検知する機構を実装
AWS(Athena+Glue DataCatalog)と BigQuery 間でテーブル / Partition 毎に論理的な
差異が発生していないかチェック
1. 全レコードを md5 で Hash 化
2. 後続処理の Reducer で分散処理できる XOR を使うため、64 bit に分割し数値化
3. 全レコードから生成された 64 bit 数値を全て XOR
4. 各環境で生成された値に差分がないことを確認
Point 2 データの差分検知
Hashed record1(md5, 128)
Hashed record2(md5, 128)
Hashed record2(md5, 128)
…
record1
record2
record2
…
Hash1-1(64), Hash1-2(64)
Hash2-1(64), Hash2-2(64)
Hash2-1(64), Hash2-2(64)
…
Hash1-1(64) XOR Hash1-2(64)
XOR
Hash2-1(64) XOR Hash2-2(64)
XOR
Hash2-1(64) XOR Hash2-2(64)
…