Slide 11
Slide 11 text
運用していて感じたこと
データ不整合に立ち向かう第一歩としてチェック自動化の仕組みを作るのはかなり有効だと思います。
これまで、1年以上運用してきた中でいくつか知見が得られました。
● slack へ通知することで過去の対応を検索しやすい
● slack への通知はチェック項目ごとにスレッドを分けると調査の際に非常に便利
● slack へ通知する量が多いと見切れてしまう。最初の方に不整合件数を表示しておくと増減が分かる
● 不整合データの通知は JSON などの形式が取り扱いやすい
● 不整合が解消されるまで毎日通知される様にすることで対応漏れが無くなる
● 根本的対策後もチェックを残しておくことで、対策の有効性の確認になる
● 分散システムでは正常時でも一時的に不整合に見える状態になるためリトライは必須
● 仕組みを本番環境から出来るだけ切り離すことで、気軽にチェックを追加できる
10