増え続けるトランザクションデータと向き合う

増え続けるトランザクションデータと向き合う By Nakaya Ryota 2020/12/23

自己紹介ギフティ入社：2019年1月所属：CC Div. ProductUnit2 前職：バックオフィス系のパッケージベンダー(上流工程メイン) 好きなスタバメニュー：スターバックスラテ最近は Go より
Ruby 書いてるインフラも頑張りたい

みなさん RDBで増えすぎたレコードの管理ってどうしてますか？

　 (スキーマ変更したいけど、データ多すぎて安全に alter table かけられないな...) 僕「古いデータ消してもいいですか」顧客「物理削除は困っちゃうよねえ、監査とかあればデータ出さないといけないし。論理削除ならいいんじゃない？」僕「そうっすよねえ、はは」

そもそもデータの削除って何を元に意思決定すればいいんだっけ...？

トランザクションデータとはトランザクションデータとは、企業の情報システムなどが扱うデータの種類の一つで、業務に伴って発生した出来事の詳細を記録したデータのこと。 (IT用語辞典)

データは過去から未来に向かって増え続ける(自明の理)

データが増えすぎると RDBMS では一般的に以下のような問題が起こる • パフォーマンス劣化 • チューニング性劣化する • スキーマ変更にかかるコストの増大
RDBMS 以外でも問題は起こる • 記憶媒体(ハードディスク)の限界 • アプリケーションサーバーでの意図せぬメモリ圧迫 • select all したら100万行釣れちゃったてへぺろ

データが増えすぎるとデータベースのスケーラビリティをあらかじめ検討しておかないと、気づいた時にはメンテ不可能になっているかもしれないきちんと正規化して index を張ってあっても、大規模テーブルのスキーマ変更をダウンタイムなしで行うのはハードルが高い

じゃあどうすれば...？

データが増えすぎる前にできることを考える

データが増えすぎる前にこのデータがいつ作られるのかだけでなくいつ消されるのか(消してもいいのか)も検討した方が良い ※ 「消す」というのは無効化のことではなくその名の通り削除を表しています

データが増えすぎる前にこの世の中には大きく二種類のデータがある • 法定保存文書を電子化したもの • それ以外

データが増えすぎる前にこの世の中には大きく二種類のデータがある • 法定保存文書を電子化したもの →法律で保存期間が決められている • それ以外　→保存期間に関する公的な制約がない

法定保存文書とは、法律で文書の保存が義務付けられており、その保存期間も決められた文書のことデータが増えすぎる前に

データが増えすぎる前に法定保存文書の例 • 株主名簿(永年) • 取締役会議事録(10年以上) • 取引に関する帳簿(7年以上) • 仕訳帳､現金出納帳、売掛帳､買掛帳など
• 決算に関して作成された書類(7年以上) etc refs: https://www.storage-channel.jp/blog/legal-document-retention-period.html

以前は必ず紙での保管、提出が義務付けられていたが、近年は法定文書を電子化する動きが活発データが増えすぎる前に

普段はアクセスされることはないが、監査の際に開示することが法律的に求められるデータが増えすぎる前に (注：画像はイメージです)

開示ができなかったりすると最悪捕まりますデータが増えすぎる前に (注：画像はイメージです)

どのデータが法定文書に当たるのかは、ケースバイケースなので、事前に法務担当者としっかりチェックしましょう ※ 会計システムに連携済みであったとしても、　raw データを証跡として求められることは全然ある(らしい) データが増えすぎる前に

法定文書以外のデータはどうすればいいの...？？

法定文書以外のデータは保護期間を自由に決められる (法律的にはなんの制約もないので、別に保護しなくてもいい) データが増えすぎる前に

とは言えフリーダムだと判断基準がなくて困るので

SaaS サービスを提供する場合、 SLA(Service Level Agreement)、利用規約によってデータの管理方法を定めるのが一般的データが増えすぎる前に

データが増えすぎる前に経産省が公開している SaaS 向け SLA ガイドライン https://www.meti.go.jp/policy/netsecurity/secdoc/contents/downloadﬁls/080121saasgl.pdf

データが増えすぎる前にデータ消去の要件として、ゴミデータ(古いトランザクション)の取り扱いを定義しておく

要件定義をする際に、非機能要件として • 性能要件 • セキュリティ要件　みたいなものを定義すると思うんですけど、　その一項目として議論するイメージデータが増えすぎる前に

アプリケーションとして必要なデータの定義、不要だとみなせるデータの定義ができていれば、例えばバッチ処理などで定期的に古いデータを削除/ 退避するなどして、データベースがハイパフォーマンスな状態を維持できる(かもしれない) データが増えすぎる前に

(スキーマ変更したいな、マイグレーション実行や...！！) 僕「古いデータ消してもいいですか」顧客「物理削除は困っちゃうよねえ、監査とかあればデータ出さないといけないし。論理削除ならいいんじゃない？」僕「そうっすよねえ、はは」そもそもこんな議論が必要ない (かもしれない)

データが増え過ぎちゃった時にできることを考える

データは過去から未来に向かって増え続ける(2回目)

広がってもせいぜいアイビーリーグまでだろ... この設計でヨシッ! (注：筆者はマークのことが大好きです)

2019年時点での facebook のユーザー数

設計時点で未来のトランザクションのことなんてわからん (っていうか明日何が起こるかもわからんこの御時世 )

未来はわからないけどデータが増えすぎちゃった時に取れる行動を考えておくことはできる

何も考えずに物理的にデータを削除する • DELETE クエリを発行して、記憶媒体からデータを削除する • 削除する量にもよるが、物理削除してデフラグ、インデックスツリーの更新まで完了すればパフォーマンス的にポジティブな改善が見られる可能性が高い • 復元不可能なので、選択肢としては現実的ではない
データが増えすぎちゃった時に

古いデータをアーカイブする • ある基準でデータを退避して、アプリケーションからは必要なデータのみを扱えるようにする • 古いかどうかはアプリケーションの要件によって決まる • もう参照も更新もしないよ、とか • アーカイブのやり方は色々あって、アーカイブテーブルを作って
退避したり、データベースダンプファイルを作ったり • いづれにせよ大元のテーブルからは物理削除するデータが増えすぎちゃった時に

物理設計を見直す • secondary index の設計 • DBのテーブルを水平分割する(horizontal partitioning) • DBのテーブルを垂直分割する(vertical
partitioning) データが増えすぎちゃった時に(というか設計時に)

水平分割(シャーディング) 1つのテーブルの各行を別々のテーブルに分散させることデータが増えすぎちゃった時に(というか設計時に) user data

水平分割(シャーディング) 1つのテーブルの各行を別々のテーブルに分散させることデータが増えすぎちゃった時に(というか設計時に) 北海道 user 東日本 user 西日本 user user
data

水平分割(シャーディング) 1つのテーブルの各行を別々のテーブルに分散させること • 各テーブルの容量は減って取り扱いしやすくなる • パーティションキーの設計が難しい • データの偏り(ホットスポット)がで
きる • 一貫性の管理やテーブルをまたがるビューが欲しい時に union しなければいけないなどの面倒さはある • Cassandara や MongoDb など、保存先のノードを意識しなくてもいいテクノロジーもあるデータが増えすぎちゃった時に(というか設計時に) 北海道 user 東日本 user 西日本 user user data

垂直分割テーブルの一部の列だけを抜き出す形で分割を行うデータが増えすぎちゃった時に(というか設計時に) serial_number available_until message balance 111…. 2020/XX/YY happy
birthday 500 999... 2020/XX/YY happy new year 200

birthday 500 999... 2020/XX/YY happy new year 200 serial_number available_until message 111…. 2020/XX/YY happy birthday 999... 2020/XX/YY happy new year serial_number balance 111…. 500 999... 200

birthday 500 999... 2020/XX/YY happy new year 200 serial_number available_until message 111…. 2020/XX/YY happy birthday 999... 2020/XX/YY happy new year serial_number balance 111…. 500 999... 200 • よくあるのは列の内容の利用頻度によって分割するもの • この例だと、balance の更新でテーブルをロックしても、message などの表示のための select が待たされることはなくなる • 巨大な可変長カラム(BLOB、VARCHAR、および TEXT )は、脳死して select * すると不要にメモリを圧迫しかねないので、切り出しておくというのもあり

NoSQLなどスケーラビリティの高いテクノロジーを採用する • スキーマ変更も容易 • スキーマレス、列志向 • データ量が増えても select のパフォーマンスが劣化しづらい
• KVS なら 1億件あっても釣るのはほぼ一瞬(らしい) データが増えすぎちゃった時に(というか設計時に)

安全で楽しいデータライフを

増え続けるトランザクションデータと向き合う

増え続けるトランザクションデータと向き合う

More Decks by nakaryo

Other Decks in Technology

Featured

Transcript