yapcasia2015

我々はどのように冗長化を失敗したのか YAPC::Asia 2015 2015/08/22 (Day
2) kenjiskywalker Photos : https://www.flickr.com/photos/gsfc 1

ある思想を持ってシステム構築を行い失敗をした話をしますよろしくお願いします 2

話すこと挑戦したこと冗長化について Redis + Redis Sentinel
Consul MySQL + mysqlfailover consul-template hostsの順番クラウドという名の混乱対応冗長化の終わり、そして 3

挑戦したこと 4

式年遷宮インフラストラクチャ 5

式年遷宮とは 6

”神宮式年遷宮は、　神宮（伊勢神宮）において　行われる式年遷宮　（定期的に行われる遷宮）　である。”
Wikipedia調べ 7

何故式年遷宮を行うのか 8

神道での清浄さの維持技術の伝承という継続性 Wikipedia調べ ”式年遷宮が20年ごとに行われる理由についても、　同じく確たる記録はないため不明である。　推測される主な理由としては、
　以下の5点が挙げられる。” からの一部抜粋 9

式年遷宮とは長期的な品質の担保とその概念自体の継続性の維持を目的としたアーキテクチャではなかったのだろうか(仮説) 10

Webサービスの運用と式年遷宮 11

Kenji Naito a.k.a kenjiskywalker The world is not complete Photos
: https://www.ﬂickr.com/photos/gsfc YAPC::Asia 2014 2014/08/29 (day 1) 12

故障率曲線ＭＴＢＦ（平均故障間隔）ＭＴＴＲ（平均修理時間）辛さの平均値 13

「動くものは必ず壊れる」 Webサービスの運用相反するふたつの価値観を結びつけ成長させる必要がある 14 「24時間365日正常に動き続けなけければ
　ならない」

冗長化 15

”冗長化（じょうちょうか）とは、　システムの一部に　何らかの障害が発生した場合に備えて、　障害発生後でも　システム全体の機能を維持し
　続けられるように予備装置を　平常時からバックアップとして　配置し運用しておくこと。　冗長化によって得られる安全性は　冗長性と呼ばれる。” Wikipedia調べ 16

異常が発生した際に自動的にアクティブが遷移する設定を導入しているところは結構あると思う 17

しかし 18

障害発生時、正常に切り替わらないことがほとんどである（個人の感想であり効果・効能を示すものではありません） 19

そこで 20

平常時であっても常に冗長構成のアクティブ/スタンバイを切り替えることによって異常時の正常動作を
担保できるのではないか Active/Standby Active/Standby 21

それって式年遷宮では？ 22

それって式年遷宮では？ 23

式年遷宮インフラストラクチャ思想 (正常時も常に稼動系を切り替える) 24

構成 25

構成 Public Web Server A 02 Web Server A 01
Web Sever B 02 Web Server B 01 26

構成 MySQL A Slave MySQL A Master Private MySQL B
Slave MySQL B Master 27

構成 Private Public VPN 28

nginx + Redis(Slave) Application A 02 各ウェブサーバでは nginxとRedis、
Web Applicationが動いている nginx + Redis(Master) Application A 01 29

この構成で式年遷宮を実装する場合の課題 30

Master/Slave方式の冗長化されたシステムをどのように式年遷宮に対応させるか 31

Redisの場合 32

Redis Sentinel Redis Ver. 2.8.9 33

Redis Sentinel？基本スプリットブレインを予防するためには最低でもサーバが３台必要なのでは？
34

監視用のサーバを置いた場合監視用のサーバも遷移させる？ nginx + Redis Application A 01 Sentinel
x1 nginx + Redis Application A 02 Sentinel x1 nginx + Redis Application A 03-01 Sentinel x1 nginx + Redis Application A 03-01 Sentinel x1 ? 35

冗長化の為にシステム自体を複雑化するのは避けたい 36

台数をそのままに Redis Sentinelを導入 37

Master : Sentinel x1 Slave : Sentinel x2 Redis Master
Sentinel x1 Redis Master Sentinel x2 38

Masterが遷移した際に Redis Sentinelの数を操作する(Master x1/Slave x2)にする必要がある
Redis (New) Slave Sentinel x1 ⇣ Sentinel x2 Redis (New) Master Sentinel x2 ⇣ Sentinel x1 39

詰めが甘いところはあるが可能ではありそうだ 40

サーバに障害が発生した際にアプリケーションをどのように新しいMasterへ向き先を変えるか Redis Master Host 01 Redis
(New) Master Host 02 41

Consul Consul Ver. 0.5.0 42

Consul とは 43

Consulとはいい感じに DNSレコードを返すもの 45

このConsulを利用して RedisのMasterが遷移したことをアプリケーションへ知らせたい 46

#!/usr/bin/env ruby redis_name = 'foo-redis' fqdn = 'service.dc1.consul' master_redis_name =
"master.#{redis_name}.#{fqdn}" master_redis_hosts = `host -W 1 #{master_redis_name}| grep has`.split("\n") # マスターが複数台起動していたなら if master_redis_hosts.length > 1 exit 2 end redis_is_runnning = `netstat -l | grep -w 6379` # Redisが動いていなければfail if redis_is_runnning.nil? exit 2 end # Roleがmasterであればtrue my_redis_role = `/usr/local/bin/redis-cli info | grep role` my_redis_role.chomp! if "#{my_redis_role}" == "role:master" exit 0 else exit 2 end 47

"master.#{redis_name}.#{fqdn}" master_redis_hosts = `host -W 1 #{master_redis_name}| grep has`.split("\n") # マスターが複数台起動していたなら if master_redis_hosts.length > 1 exit 2 end redis_is_runnning = `netstat -l | grep -w 6379` # Redisが動いていなければfail if redis_is_runnning.nil? exit 2 end # Roleがmasterであればtrue my_redis_role = `/usr/local/bin/redis-cli info | grep role` my_redis_role.chomp! if "#{my_redis_role}" == "role:master" exit 0 else exit 2 end １、RedisのMasterのDNSが　　複数のIPアドレスを返していない２、自分のサーバでRedisが動いている３、その動いているRedisはMasterである 48

"master.#{redis_name}.#{fqdn}" master_redis_hosts = `host -W 1 #{master_redis_name}| grep has`.split("\n") # マスターが複数台起動していたなら if master_redis_hosts.length > 1 exit 2 end redis_is_runnning = `netstat -l | grep -w 6379` # Redisが動いていなければfail if redis_is_runnning.nil? exit 2 end # Roleがmasterであればtrue my_redis_role = `/usr/local/bin/redis-cli info | grep role` my_redis_role.chomp! if "#{my_redis_role}" == "role:master" exit 0 else exit 2 end この３つの条件を満たした時のみ RedisのMasterのDNSレコードを Consulで返すようにした 49

{ "service": { "id": "foo-redis master check in HOSTNAME", "tags":
["master"], "name": "foo-redis", "check": { "script": "/opt/consul/bin/redis-master-check.rb", "interval": "30s" } } } 50

「master.foo-redis.service.dc1.consul」というRedisのMasterの DNSレコードが利用できるようになる 51

nothing Old Master fail master.foo-redis.service.dc1.consul 52 master.foo-redis.service.dc1.consul 52 192.0.2.11 check
ok

nothing Old Master fail master.foo-redis.service.dc1.consul 53 master.foo-redis.service.dc1.consul 53 192.0.2.11 check
ok check ng nothing

nothing Old Master fail Run Redis fail over nothing master.foo-redis.service.dc1.consul
54 master.foo-redis.service.dc1.consul 54 192.0.2.11 check ok check ng failover nothing nothing

master.foo-redis.service.dc1.consul 55 192.0.2.11 check ok check ng failover complete failover
nothing 192.0.2.12(New) nothing

問題点このやり方だとConsul上で常にSlave側がFailした状態になってしまうので Consulを利用したステートメント管理の
知見のある方、教えてください& Master(OK) Slave(NG) 56

Consul ポート8600問題 57

ConsulがDNSを返してくれるポートが 8600ポートなので、全サーバに ConsulとDnsmasqを導入し、「.consul」のドメインへのリクエストは全て8600ポートに
問い合わせるようにした 58

conf-dir=/etc/dnsmasq.d server=/consul./127.0.0.1#8600 /etc/dnsmasq.conf /etc/dnsmasq.d/10-consul 設定例 59

Redisの冗長化完了 60

MySQLの場合 61

MySQL 5.6(GTID) mysqlfailover MySQL Ver. 5.6.22-2 mysql-utilities
Ver. 1.5.4-1 62

mysqlfailoverとは 63

mysqlfailoverとは他にも一撃でレプリケーション環境を構築できる mysqlreplicateなど便利コマンドが内包されている MySQLが提供してくれている MySQL
Utilitiesという便利ツールの中のひとつのコマンド 64

mysqlfailoverを利用することで障害時にMasterを遷移することはできるが Redisと同様にどのように MySQLを利用しているアプリケーションへ
稼動系の切り替えを伝達するか 65

Consul Consul Ver.0.5.0 66

mysqlfailoverには遷移実行前(before_exec)と遷移実行後(after_exec)で任意のコマンドが実行できる 67

この機能を利用して Consulで DNSレコードを操作してみましょう 68

#!/bin/bash curl -X PUT -d '{"Node":"foo-db-master"}' localhost:8500/v1/catalog/deregister curl -X DELETE
http://localhost:8500/v1/kv/foo-db-master 遷移実行前(before_exec) deregister-master-db.sh 遷移前にMasterのDNSレコードを削除し接続できないようにする 69

#!/bin/bash curl -X PUT -d '{"Node":"foo-db-slave"}' localhost:8500/v1/catalog/deregister curl -X PUT
-d '{"Node":"foo-db-master}", "Address":"192.0.2.110"}' \ localhost:8500/v1/catalog/register curl -X PUT -d '192.0.2.110' http://localhost:8500/v1/kv/foo-db-master 遷移実行後(after_exec) register-master-db.sh Masterの遷移が正常に完了した後 Masterのレコードを新MasterのIPアドレスで返す ※ kvは念のための設定 70

192.0.2.111 start failover foo-db-master.node.dc1.consul 71

192.0.2.111 start failover run before_exec deregister foo-db-master.node.dc1.consul 72

192.0.2.111 start failover run before_exec failover deregister nothing foo-db-master.node.dc1.consul 73

192.0.2.111 start failover run before_exec run after_exec failover deregister 192.0.2.112(New)
nothing foo-db-master.node.dc1.consul 74

MySQLの冗長化完了 75

しかし、ここで課題が内部の名前解決をすべて Consulに委ねてしまうと、 Consulの死 = サービスの死につながってしまう
76

これではせっかくサービスの継続性を狙って自動遷移する冗長構成を構築したものの Consulの存在自体が
リスクになる 77

あ、Consulが返してる DNSレコードを hostsに直接書いちゃお☺ 78

hostsにDNSレコードを書いておけば万が一 Consulの応答がなくなってもサービスへの影響はなくなる 79

consul-template consul-template Ver. v0.7.0 80

consul-template とは 81

consul-template とは Consulの管理しているDNSレコードをファイルに書き出す Consulの管理してるDNSレコードに変更があった際に任意のコマンドを実行できる便利ツール
82

変化があった場合に /etc/hostsを書き換えて Dnsmasqを再起動させるようにした consul = "127.0.0.1:8500" template {
source = "/etc/hosts.ctmpl" destination = "/etc/hosts" command = "service dnsmasq restart" } /etc/consul.d/consul-template.cfg 83

# This file generated by consul-template 127.0.0.1 localhost localhost.localdomain localhost4
localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 # node{{ range nodes }} {{.Address}} {{.Node}} {{.Address}} {{.Node}}.node.dc1.consul{{end}} {{range services}} # service {{.Name}}{{range service .Name}} {{.Address}} {{.Name}}.service.dc1.consul{{end}}{{end}} /etc/hosts.ctmpl 84

作成されるhostsファイル # This file generated by consul-template 127.0.0.1 localhost localhost.localdomain
localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 # node 192.0.2.111 foo-db-master 192.0.2.111 foo-db-master.node.dc1.consul 192.0.2.112 foo-db-slave 192.0.2.112 foo-db-slvave.node.dc1.consul ... # service bar-app 192.0.2.11 bar-app.service.dc1.consul 192.0.2.12 bar-app.service.dc1.consul 85

/usr/local/bin/consul-template \ -config=/etc/consul.d/consul-template.cfg 設定ファイルを指定し DaemontoolsやSupervisorなどで起動させておく 86

# node 192.0.2.11 foo-app01 192.0.2.11 foo-app01.node.dc1.consul 192.0.2.12 foo-app02 192.0.2.12 foo-app02.node.dc1.consul
192.0.2.13 foo-app03 192.0.2.13 foo-app03.node.dc1.consul # service foo-app 192.0.2.11 foo-app.service.dc1.consul 192.0.2.12 foo-app.service.dc1.consul 192.0.2.13 foo-app.service.dc1.consul 試しにfoo-app02を止めると 87

こうなる。便利こうなる # node 192.0.2.11 foo-app01 192.0.2.11 foo-app01.node.dc1.consul 192.0.2.13 foo-app03
192.0.2.13 foo-app03.node.dc1.consul # service foo-app 192.0.2.11 foo-app.service.dc1.consul 192.0.2.13 foo-app.service.dc1.consul 88

Redis Sentinel + Consul MySQL(GTID) + mysqlfailover + Consul Consul
+ consul-template 89

この時点で解決できていない課題 90

MySQLおよびRedisの遷移時のダウンタイム問題を解決できていない稼働系常時遷移を実践している人いたら
知見を下さい。よろしくお願いします& 91

今考えていることメモ Web API側、ネイティブアプリ側それぞれでデータストアにアクセスできない時に即エラーを返さず、
バッファリング機能を搭載しエラーまでのタイムアウト時間を伸ばすか？しかしその影響はどの範囲まで許容できる？ 92

などなど考えていたがいきなり100％を目指すのは難しい細かい機能リリース時に念のためメンテナンスを実施する昭和的運用だったので一旦は都度メンテナンスの
タイミングで正常系を遷移する予定だった 93

そして 94

この時構築中のシステムが乗るアプリケーションはリリースに追われ結合テストや負荷テストなど十二分に行われてはいないまま
リリース日が刻々と迫っていた 95

本題 96

我々はどのように冗長化を失敗したのか 97

問題 hostsの場合 98

内部間の通信が01, 02とある内の 01のみにアクセスが集中していた　 access no access 01 02 99

何が起こっていたのか 100

hostsに設定が書いてある場合上から順に見ていき、最初にヒットしたレコードを返す hosts --- # service foo-app
192.0.2.11 foo-app.service.dc1.consul 192.0.2.12 foo-app.service.dc1.consul --- 101 request response

01にしか処理が行かないのは当然といえば当然だったやる前に気付け問題 102

解決作 103

Dnsmasq nsswitch.conf Dnsmasq Ver. 2.48-14 104

全サーバにDnsmasqが稼働していたので nsswitch.confで hostsより先にDnsmasqを先に見るようにした 105

nsswitch.conf hostsの部分を書き換える hosts: files dns before: after: hosts: dns
files 106

DNSラウンドロビンされるようになった 107

問題 mysqlfailoverの場合 108

mysqlfailoverのログを見るとちょくちょくhealth checkに失敗していた 109

mysqlfailoverの仕組み 110

def is_alive(self): """Determine if connection to server is still alive.
Returns bool - True = alive, False = error or cannot connect. """ res = True try: if self.db_conn is None: res = False else: # ping and is_connected only work partially, try exec_query # to make sure connection is really alive retval = self.db_conn.is_connected() if retval: self.exec_query("SHOW DATABASES") else: res = False except: res = False return res Health Check時に MySQLに接続し SHOW DATABASESを実行 111

def _reconnect_master(self, pingtime=3): """Tries to reconnect to the master This
method tries to reconnect to the mast after 3 attemps, returns False. """ if self.master and self.master.is_alive(): return True is_connected = False i = 0 while i < 3: try: self.master.connect() is_connected = True break except: pass time.sleep(pingtime) i += 1 return is_connected 失敗した場合は ping(pingtime) x3 試す x3はハードコードされている 112

どうにか３回のリトライ中に成功はしているようだが、そもそもステージングで検証した時は Failは起こらなかった... 113

ping(pingtime) x3の回数を増やして様子を見る案もあったが Failの原因が不明のまま自動遷移の機構を入れておくのは危険だった
114

原因が不明なため、 Redisも含めた自動遷移のシステムを停止した 115

冗長化は幻しとなった 116

原因について 117

原因その１ VPNがおかしい 118

パブリック層からプライベート層への接続が日本中をめぐっていた 119

不要なルーティングを改修した 120

mysqladmin ping 121

原因その２謎のスロークエリ 123

時間によって同じクエリでもやたら遅いクエリが存在していた 124

クラウド上のDBサーバが乗っかっているホストの I/Oが忙しいのでは？と仮説を立て、DBサーバを別のホストに移動してもらった 125

Slow Queries 126

その３根本的原因そもそも利用していたクラウドサービスがはじまったばかりで
全然枯れていなかった 128

不穏な動作の原因は大体特定できたがネットワークの不調など予期しないタイミングで遷移されても困る 130

自動遷移の利便性 - ＭＴＴＲ（平均修理時間）の大幅な削減 - 復旧作業時のヒューマンエラー防止 - 圧倒的な満足感
- 人間がいない清らかな世界感 131

手動遷移の優位性 - 意図したタイミングで遷移が可能 - 冗長監視システム誤動作の心配がない I'm fail over
button Don't push me !! 132

復旧時間を犠牲にして、我々は自動遷移システムを止めたその代わり一撃で正確に遷移するようなヒューマンエラーの起こらない
仕組みを入れることにした 133

そして 134

のっかるアプリケーションも乗せるサーバ周りも問題を抱えたままリリースを日を迎えた 135

昼寝ができるぐらい遅いレスポンスタイム繰り返されるN+1クエリそれが要件の結果の動作だったのか今となっては
誰もわからない各機能 136

迫り来る圧倒的成長機会に感謝をしながら改修対応を行う日々が始まった ※もちろん若干盛っています
137

まとめ、学び 139

どれだけリリース直前まで炎上していても絶対に本番環境と同等のシステム構成で負荷テストをしよう実証
140

結合テストが難しい場合は各機能毎に負荷テストが実施できるようにしよう外部との依存部分を最小限のモックにするなど
結合を待ってから試験をすることは極力避けるようにしよう個別性能試験 141

使う理由が良くわからなくても自分が担当するところは最終的に自分が責任を持つことになるので疑問点をなくすために
完全に検証をやりきろう道具への理解と責任 142

期待するな、計測しよう 143

挑戦するなら徹底的に検証しよう 144

手に馴染んだ道具を使おう 145

当たり前のことを当たり前に正しく行おう 146

Production System is not your sandbox. 147

Webサービスが続く限り顧客へ価値を届け続けるために我々の稼働率の戦いはこれからも続く 148

次回予告 150

式年遷宮インフラストラクチャ三部作最終章 151

クラウドの中心で式年遷宮を叫んだ愚か者 Take care of system. 鋭意製作中
152

To be continued 153

おわりありがとうございました 154

Redis http://redis.io/ Redis Sentinel http://redis.io/topics/sentinel MySQL
https://www-jp.mysql.com/ MySQL Utilities https://dev.mysql.com/downloads/utilities/ Consul by HashiCorp https://www.consul.io/ consul-template https://github.com/hashicorp/consul-template Dnsmasq - network services for small networks. - Simon Kelley http://www.thekelleys.org.uk/dnsmasq/doc.html Consulと自作OSSを活用した100台規模のWebサービス運用 by FUJIWARA Shunichiro https://speakerdeck.com/fujiwara3/consultozi-zuo-osswohuo-yong-sita100tai-gui-mo- falsewebsabisuyun-yong 参考URL 155

参考URL 式年遷宮Infrastracture / さよならインターネット http://blog.kenjiskywalker.org/blog/2013/08/11/shikinen-sengoo-infrastracture/ 神宮式年遷宮 / Wikipedia
https://ja.wikipedia.org/wiki/%E7%A5%9E%E5%AE%AE%E5%BC%8F %E5%B9%B4%E9%81%B7%E5%AE%AE 冗長化 / Wikipedia https://ja.wikipedia.org/wiki/%E5%86%97%E9%95%B7%E5%8C%96 完成されたシステムなどない。完成された人間もいない。あるのは成長し続ける未完成なシステムと、それを支える未完成な人間だけだ / YAPC::Asia Tokyo 2014 http://yapcasia.org/2014/talk/show/4c7651e8-ed53-11e3-9faf-6ba36aeab6a4 156

「迷ったら健全な方」 Being healthy dev and ops in Cookpad by
Issei Naruta / Speaker Deck https://speakerdeck.com/mirakui/being-healthy-dev-and-ops-in-cookpad 「仕事道具に対しても責任を持ちたい」監視ツールの話 by @kazeburo / slideshare http://www.slideshare.net/kazeburo/ss-13361002 参考URL 157 ImmutableServer / Martin Fowler http://martinfowler.com/bliki/ImmutableServer.html BlueGreenDeployment / Martin Fowler http://martinfowler.com/bliki/BlueGreenDeployment.html Trash Your Servers and Burn Your Code: Immutable Infrastructure and Disposable Components / Chad Fowler http://chadfowler.com/blog/2013/06/23/immutable-deployments/ インフラ系技術の流れ / Gosuke Miyashita http://mizzy.org/blog/2013/10/29/1/ Rebuild.fm 25: Immutable Infrastructure (Naoya Ito, Gosuke Miyashita). http://rebuild.fm/25/

yapcasia2015

yapcasia2015

More Decks by kenjiskywalker

Other Decks in Technology

Featured

Transcript