Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
delightworks-tech-night-1
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Tomohiro Koike
March 07, 2019
Technology
1.7k
2
Share
delightworks-tech-night-1
Tomohiro Koike
March 07, 2019
More Decks by Tomohiro Koike
See All by Tomohiro Koike
SRE NEXT 2024で得た知見を若手のSREエンジニア育成・採用にどう活かしたか
tmkoikee
1
350
2023-10-31-SRE-MIXITECHTALK.pdf
tmkoikee
0
430
全社横断組織でのAWSコスト最適化への取り組み
tmkoikee
1
760
新規ゲームのリリース(開発)前からのSRE活動
tmkoikee
1
6.9k
モンスターストライクのマスターデータのローカライズ運用について / Operation of Monster-Strike master data localization /
tmkoikee
1
1.1k
モンストのマルチクラウドについて / sre-lounge-at-xflag
tmkoikee
1
5.7k
モンスターストライク海外版でのSREの取り組み / xflag-studio-sre-in-global
tmkoikee
2
2.5k
Other Decks in Technology
See All in Technology
建設的な現実逃避のしかた / How to practice constructive escapism
pauli
3
130
遊びで始めたNew Relic MCP、気づいたらChatOpsなオブザーバビリティボットができてました/From New Relic MCP to a ChatOps Observability Bot
aeonpeople
1
170
BIツール「Omni」の紹介 @Snowflake中部UG
sagara
0
180
第26回FA設備技術勉強会 - Claude/Claude_codeでデータ分析 -
happysamurai294
0
380
チームで育てるAI自走環境_20260409
fuktig
0
690
機能・非機能の学びを一つに!Agent Skillsで月間レポート作成始めてみた / Unifying Bug & Infra Insights — Building Monthly Quality Reports with Agent Skills
bun913
5
2.8k
ZOZOTOWNリプレイスでのSkills導入までの流れとこれから
zozotech
PRO
2
2.4k
Webアクセシビリティは“もしも”に備える設計
tomokusaba
0
160
あるアーキテクチャ決定と その結果/architecture-decision-and-its-result
hanhan1978
0
270
「活動」は激変する。「ベース」は変わらない ~ 4つの軸で捉える_AI時代ソフトウェア開発マネジメント
sentokun
0
150
Kubernetes基盤における開発者体験 とセキュリティの両⽴ / Balancing developer experience and security in a Kubernetes-based environment
chmikata
0
170
2026-04-02 IBM Bobオンボーディング入門
yutanonaka
0
200
Featured
See All Featured
Building AI with AI
inesmontani
PRO
1
860
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
120
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.2k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
230
GraphQLとの向き合い方2022年版
quramy
50
14k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
470
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Transcript
ϞϯελʔετϥΠΫͷࢹπʔϧࠓੲޠ ʙ্רʙ ։ൃຊ෦ SREάϧʔϓ খ༟ גࣜձࣾϛΫγΟ
ࣗݾհ 2
ࣗݾհ ‣ࢯ໊ ‣খ༟ ‣ܦྺ ‣2008ϛΫγΟʹೖࣾ ‣SNSʮmixiʯͳͲͰΠϯϑϥɺγεςϜӡ༻ ‣ͦͷޙɺϞϯελʔετϥΠΫΛ͡Ίͱͨ͠ήʔϜΞϓϦͷӡ༻ ‣Ϟϯετ֤छαΠτɺࣾͰར༻͢ΔαʔϏεӡ༻πʔϧɺཧΠ ϯϑϥڥͷӡ༻ʑɺ෯͘ैࣄ ‣։ൃຊ෦
SRE άϧʔϓॴଐ 3
ϞϯελʔετϥΠΫ 4
ϞϯελʔετϥΠΫ ࣗͷϞϯελʔΛҾͬு͖ͬͯɺఢͷϞϯελʔʹ͍ͯͯͯ͘͠ͱ͍͏ɺεϚʔτϑΥϯͷಛੑΛ׆༻ͨ͠ɺ ୭Ͱ؆୯ʹָ͠ΊΔΞΫγϣϯRPGͰ͢ɻήʔϜλʔϯ੍Λͱ͓ͬͯΓɺ Ұॹʹ͍Δ༑ͩͪͱ࠷େ4ਓ·Ͱಉ࣌ʹ༡ΔڠྗϓϨΠʢϚϧνϓϨΠʣ͕ಛͰ͢ɻ 2013ͷ10݄ͷఏڙ։͔࢝Βݱࡏ※·Ͱͷੈքྦྷܭར༻ऀ4,900ສਓΛಥഁ※ 201812݄࣌ ʮੈքྦྷܭར༻ऀ 4,900ສਓΛಥഁͨ͠εϚϗΞϓϦʯ 5
͓͠ͳ͕͖ 6 ‣Ϟϯετͷαʔόߏ ‣ࢹγεςϜͷߏʹ͍ͭͯ ‣ࢮ׆ɾϝτϦοΫεࢹ ‣ΞϥʔτରԠ ‣·ͱΊ
αʔόߏ 7
αʔόߏ(γεςϜ) Unicorn memcached MariaDB Redis Fluetnd resque worker LoadBalancer 8
αʔόߏ(Πϯϑϥ) 9 ‣Քಇαʔόʔ ‣1,000 ‣ϚϧνΫϥυߏ ‣ΦϯϓϨαʔόʔͱΫϥυͷซ༻ ‣ࣗࣾDC 2ڌ ‣ύϒϦοΫΫϥυΛෳ
αʔόߏ DataCenter 1 •DB •memcached DataCenter 2 •DB •memcached 10
application Cloud1 application Cloud3 application Cloud4 application Cloud2
αʔόߏ 11 ‣Application ‣13,000 ʙ 26,000 core ‣DB ‣ཧϚγϯ150 1ηοτ
‣ͦΕͧΕͷDCʹஔ
ࢹγεςϜߏ 12
ࢹγεςϜ 13 ‣ࢮ׆ࢹ ‣ Nagios ‣ ϝτϦοΫεࢹ ‣ CloudForecast ‣
Kibana + elasticsearch ‣ Grafana + InfluxDB
ࢹγεςϜ 14 ‣ͳͥ͜ΕΒΛબΜͩͷ͔ ‣ΦϯϓϨɺΫϥυͰڞ௨Ͱ͑Δ ‣SNS(mixi.jp)͔Βͷࢿ࢈
ࢮ׆ࢹ 15
ࢮ׆ࢹ 16 ‣ࠔͬͨ͜ͱ ‣ରαʔό͕୯७ʹଟ͍ ‣ࢹαʔό͕ࣗΛࢹͰ͖ͳ͍ ‣αʔό͕ࢮΜͩͷ͔Ϋϥυͱͷ ଓ͕Εͨͷ͔
ࢮ׆ࢹ 17 ‣֤ڌʹNagios Λߏங ‣ͦΕͧΕʹ૬ޓࢹ
ࢮ׆ࢹ 18 DC 1 DC 2 Cloud 1
ࢮ׆ࢹ 19 ‣ࠔͬͨ͜ͱ ‣Nagios ͷઃఆϑΝΠϧ(cfg)͕ࡶ ‣ෳͷࢹαʔόͷߋ৽͕໘
ࢮ׆ࢹ 20 ‣Nagios ‣ ࢹઃఆͷcfg ϑΝΠϧΛYAML͔Βੜ ‣ ֤ڌͷߋ৽ΛҰׅͰߦ͏πʔϧΛ ‣ cfg
ϑΝΠϧߋ৽ ‣ syntax check && nagios restart
ࢮ׆ࢹ 21
ࢮ׆ࢹ 22 DC 1 DC 2 Cloud 1
ࢮ׆ࢹ 23 ‣ࠔͬͨ͜ͱ ‣ࢹ߲ΛΧελϚΠζ͍ͨ͠
ࢮ׆ࢹ 24 ‣SNMP ͷextend ػೳΛར༻ ‣Net-SNMPͷ֦ுػೳ ‣ҙͷίϚϯυ݁ՌΛSNMPͰฦ͢
ࢮ׆ࢹ 25 ‣check plugin ͍͔ͭࣾ͘Ͱࣗ࡞ ‣ྫ: ‣αʔόͷuptime ΛνΣοΫ ‣filesystem ͷreadonly
ΛνΣοΫ
ࢮ׆ࢹ 26 ‣ࠔͬͨ͜ͱ ‣ ෳͷࢹαʔόཧࡶ ‣ ࢹ͢ΔͨΊʹ༷ʑͳιϑτΣΞ͕ඞཁ ‣ libmysqlclient, snmp…
ࢮ׆ࢹ 27 ‣ ͦ͜Ͱ ‣ࢹγεςϜͷ৽ ‣ৄ͘͠ޙฤʹͯ
ϝτϦοΫεࢹ 28
ࢮ׆ࢹ 29 ࠷ॳ
ϝτϦοΫεࢹ 30 ‣CloudForecast ‣https://github.com/kazeburo/ cloudforecast ‣monitor pluginΛࣗ࡞
ࢮ׆ࢹ 31 ࣍ʹ
ϝτϦοΫεࢹ 32 ‣Kibana + Elasticsearch ‣application αʔόͷlog Λੵ ‣ूܭݕࡧͳͲ ‣1/100
ʹ samplingͰऩू
ϝτϦοΫεࢹ Application Elasticsearch + Kibana Fluetnd 33 αϯϓϦϯάσʔλՃ
ࢮ׆ࢹ 34 ࣍ʹ
ϝτϦοΫεࢹ 35 ‣grafana + InfluxDB ‣ ֤छσʔλΛूܭͯ͠InfluxDB ʹੵ ‣ ͦΕΒΛgrafana
ͰՄࢹԽ ‣ μογϡϘʔυΛ࡞ ‣ Ξϥʔτઃఆ
ϝτϦοΫࢹ 36 ‣ͳͥ͜ΕΒΛબΜͩͷ͔ ‣ΦϯϓϨɺΫϥυͰڞ௨Ͱ͑Δ ‣༷ʑͳϝτϦοΫεΛՃͰ͖Δ
ࢹΞϥʔτ 37
ࢹΞϥʔτ 38 ‣ࢹͰҟৗ͕͋ͬͨ߹ͷΞϥʔτ ‣ϞϯετͰPagerDuty Λར༻ ‣On-Call൪੍ ‣αʔό։ൃ & SRE Ͱϩʔςʔγϣϯ
ࢹΞϥʔτ 39 ‣PagerDuty ‣ https://www.pagerduty.com/ ‣ ֤छࢹγεςϜͱ࿈ܞͯ͠௨ΛૹΕΔ ‣ ॊೈͳΤεΧϨʔγϣϯϧʔϧ͕ΊΔ
ࢹΞϥʔτ 40 ‣On-Call ൪ ‣γεςϜͷোʹඋ͑ΔͨΊͷػ ‣ೋਓҰͷ൪੍ ‣Ξϥʔτൃੜ࣌ʹ15ͰରԠ։࢝
ࢹΞϥʔτ 41 Ϛωʔδϟɾࣄۀऀ ։ൃɾSRE ຊͷରԠ൪ োൃੜʂ
·ͱΊ 42
·ͱΊ 43 ‣ϞϯετͷΠϯϑϥͷࢹʹ͍ͭͯ ‣ࢮ׆ࢹ ‣ϝτϦοΫεࢹ ‣ΞϥʔτରԠ
Thank you!