トイル撲滅から始める改善手法とその結果
by
yjszk
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
トイル撲滅から始める改善⼿法とその結果 2024/02/14 TechBrew in 東京 〜SRE⼤集合!信頼性を⾼める取り組み〜 株式会社リブセンス 技術部インフラG 鈴⽊裕⼆(@yjszk666) Copyright © Livesense Inc.
Slide 2
Slide 2 text
0. 自己紹介 Yuji Suzuki(@yjszk666) Copyright © Livesense Inc. ● 株式会社リブセンスでSRE的なしごとしてます ○ 2023/2 〜 ○ 採⽤広報(ブログ運営etc..)もしてる ● 趣味:公営競技の鑑賞、ホームは平塚競輪 ● 略歴 ○ ⼤学無内定卒業→フリーター ■ 占い師とか出版社で校正とか⾊々 ○ ⾦融SE ○ 夜勤オペレータ ○ SIer ○ コンサルでSE ○ リブセンス
Slide 3
Slide 3 text
1 2 3 4 誰もやりたがらない仕事、トイル 事例1:脆弱性対応の⾃動化 事例2:放置された理想の認証システム トイル解消がもたらす組織への影響 Copyright © Livesense Inc.
Slide 4
Slide 4 text
誰もやりたがらない仕事、トイル SECTION 1 Copyright © Livesense Inc.
Slide 5
Slide 5 text
1. 誰もやりたがらない仕事、トイル そもそも信頼性ってなんだろ? JISによると、 >アイテムが与えられた条件で規定の期間中、要求された機能を果たすこができる性 質、及び、その定量的な尺度である信頼度 ざっくりいうとちゃんと動いていることですね 信頼性向上ってなんや Copyright © Livesense Inc.
Slide 6
Slide 6 text
1. 誰もやりたがらない仕事、トイル ● これを担保するには、SRE本によると… ○ 監視/計測して定量的に数字で判断、SLA/SLO/SLIなどなど ○ こういうかっこいいやつ、正直できてませんw ● 計測の前段… ○ 計測前の深いところに信頼性を向上させるヒントがある気がした ○ それを邪魔するのにトイルがあるんじゃないかと思った 信頼性向上ってなんや Copyright © Livesense Inc.
Slide 7
Slide 7 text
1. 誰もやりたがらない仕事、トイル ● トイルってなに?🧐 ○ >トイルとは、プロダクションサービスを動作させることに関係する…(略) ○ ここでは誰もやりたがらない仕事と定義します ○ 会議中に発⾒して共有するとネットリとした雰囲気が漂うアレです ● 作業そのものが⻑期的な価値を⽣み出さないししんどい⼿作業が多い印象です トイルってなんや Copyright © Livesense Inc.
Slide 8
Slide 8 text
1. 誰もやりたがらない仕事、トイル ● SRE本によると… ○ これをなくすと本来の作業に集中できて信頼性があがる😤 ○ でも理想論じゃねこれ ● 誰もやらないので窓サッシのホコリみたいに溜まりがち ○ 誰も球を持たないので落ちたボールとか⾔われてる ○ これをあえてやります トイルってなんや Copyright © Livesense Inc.
Slide 9
Slide 9 text
事例1:脆弱性対応の⾃動化 SECTION 2 Copyright © Livesense Inc.
Slide 10
Slide 10 text
Before:週次で⼿動アサインしていた 2.脆弱性対応の自動化 Copyright © Livesense Inc. ● ⽇次でissueが切られる ○ InspectorのAPIを利⽤ ● 週次MTGでランダムアサイン ● 対応 ○ 各⾃調べてssh🤮 ○ コマンド実⾏🤮
Slide 11
Slide 11 text
2.脆弱性対応の自動化 このように脆弱性対応はめんどくさい しかも積極的にやってもバリュー出ない でもやらないと正直やばい (※) 遅効性の毒みたいな存在&トイルだこれ… ※脆弱性を放置するとシステムに障害が起き、サイト信頼性が低下するかも… Copyright © Livesense Inc.
Slide 12
Slide 12 text
After:まずは情報を多くした 2.脆弱性対応の自動化 Copyright © Livesense Inc. ● CODEOWNERSからランダムアサイン ● これだけでもMTGの時間が短くなった
Slide 13
Slide 13 text
2.脆弱性対応の自動化 InspectorのAPIから推奨コマンドが取れる でも⾃動アプデは依存性が怖い😱 半⾃動化にもワンステップ欲しい Copyright © Livesense Inc.
Slide 14
Slide 14 text
After:コメントするとSSM Run Commandで実⾏するように 2.脆弱性対応の自動化 Copyright © Livesense Inc. ● /executeって書くと実⾏ ○ 結果もコメントでペタ ● 5分かかる作業が1分で終了 ○ チケットが多い⽉はうれしい ■ 30くらいある時もある ● 誰がやったかわかるから監査もOK
Slide 15
Slide 15 text
2.脆弱性対応の自動化 MTG短くなり他のことに時間を使える++ 複数⼈から喜びの声、これが⼀番嬉しい そして⽉2時間程度(※)の時間が地味に削減された ※4分✖30チケット 脆弱性を放置しないことで信頼性向上に繋がる Copyright © Livesense Inc.
Slide 16
Slide 16 text
2.脆弱性対応の自動化 なんで放置されてたのか考えてみる🤔 当時からクラウド移⾏中でした そのうちマネージドサービスに寄せるし、 いまやらなくてもいいか… という、思考 → これがよくない Copyright © Livesense Inc.
Slide 17
Slide 17 text
事例2:放置された理想の認証システム SECTION 3 Copyright © Livesense Inc.
Slide 18
Slide 18 text
乱⽴していた社内の認証を統合するプロジェクトがありました。 しかし、中途半端に実装された状態で頓挫😭 作者も退職してよくわからない状態で3年も放置されており、更に当時技 術投資で作られたのか、会社で標準的に使われてない技術なのも放置に拍 ⾞をかけていました アツい思いで作られたが頓挫、作者が退職、その後放置 3.放置された理想の認証システム Copyright © Livesense Inc.
Slide 19
Slide 19 text
● というのもあり、誰もが⾒て⾒ぬフリをしていた… ○ そこをあえて観測(み)てみると…👁 ● 過剰なプロビジョニングが放置されていた! アツい思いで作られたが頓挫、作者が退職、その後放置 3.放置された理想の認証システム Copyright © Livesense Inc.
Slide 20
Slide 20 text
● 実装当初、広く使われるのを意識したのか⼤きいプロビジョニングに ● 実態は1週間でDBに7コネクションしかアクセスない ● 直しました、結果、⽉額4-5万円の削減に😤 ○ EC2はm5.largeをt3.smallに ○ RDSはdb.m5.largeをdb.t3.smallに アツい思いで作られたが頓挫、作者が退職、その後放置 3.放置された理想の認証システム Copyright © Livesense Inc.
Slide 21
Slide 21 text
● なぜ触られなかったのか? ○ 今はCIでTerraformを動かしているがCICD未整備時代のブツ ○ オペレーションサーバーに⼊るのに多段SSHでめんどくさい アツい思いで作られたが頓挫、作者が退職、その後放置 3.放置された理想の認証システム Copyright © Livesense Inc.
Slide 22
Slide 22 text
3.放置された理想の認証システム なんで放置されてたのか考えてみる🤔 めんどうだしいまやらなくてもいいか… 結局これに尽きる めんどうはわかるがいつかはやらないとダメ この雰囲気を変えていきたいと思う Copyright © Livesense Inc.
Slide 23
Slide 23 text
トイル解消がもたらす組織への影響 SECTION 4 Copyright © Livesense Inc.
Slide 24
Slide 24 text
● トイル解消すると、今まで問題を問題と気づかなかった⼈々が気づく ○ トイルとして認識されてない場合、ここがスタートとなる ● こういうめんどい作業を新⼈がやると… ○ コスい話、ベテラン層へのエンゲージメントになる(気がする) ○ より強いマンパワーでトイルへ向き合うことが可能に 誰もやらないことをやると空気が変わる 4.トイル解消がもたらす組織への影響 Copyright © Livesense Inc.
Slide 25
Slide 25 text
● このような空気は計測不可能 ○ 空気にSLOはない ● 計測以前に作るべき⼟壌が作れる ○ 例えば、先ほどのマンパワーを⽤いて、仕組み的にトイル解消😤な ど 誰もやらないことやると空気が変わる 4.トイル解消がもたらす組織への影響 Copyright © Livesense Inc.
Slide 26
Slide 26 text
● ⼊ったばっかりの時にトイル解消は実はおすすめ ○ どこがエンジニアリングのボトルネックになっているのかわかる ■ 改善の勘所が鍛えられる ○ 古い資料とかコードを漁りまくるのでドメイン知識がつく ● ただ… 新⼈がやるトイル解消のすすめ 4.トイル解消がもたらす組織への影響 Copyright © Livesense Inc.
Slide 27
Slide 27 text
● 作業として⾯⽩くない ○ が、誰もやらない領域を攻めるので⾃分の武器ができる ○ これをチームに展開するとさらにプラス ■ ここでサイロ化しては元も⼦もない ● バリューを出すトイル解消 ○ 盲⽬的にトイルに取り組むのではバリューは出ないが、 ○ このように⾃動化‧改善することでバリューは出る!😤 新⼈がやるトイル解消のすすめ 4.トイル解消がもたらす組織への影響 Copyright © Livesense Inc.
Slide 28
Slide 28 text
● こういう姿勢で仕事してると良いことが… ○ 表彰されました! ● ⼈間としての信頼性も向上したか!? ○ サイト信頼性も⼤事だがヒューマン信頼性もっ と⼤事な気がする 余談 4.トイル解消がもたらす組織への影響 Copyright © Livesense Inc.
Slide 29
Slide 29 text
4.トイル解消がもたらす組織への影響 信頼性向上、いろいろあるけど ⾃分としては⾯⽩くない仕事(=トイル)を いかに楽しくするかという基本に帰結する そしてトイル撲滅でコア業務に集中😤 これが俺の信頼性向上だ! Copyright © Livesense Inc.
Slide 30
Slide 30 text
最後に… ‧計測⚖ ‧監視👁 今後はこの辺りを頑張ります🙇 Copyright © Livesense Inc.
Slide 31
Slide 31 text
ありがとうございました Copyright © Livesense Inc.
Slide 32
Slide 32 text
No content
Slide 33
Slide 33 text
No content