Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コストに関するヒヤリハットのお話 ~コスト超過で手遅れにならないためにすべきこと~

Red Frasco
December 21, 2023

コストに関するヒヤリハットのお話 ~コスト超過で手遅れにならないためにすべきこと~

2023/12/07 に開催された 2023年ヒヤリハット大反省会@新宿(https://findy.connpass.com/event/302579/)の登壇資料です

Red Frasco

December 21, 2023
Tweet

More Decks by Red Frasco

Other Decks in Technology

Transcript

  1. コストに関するヒヤリハットのお話
    2023年ヒヤリハット⼤反省会@新宿
    コスト超過で⼿遅れにならないためにすべきこと

    View full-size slide

  2. ⽬次
    1. ⾃⼰紹介/弊社紹介
    2. コストに関するヒヤリハット事例(おしながき)
    1. Datadogの外形監視(Synthetics)を追加しただけなのに請求額
    が︕︖
    2. GCP Dataflowでインスタンスが80台に・・・︕︖
    3. iOSアプリで爆速開発︕でもCircleCIからの明細が・・・
    3. 事故(⼿遅れ)にならないために何ができるか
    4. まとめ

    View full-size slide

  3. ⾃⼰紹介
    猪熊 朔也 ( いのくま さくや ) / @sinocloudon
    - 株式会社 Red Frasco
    - インフラエンジニア
    u経歴
    - ⾦融系 SIer, リクルート(SUUMO), ⾦融系スタートアップ, 現職
    uその他コメント
    - うどんが好きです
    - ラーメン⼆郎が好きです
    - うどん脳 をプロフィールアイコンにすることが多いです
    3

    View full-size slide

  4. 株式会社Red Frasco
    • https://www.red-frasco.com/
    • 不動産業界に特化したプロダクト開発・集客⽀援を実施
    4

    View full-size slide

  5. みなさんコスト管理してますか︖
    • インフラはもちろんですが、開発を営むためには多くのコスト
    を管理しなければなりません
    • インフラ利⽤料
    • AWS, GCP, Azure など
    • 開発ツール
    • GitHub Enterprise, CircleCI, TablePlus, InteliJ など
    • 監視・モニタリングツール
    • Datadog, PagerDuty, Sentry など
    6

    View full-size slide

  6. コスト管理は難しい
    • コスト管理のよくあるお悩み
    • そもそも予算計画を思いっきりはずしてしまう
    • 計画外の案件追加によるコスト増 / 案件中⽌・延期によるコスト減
    • 予測できないドル円レート
    • コスト運⽤作業を⾃動化したいと思いつつ結局⼿作業
    • 予実の差分理由を解明するまで時間がかかる
    • 請求書を⾒てビックリする
    7

    View full-size slide

  7. 8
    実際にあったコストに関する
    ヒヤリハット事例を共有します

    View full-size slide

  8. 10
    Datadogの外形監視(Synthetics)を追加しただけなのに請求額が︕︖

    View full-size slide

  9. 11
    テスト実⾏数が通常時の4倍に跳ね上がっている
    ⇩ 通常の使⽤量

    View full-size slide

  10. Datadog Synthetics がすべてのリージョンからテスト実⾏していた
    • 新規構築中のシステム向けの監視設定を夏休み前に追加
    • 夏休み明け、Datadog Synthetics のテスト実⾏が爆発的に増えて
    いることに気づく
    • デフォルト設定のままだと Datadog Synthetics は全世界23リー
    ジョンから1分間隔でテストを実⾏する
    • その結果、3週間で通常時の1.5倍のコストがかかってしまった
    • 契約量の⾒直しやログ量削減によるコストカットによりトータルでの
    予算超過を回避
    12

    View full-size slide

  11. 14
    GCP Dataflowでインスタンスが80台に・・・︕︖

    View full-size slide

  12. マネージドサービスが勝⼿に⼤量のリソースを使⽤しまう
    • Dataflow で重い処理を実⾏していた
    • 最⼤インスタンス数を指定していなかった
    • 処理量に応じてインスタンスが80台くらいに跳ね上がる
    • すぐ気づいたので慌てて処理を停⽌
    15

    View full-size slide

  13. 16
    iOSアプリで爆速開発︕でもCircleCIからの明細が・・・

    View full-size slide

  14. マネージドサービスが勝⼿に⼤量のリソースを使⽤する
    • iOS アプリのリニューアルを実施
    • 案件も佳境に⼊り、毎⽇ビルドしまくる
    • 1回のビルド時間は⼤体30分前後
    • ⾯⽩いように CircleCI のクレジットが⾶んでいく
    • 必要経費ではあるが、想定よりも多くのコストがかかってし
    まった
    17

    View full-size slide

  15. 18
    (再)コスト管理は難しい…

    View full-size slide

  16. 19
    では事故を起こさないためには
    どうすればよいのでしょうか︖

    View full-size slide

  17. アラートの活⽤と定例での定点観測でコスト超過リスクを最⼩化
    • アラートの活⽤
    • Datadog の場合、推定使⽤量メトリクス が取得できるため、使⽤量ア
    ラートを設定することが可能
    • https://docs.datadoghq.com/ja/account_management/billing/usage_metrics/
    • ツール次第だが、アラート設定できるものは積極的に活⽤
    • しきい値監視と異常監視とセットで運⽤
    • しきい値を超えてからでは⼿遅れになる可能性
    • 急激なリソースの増減は異常監視によって早期に検知しやすい
    • ⼤量の ECS の vCPU/Mem を増強した
    • 機械学習⽤インスタンスを⼤量に起動した など
    20

    View full-size slide

  18. アラートの活⽤と定例での定点観測でコスト超過リスクを最⼩化
    • 定例での定点観測
    • アラート設定ができないものは定期的なモニタリングでカバー
    • CircleCI は 定期的に使⽤量ダッシュボードを⾒るしか⼿段がない
    • 定例の中でコスト最適化施策も議論する
    • AWS の場合、アカウント軸 -> サービス軸 の順にドリルダウンしてコスト⽐率の⼤きい
    ところから最適化施策を考える
    • 例えば、こんなことを取り組んできました
    • 不要なVPC Endpoint を削除
    • CloudWatch Logs への PutLogEvents を必要最⼩限にする
    • S3に保存されたログのライフサイクル設定
    • Fargate SPOT を開発環境に導⼊
    • CircleCI の残余クレジットを使い切る
    22

    View full-size slide

  19. 無駄を省いて筋⾁質なインフラを⽬指しましょう︕
    • コストに関するヒヤリハット事例を3つ紹介しました
    • アラート・定期的なモニタリングだけでなく、⽇頃からコスト
    削減策を実⾏することで超過リスクに備える
    • インフラ利⽤料だけでなく、開発で使⽤するツールについても
    コスト最適化の余地がないか検討する
    24

    View full-size slide

  20. Thanks for
    listening!

    View full-size slide