Upgrade to Pro — share decks privately, control downloads, hide ads and more …

FinOpsの考えをベースにした継続的なコスト改善の取り組み

Haruki Matsuno
March 04, 2025
450

 FinOpsの考えをベースにした継続的なコスト改善の取り組み

Haruki Matsuno

March 04, 2025
Tweet

Transcript

  1. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    2 自己紹介 ▪ 名前 松野 晴貴 (まつの はるき) ▪ 所属 ソニー株式会社 技術センター AI & Cloud Center of Excellence ▪ 経歴: 2015年: SIer 企業に入社。顧客の SRE チームに参画してオンプレ基盤の運用改善を担当。 2019年: ソニー株式会社に入社。TV やヘッドホン向けのクラウドサービスの設計・開発・運用を担当。 2022年: CCoE にて横断的なクラウドサービスのガバナンス強化・運用改善を担当。 ▪将来の夢 喫茶店のマスター
  2. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    3 本日お伝えしたいこと 継続的なコスト改善を行うために 必要な行動・考え方
  3. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    4 アジェンダ • 組織紹介 • 継続的なコスト改善の重要性 • コスト改善の起点作成 • コスト改善の事例紹介 • まとめ
  4. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    5 アジェンダ • 組織紹介 • 継続的なコスト改善の重要性 • コスト改善の起点作成 • コスト改善の事例紹介 • まとめ
  5. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    6 AI & Cloud Center of Excellence AI & CCoE 認証 データ配信 セキュリティ データ利活用 コスト管理 AI 活用 … 事業組織 テレビ オーディオ カメラ スマートフォン … 事業横断で共通機能提供や技術支援を行い、新規顧客価値を加速・推進
  6. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    7 ソニーの提供サービス例 Sony | Sound Connect 360 Reality Audio / Personalization ブラビアみまもり 番組表 Sony | BRAVIA Connect
  7. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    8 提供サービス規模 171 サービス対象国・地域 接続デバイス数 国・地域 台 / 日 AWS アカウント数 アカウント 1200万 37 グローバルに利用されるサービスを展開 API アクセス数 回 / 日 10億
  8. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    9 アジェンダ • 組織紹介 • 継続的なコスト改善の重要性 • コスト改善の起点作成 • コスト改善の事例紹介 • まとめ
  9. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    10 Well Architected Framework Cost Optimization Pillar - AWS Well-Architected Framework
  10. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    11 Frugal Architect Dr. Werner Vogels, CTO of Amazon.com The Laws of Frugal Architecture
  11. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    12 コスト変動要因 為替レートの変動 (Google Finance) クラウドベンダの料金体系変更 (Amazon Web Services ブログ) ユーザからのリクエスト数の変化
  12. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    13 コスト変動要因 為替レートの変動 (Google Finance) クラウドベンダの料金体系変更 (Amazon Web Services ブログ) ユーザからのリクエスト数の変化 予期せぬ変動が起こりえるため、継続的にコストの確認 & 改善が必要
  13. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    14 アジェンダ • 組織紹介 • 継続的なコスト改善の重要性 • コスト改善の起点作成 • コスト改善の事例紹介 • まとめ
  14. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    15 FinOps Optimize 最適化 Operate 運用 Inform 可視化 FinOps の考え方を活用してコスト改善を実施 ✓ 組織内の各部門チームが協力をしなければならない ✓ 意思決定はクラウドのビジネス価値に基づいて行う ✓ すべての人が自分のクラウド使用量に当事者意識を持つ ✓ FinOpsデータはアクセスしやすくタイムリーであるべき ✓ 組織横断の専門チームが中心となりFinOpsを推進する ✓ クラウドの変動コストモデルをうまく活用する 原則 フェーズ FinOps Framework Overview
  15. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    16 FinOps Optimize 最適化 Operate 運用 Inform 可視化 FinOps の考え方を活用してコスト改善を実施 ✓ 組織内の各部門チームが協力をしなければならない ✓ 意思決定はクラウドのビジネス価値に基づいて行う ✓ すべての人が自分のクラウド使用量に当事者意識を持つ ✓ FinOpsデータはアクセスしやすくタイムリーであるべき ✓ 組織横断の専門チームが中心となりFinOpsを推進する ✓ クラウドの変動コストモデルをうまく活用する 原則 フェーズ FinOps Framework Overview FinOps Framework Overview これらの原則に従ってフェーズを回せるように CCoE が主導
  16. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    17 Jan. Feb. Mar. Apr. May. Jun. Jul. Aug. Sep. Oct. Nov. Dec. コスト見直しのタイミング 予算 1. 突発的なコスト増加時 3. 予算超過時 2. コスト伸び率の 増加時 4. 不定期見直し コスト推移例
  17. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    18 Jan. Feb. Mar. Apr. May. Jun. Jul. Aug. Sep. Oct. Nov. Dec. コスト見直しのタイミング 予算 1. 突発的なコスト増加時 3. 予算超過時 2. コスト伸び率の 増加時 4. 不定期見直し コスト推移例
  18. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    19 コスト異常検知 問題が起きている可能性があるため早めに検知できるようにして対応を検討 • サーバ/クライアントアプリの新バージョンへの不具合混入 • 予期せぬインフラリソースのプロビジョニング • DDoS 攻撃、認証情報漏洩による不正利用 など 各メンバアカウント Cost Anomaly Detection 管理アカウント CCoE 開発者 CCoE 判断の上、 必要であれば内容確認 全アカウントの結果を CCoEに集約して通知 SNS + Chatbot 開発者が必要に応じて 自身で通知設定も可能
  19. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    20 コスト異常検知 問題が起きている可能性があるため早めに検知できるようにして対応を検討 • サーバ/クライアントアプリの新バージョンへの不具合混入 • 予期せぬインフラリソースのプロビジョニング • DDoS 攻撃、認証情報漏洩による不正利用 など 各メンバアカウント Cost Anomaly Detection 管理アカウント CCoE 開発者 CCoE 判断の上、 必要であれば内容確認 全アカウントの結果を CCoEに集約して通知 SNS + Chatbot 開発者が必要に応じて 自身で通知設定も可能 事故を最小限に抑え、安心してクラウドを使ってもらえる環境を整備
  20. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    21 Jan. Feb. Mar. Apr. May. Jun. Jul. Aug. Sep. Oct. Nov. Dec. コスト見直しのタイミング 予算 1. 突発的なコスト増加時 3. 予算超過時 2. コスト伸び率の 増加時 4. 不定期見直し コスト推移例
  21. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    22 月次確認 月次で予算超過&前月実績との差分を確認し、必要に応じて原因確認 & 対策検討 管理アカウント 開発者 CCoE 各メンバアカウント Cost Explorer 必要に 応じて 確認 確認 依頼 増減理由を記入 定期実行 AI でサマリ CUR の出力 集計結果の出力 コスト データ 取得 アカウント名 サブシステム 担当者 前月コスト 当月コスト コスト差額 増減率 AIコメント 担当者コメント account1 app1 松野 $100 $120 +$20 120% AmazonCloudWatch のコストが $20 増加 しました。これは主にログ書き込み量の増 加によるものです。 不具合調査のためのデバッグログ追加が原因で す。調査が完了してデバッグログを出さないよ うにしたので、今月は戻る見込みです。 *値は全て仮のものです システムが出力 担当者が記入 確認 MTG 実施 実行完了通知
  22. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    23 月次確認 月次で予算超過&前月実績との差分を確認し、必要に応じて原因確認 & 対策検討 定常的に確認する環境を提供して現状把握 & コスト改善を推進 管理アカウント 開発者 CCoE 各メンバアカウント Cost Explorer 必要に 応じて 確認 確認 依頼 増減理由を記入 定期実行 AI でサマリ CUR の出力 集計結果の出力 コスト データ 取得 アカウント名 サブシステム 担当者 前月コスト 当月コスト コスト差額 増減率 AIコメント 担当者コメント account1 app1 松野 $100 $120 +$20 120% AmazonCloudWatch のコストが $20 増加 しました。これは主にログ書き込み量の増 加によるものです。 不具合調査のためのデバッグログ追加が原因で す。調査が完了してデバッグログを出さないよ うにしたので、今月は戻る見込みです。 *値は全て仮のものです システムが出力 担当者が記入 確認 MTG 実施 実行完了通知
  23. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    24 Jan. Feb. Mar. Apr. May. Jun. Jul. Aug. Sep. Oct. Nov. Dec. コスト見直しのタイミング 予算 1. 突発的なコスト増加時 3. 予算超過時 2. コスト伸び率の 増加時 4. 不定期見直し コスト推移例
  24. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    25 不定期見直し CCoE がコストかかっているポイントを確認し、各システム担当者に改善施策を提案 コスト管理アカウント 開発者 CCoE 改善 提案 管理アカウント CUR の 出力 コピー 確認 CUDOS 高コストな S3 バケットランキングの例
  25. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    26 不定期見直し CCoE がコストかかっているポイントを確認し、各システム担当者に改善施策を提案 コスト管理アカウント 開発者 CCoE 改善 提案 管理アカウント CUR の 出力 コピー 確認 CUDOS 高コストな S3 バケットランキングの例 ダッシュボードサンプル
  26. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    27 選択と集中: パレートの法則 高コストな S3 バケットトップ20 高コストな EBS スナップショットトップ20 全部対応しようとせず、高コストなリソースから優先的に対応を検討 費用対効果の高い改善アイテムを選定し、効率よくコスト改善を実施
  27. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    28 アジェンダ • 組織紹介 • 継続的なコスト改善の重要性 • コスト改善の起点作成 • コスト改善の事例紹介 • まとめ
  28. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    29 紹介事例 1. 月次確認からのコスト改善事例 2. 不定期見直しからのコスト改善事例 3. トラブルで増加したコストへの対処事例
  29. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    30 紹介事例 1. 月次確認からのコスト改善事例 2. 不定期見直しからのコスト改善事例 3. トラブルで増加したコストへの対処事例
  30. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    31 システム概要 メタデータ配信システム • テレビやコンパニオンアプリ向けに番組表や関連情報などを配信 AWS Cloud Public subnet Private subnet Private subnet Private subnet … プロキシ & キャッシュ ビジネスロジック データベース アクセス数: 8億回/日
  31. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    32 主なコスト要因 AWS Cloud Public subnet Private subnet Private subnet Private subnet … プロキシ & キャッシュ ビジネスロジック データベース (1) Outbound のデータ転送料金 (2) EC2 インスタンスの料金 アクセス数: 8億回/日 いずれもリクエスト数の増加に比例する避けられないコスト
  32. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    33 CloudFront のカスタム料金 Organizations で これを契約して活用 Amazon CloudFront の料金
  33. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    34 Outbound 転送料金 AWS Cloud AWS Cloud 無料 EC2 のデータ通信料金 CloudFront のデータ通信料金 ALB の前に CloudFront を置くと、 CloudFront のデータ転送料金になる Internet Internet
  34. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    35 アーキテクチャ変更後 AWS Cloud Public subnet Private subnet Private subnet Private subnet … CloudFront
  35. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    36 アーキテクチャ変更後 AWS Cloud Public subnet Private subnet Private subnet Private subnet … CloudFront 削減ポイント2: CloudFront のキャッシュ活用に よる EC2 インスタンス台数削減 削減ポイント4: CloudFront のキャッシュ活用によるアプリ/DB レイヤのリソース縮小、従量課金の減少 削減ポイント3: Public IPv4 アドレス数, 及び LCU Usage の 減少 (今であれば CloudFront VPC Origin も 導入して Public IPv4 を 0 にしたい) 削減ポイント1: AWS → Internet の Outbound 転送料金の削減
  36. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    37 アーキテクチャ変更後 AWS Cloud Public subnet Private subnet Private subnet Private subnet … CloudFront 削減ポイント2: CloudFront のキャッシュ活用に よる EC2 インスタンス台数削減 削減ポイント4: CloudFront のキャッシュ活用によるアプリ/DB レイヤのリソース縮小、従量課金の減少 削減ポイント3: Public IPv4 アドレス数, 及び LCU Usage の 減少 (今であれば CloudFront VPC Origin も 導入して Public IPv4 を 0 にしたい) トータルで 50% 以上のコストを削減しつつ、パフォーマンスも向上 削減ポイント1: AWS → Internet の Outbound 転送料金の削減
  37. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    38 この改善からの教訓 アーキテクチャは時間と共に陳腐化する • サービス個別での見直しも必要だが、アーキテクチャ全体の見直しも大事 • サーバコストだけでなく、運用コストも加味したサービス選定も必要 アップデート情報にアンテナを張る • AWS では 1 年で 3400 以上の機能がリリース (2023年実績) • 新機能を活用した方がコスト/パフォーマンスの両面で美味しいことが多い 最新の情報を取り入れつつ、各コンポーネントやアーキテクチャを見直す コストがかかっているポイントを把握した上で改善策を検討する • アーキテクチャを変更するとコスト増減の影響範囲も多岐に渡る • データ転送料金、Public IPv4 アドレスなどは忘れられがち
  38. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    39 アップデート情報に追従するために RSS で更新情報を購読 有志メンバによる週次 MTG で週刊 AWS を確認 外部イベントへの参加 X で有識者をフォロー(業務外)
  39. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    40 紹介事例 1. 月次確認からのコスト改善事例 2. 不定期見直しからのコスト改善事例 3. トラブルで増加したコストへの対処事例
  40. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    41 蓄積データによるコスト 多くのサービスにおいてデータの削除設定を入れておらず蓄積されていた Cloudwatch Logs コスト増加イメージ ECR Repository 対象サービス例 S3 Bucket コンピューティング費用 データ 費用 単価が低く最初は忘れがちだが、徐々に増加している
  41. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    42 削除設定の導入 CCoE として設計のガイドラインを作成した上で、削除設定の導入を推進 ただし、運用中のシステムに設定する際は影響範囲を要調査
  42. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    43 削除設定の導入提案 ガイドラインに準拠しないリソースを検知する AWS Trusted Advisor ライクな 提案を出す仕組みを構築 管理アカウント 各メンバアカウント … 定期実行 各種データ/設定取得 結果出力 アカウント名 リージョン AWSサービス 対象リソース 推奨事項 前月コスト account1 us-west-2 Cloudwatch Logs /aws/lambda/xxx RetentionInDays is required $30 account2 us-west-2 Cloudwatch Logs /aws/apigateway/yyy RetentionInDays is required $20 account3 ap-northeast-1 ECR dev/zzz LifeCyclePolicy is required $10 *一部列のみ厳選して記載 CUR の検索 開発者 内容を確認 改善対応
  43. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    44 削除設定の導入提案 ガイドラインに準拠しないリソースを検知する AWS Trusted Advisor ライクな 提案を出す仕組みを構築 管理アカウント 各メンバアカウント … 定期実行 各種データ/設定取得 結果出力 アカウント名 リージョン AWSサービス 対象リソース 推奨事項 前月コスト account1 us-west-2 Cloudwatch Logs /aws/lambda/xxx RetentionInDays is required $30 account2 us-west-2 Cloudwatch Logs /aws/apigateway/yyy RetentionInDays is required $20 account3 ap-northeast-1 ECR dev/zzz LifeCyclePolicy is required $10 *一部列のみ厳選して記載 CUR の検索 開発者 内容を確認 改善対応 コスト改善の具体的なアイテムや額を提示することで行動を起こしやすくする
  44. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    45 この改善からの教訓 保存期間/世代は要件定義で明確にし、構築時に削除設定を導入しておく • 「とりあえず残しておこう」は後々困ることになる • 運用中の S3 にライフサイクルポリシーを設定して事故った経験も… 具体的なアクションを起こせるような仕組みを整備する • コスト改善方法の調査からとなると、工数がかかり優先度が下がってしまう • 〇〇 を設定すれば良い、というのが明確になっていれば対応しやすくなる コスト抑止のための設計指針を共有していくことが大事
  45. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    46 紹介事例 1. 月次確認からのコスト改善事例 2. 不定期見直しからのコスト改善事例 3. トラブルで増加したコストへの対処事例
  46. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    47 システム概要 AWS Cloud 従量課金の 3rd party API Cost Anomaly Detection 設定済 360 Reality Audio 向けシステム • コンパニオンアプリ向けにヘッドホンの個人最適化の実行や対応アプリ情報を配信 アクセス数: 2000万回/日
  47. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    48 このシステムで発生した問題 AWS Cloud 従量課金の 3rd party API Cost Anomaly Detection 設定済 アクセス数: 2000万回/日 本来はユーザごとに初回アクセス時のみ実行する想定だったが、 クライアントアプリのバージョンアップによりリクエスト方法が 変わったことで、毎回実行されるようになってしまった
  48. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    49 このシステムで発生した問題 AWS Cloud 従量課金の 3rd party API Cost Anomaly Detection 設定済 アクセス数: 2000万回/日 本来はユーザごとに初回アクセス時のみ実行する想定だったが、 クライアントアプリのバージョンアップによりリクエスト方法が 変わったことで、毎回実行されるようになってしまった 課金額が劇的に増加したが、すぐに気づくことができなかった
  49. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    50 気づけなかった原因 AWS のコストは若干増加していたが、 この程度の増加は過去にもあり、 異常と判定されなかった。 4XX エラーは増加 稼働率の SLI は問題なし AWS コストは若干の増加 普段のダッシュボード確認では SLI/SLO のみ確認していたため、 サーバの稼働は問題ない認識だった。 4XX エラーはサーバの 問題ではないので SLI の 計算に含めていない
  50. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    51 問題の認知~対応 数日後、3rd party API の会社からの連絡で問題が発覚。 発覚後は即座にクライアントチームに連携。 • しかし、影響の大きさを適切に伝えることができず、即座に対応が始まらなかった • マネージャ含めコストインパクトを伝えたことで、緊急案件として対応 10/1 不具合混入 バージョンリリース 10/14夜 対策版アプリ配信開始 10/10 調査開始 3rd Party API のコスト推移
  51. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    52 この失敗から得た学び コストやメトリクスなど適切な監視を設定した上で、ステークホルダ含め確認できる状態にする メトリクスは取得するだけでは意味がない • とはいえ AWS のサービスごとに多数のメトリクスがある • 全部の監視設計は大変なので AI による異常検知などを活用 課金対象の API は別途監視項目を設定する • 課金対象 API 側で利用状況のメトリクスなど提供していればそれがベスト • API 実行数のカスタムメトリクスや NAT Gateway のデータ転送量など サーバコストは可視化した上でステークホルダも含めて確認できる状態にする • コストの温度感が共有できれば、対応優先度の認識合わせもスムーズになる • アプリの要件、設計がサーバコストに大きく影響することも理解してもらえる
  52. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    53 アジェンダ • 組織紹介 • 継続的なコスト改善の重要性 • コスト改善の起点作成 • コスト改善の事例紹介 • まとめ
  53. AI & Cloud Center of Excellence Copyright 2025 Sony Corporation

    54 まとめ • コストは 1 度確認したら終わりではなく、継続的な確認 & 改善が必要 • 自分たちのコントロール外の要素で日々変動している • 最新の情報を取り入れつつ各コンポーネントやアーキテクチャを見直す • 新しい機能 / 料金体系 / 契約 など様々な要素で改善できる • そのためには日々アップデート情報をキャッチアップする • コスト抑止のための設計指針や具体的な対応方針を明確化 • 皆がコスト最適な設定に詳しいわけではない • 具体的な行動に移しやすくすることで設定の導入を促進 • サービス提供にかかるサーバコスト全体をステークホルダ含めて確認 • サーバコストはサーバチームだけで改善できるわけではない • 可視化してそれを皆で共有して認識を合わせておく