freeeのクラウドサービス活用術とパフォーマンス改善活動のご紹介

freee株式会社開発本部足立紘亮 2017/06/19 freeeのクラウドサービス活用術とパフォーマンス改善活動のご紹介

アジェンダ - freeeにおけるクラウドサービス利用の考え方 - クラウドサービスの利用例 - インフラ構築/運用における利用例 - アプリケーション開発/運用における利用例 -
クラウドサービスを活用したパフォーマンス改善活動

自己紹介足立紘亮 ( foostan ) ソフトウェアエンジニアサーバーサイド(Rails)からフロントエンド (ES6+React)に至るまでWebアプリケーション開発を幅広くやっている。
開発環境の整備やパフォーマンス改善などにも興味があり、それらも積極的に行っている。

freeeの紹介

freeeの紹介スモールビジネスの各成長段階をサポートするサービスの提供

freee におけるクラウドサービス利用の考え方

社内ではクラウドサービスを活用することを推進している業務を効率化するために積極的に利用するアレもこれもクラウドにデータあげちゃって大丈夫？これ情報漏れたりしない？セキュリティの担保は CSIRT で行う

セキュリティの担保はCSIRTで行う - セキュリティ担当者の教育・啓発 - セキュリティ事故を予防・検知する仕組みづくり - セキュリティ事故の緊急対応 - 社外向けのセキュリティ窓口（他社CSIRTとの情報交換も）サービスの性質(扱うデータなど)を
理解した上で利用する

freeeで使っているサービス(一部)

インフラ構築/運用におけるクラウドサービスの利用例

AWS活用例基本的には普通の構成 - ELB(ALB),EC2,RDS,ElastiCache,CloudFront,... - マイクロサービス化しているので、複数のセットが存在している serverlessアーキテクチャも一部採用 - 例
- メール取り込み機能(SES + Lambda + DynamoDB) - Livechatのwebhook(APIGateway + Lambda)

自動化 autoscalingを前提とした構成なので構築自動化は必須 - 台数調整によるコスト適正化 - 時間による台数調整 - 非同期キューや負荷に応じた調整 - auto
healing - インスタンスの調子が悪くなれば勝手に作り直す - security patch適用等によるインスタンス入れ替え - apt-get dist-upgradeしたAMIを作って入れ替える

監視 - NewRelic - アプリケーション内部、DBのslow query - Mackerel - EC2のリソース監視や外形監視
- alert通知 - CloudWatch - autoscalingのトリガーとして利用 - mackerelとintegrationが可能 - Deep Security as a Service for AWS - セキュリティ監視

アプリケーション開発/運用におけるクラウドサービスの利用例

- Ruby on Rails のアプリケーション監視用にAPMを利用 (Light 版と PRO 版を併用) -
外形監視として Browser を利用 (Light 版) - アラートはSlackに通知 ※ 具体的な利用例は後述慢性的なパフォーマンス低下の把握突発的なパフォーマンス低下の検知

バグの検知/管理エラー起票通知 U C S ユーザとのコミュニケーション formから起票

エラー起票通知 U C S ユーザとのコミュニケーション formから起票 https://www.bugsnag.com/product/ より転載
- エラーをサマライズ表示 - 期間や属性で検索

エラー起票通知 U C S ユーザとのコミュニケーション formから起票 https://www.bugsnag.com/product/ より転載
- スタックトレース表示 - カスタム属性の付与(ユーザの特定)

エラー起票通知 U C S ユーザとのコミュニケーション formから起票 https://ja.atlassian.com/agile/kanban より転載
- チケット管理 - CSとEnz間でのコミュニケーション

デプロイ Step1 E HUBOT(ECS) with ElastiCache Jenkins(EC2) S3 ①「デプロイしたい」 ②
PR作成 & マージ ※ 公開用に簡略化しています Web servers (EC2)

デプロイ Step2 E HUBOT(ECS) with ElastiCache Jenkins(EC2) S3 Web servers
(EC2) ①「デプロイするぞ」 ② デプロイ Job実行 ④ ビルド & 成果物を保存 ⑥ 成果物取得 & 展開 ③ リリースブランチをフェッチ ⑤ デプロイ実行 ※ 公開用に簡略化しています

クラウドサービスを活用したパフォーマンス改善活動

http://qiita.com/foostan/items/5f5e2be16b009848b76b パフォーマンス改善活動

チームを作った経緯 ~ 遅いものはなんでも速くしたい ~ 1日3デプロイ新機能がバンバンリリースされるパフォーマンスが犠牲にされているケースが垣間見れた

チームを作った経緯 ~ 遅いものはなんでも速くしたい ~ 問題意識はあった直したいけど手を付けられていないチーム作ってみんなで改善していこう！

何をしているか - パフォーマンスの確認 - NewRelic + Re:dash などを利用 - 改善ポイントの共有/実施
- 定期的なミーティング - 進捗確認 - 作戦会議 - 全社向けに活動報告

NewRelic APMで改善ポイントを探る

全体の概要を確認する何を見るか？

全体の概要を確認する表示期間の指定

全体の概要を確認するトランザクション時間の変動とその内訳

全体の概要を確認する安定性を示す数値の変動

全体の概要を確認する主なトランザクションの内訳

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合トランザクションの詳細確認

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合指定期間内でかかった時間が長い順でソート

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合順位と割合

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合内訳の確認

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合より詳細な内訳

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合認証基盤へのアクセスの割合が大きい

慢性的にパフォーマンスが悪い → トランザクションから原因を探る場合見るべき箇所（コード）がはっきりする

慢性的にパフォーマンスが悪い → Databaseから原因を探る場合 DBの詳細確認

慢性的にパフォーマンスが悪い → Databaseから原因を探る場合指定期間内でかかった時間が長い順でソート

慢性的にパフォーマンスが悪い → Databaseから原因を探る場合順位と割合

慢性的にパフォーマンスが悪い → Databaseから原因を探る場合とあるコントローラで半分ぐらい締めている

慢性的にパフォーマンスが悪い → Databaseから原因を探る場合見るべき箇所（コード）がはっきりする

突発的なパフォーマンス低下 → アラートから原因を探る場合アラート設定をしておけばSlackに通知が来る

突発的なパフォーマンス低下 → アラートから原因を探る場合グラフ上にピンクの線が表示されるので期間を絞りこみつつ原因を探る

NewRelic Browser で改善ポイントを探る

全体の概要を確認するロード時間の内訳

全体の概要を確認する https://docs.newrelic.com/docs/browser/new-relic-browser/page-load-timing-resources/page-load-timing-process

Page Views で遅いページを把握する指定期間内でかかった時間が長い順でソート

突発的なパフォーマンス低下 → アラートから原因を探る場合アラートが発生した箇所にピンクの線が表示される

突発的なパフォーマンス低下 → アラートから原因を探る場合内訳を見てみるとフロント側(DOM processing, Page rendering)で問題が起こっていることがわかる)

突発的なパフォーマンス低下 → アラートから原因を探る場合 - フロント側に問題がある場合、実際にアクセスしても居るのが手っ取り早い - サードパーティ製のサービスを利用している場合、そちらに障害があってもアラートが鳴る -
この場合、Chrome Developer Tools の Network などでおかしな通信が発生していないか確認する(経験上だいたいがこのケース)

NewRelic の API を利用して独自のViewを作る

New Relic のおしいところ - ログの保持期間が短い(Browserの場合はPRO版でも90 日) - 独自のViewを作るにはPRO版にする必要がある(費用的に全台をPRO版にはできないので取れるデータ量に制限がある)

New Relic の API を利用する - New Relic の API
は WebUI で見れる大抵の情報を取得することができる - Web上で試せるので得たい情報の取得方法がすぐわかる

API で得た情報をRe:dashで可視化する - Re:dash : BIダッシュボード - ホスティング版とOSS版がある - データソースに
AWS Redshift を利用できる

API で得た情報をRe:dashで可視化する Agentで収集 fluentd でパフォーマンスログを収集 APIで取得バッチ同期可視化
S3

API で得た情報をRe:dashで可視化する長期間のサマリ表示主要ページの Page Rendering 表示悪化ポイントと改善ポイントがはっきりする

API で得た情報をRe:dashで可視化する主要ページの Network 表示ログインページだけ極端におそい(ブラウザキャッシュが効いてない状態のアクセスが多いため)

アプリケーションからパフォーマンスログを取得して可視化する

パフォーマンスログを可視化する Agentで収集 fluentd でパフォーマンスログを収集 APIで取得バッチ同期可視化 S3

パフォーマンスログ - Controller/Action の実行に掛かった時間 - ユーザID - 事業所ID などの情報を含む時系列データ

パフォーマンスログの特徴 - パフォーマンスはデータ量に依存するため、事業所によって異なる - 個人の事業所の場合はあまり問題にならない - 法人の場合はデータ量が桁違いになるため影響が出てくる事業所の特徴毎にパフォーマンスを監視する必要がある

パフォーマンスログを可視化する - とあるAPIのパフォーマンスの遷移 - 2017-18 までに改善されたがそこを堺に悪化している - V字になっているグラフは要注意で定期的に確認して改善をしている

パフォーマンスログを可視化する - 改善してからパフォーマンスを維持しているAPI - このようなグラフを共有すると改善に対するモチベーションが上がる

パフォーマンスログを可視化する - 同じAPIにおける事業所の特徴による違い - 青線は全体平均、赤線は取引数の多い事業所 - この変化は平均だけ見ていると気付けない

スモールビジネスに携わる方がより創造的な活動にフォーカスできるように

freeeのクラウドサービス活用術とパフォーマンス改善活動のご紹介

freeeのクラウドサービス活用術とパフォーマンス改善活動のご紹介

More Decks by foostan

Other Decks in Technology

Featured

Transcript