@keke 2019/09/25 Engineer’s Meetup for Students
View Slide
自己紹介 010203学生時代のエンジニア経験2年前のメルカリとの接点からメルペイ入社まで話What’s SRE メルペイ SREではどんな技術を使って、どんなことをしてるの?新卒SREは日頃、何をしているのかメルペイ SREと自分は何をしてるのか Backend EngineerやML Engineerとかって馴染みあるけど、SREって?2Outlines for Today
自己紹介 3
4Keke (Twitter: @_k_e_k_e) 2017.3 Mercari BOLD Internship in USA2019.4- Merpay, New Graduate (SRE Team)
5Mercari Tech Blog
6Meetupパネラーとして登壇@2019/09/11
7MeetupGCPUG Yokohama 勤怠を自動化する技術 Ansible Night
2017.3 第一期生 2019.4 BOLD Internship in USA メルカリ Join メルカリ外で 色々な長期&短期インターン 2019.2 ここで興味が湧き、Joinを検討。 応募する。 メルペイ機能リリース 8エンジニア経験とメルカリ・メルペイとの接点 (Backend, SRE, iOS, Blockchain, Hardware) 2019.6 メルペイ SRE Join
9約2年間なにも接点がなかったが、 メルペイリリースのタイミングなどの理由で就職した「母川回帰タイプ」 イラスト: https://en.wikipedia.org/wiki/Chum_salmon#/media/File:Salmo_salar_GLERL_1.jpg エンジニア経験とメルカリ・メルペイとの接点
メルペイのMission、事業内容の共感でき、 業界への世間の注目度が非常に高い点 MercariのSREのプレゼンスは非常に高い点 SREが守る金融事業は 技術レベルの要求が高く、幅広い点 01020310なぜ入社したか、3つのPoint
What’s SRE 11
Site Reliability Engineering ・Googleが最初に作ったエンジニアの職種(SRE) “Site Reliability Engineeringとは、ある組織が、組織のシステム、サービスやプロダクト適切な信頼性のレベルを勝ち得るまで貢献するエンジニア工学の概念である” (SRE Essentials https://speakerdeck.com/jhand/sre-essentials?slide=8) 12What’s SRE
13What’s SRE 引用: “What’s the Difference Between DevOps and SRE?” https://www.youtube.com/watch?v=uTEL8Ff1Zvk&list=PLIivdWyY5sqJrKl7D2u-gmis8h9K66qoj&index=2&t=0s
14What’s SRE 「信頼性は一つの機能」 SLO (サービスレベル目標) とエラーバジェットを元にDeveloperと交渉をする。 例: 99.99%のAvailabilityをSLOとするサービスならば、約4分/月のダウンタイムが許される。 4分を超えるダウンタイムが発生する機能などはSREはリリースを許可しない。 それをソフトウェア的な問題と捉え、改善などをはかる。
15What’s SRE 詳しく知りたい人へ 『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』 https://amzn.to/2Qay281
メルペイ SREと自分は何をしてるのか 16
メルペイ SRE チーム 17
#mercari_merpay_sre_mspMerpay SREResponsibility● メルペイという金融サービスのReliability● 開発者がReliabilityを実現するための仕組みづくりProjects● メルペイのインフラの構築・運用● メルペイのマイクロサービスのReliability(リリース・監視)● メルペイのマイクロサービスのOperationと改善(自動化、ツール化)参考資料: 「メルペイのマイクロサービスの構築と運用 / Cloud Native Days 2019」
#mercari_merpay_sre_mspマイクロサービスアーキテクチャ参考資料: 「メルペイのマイクロサービスの構築と運用 / Cloud Native Days 2019」
自分 20
#mercari_merpay_sre_mspMy ProjectImprove Observability● Cloud Spannerのモニタリング● Kubernetesのネットワークスタッツの取得、および可視化● PagerDutyを使ったオンコール対応の監視● Terraformによる宣言的なモニタリングダッシュボードの作成モニタリングダッシュボードにはDatadogを使用
#mercari_merpay_sre_msp1. Cloud SpannerのモニタリングCloud Spannerとは● Google Cloud Platformだけで独自に提供されているデータベース● “グローバルおよびリージョナル アプリケーション データ向けのスケーラブルなフルマネージド リレーショナル データベース サービス”何をしているのか● GAEとCloud Dataflowをあわせたバックアップ運用、およびその監視● インスタンスやデータベースのリソース監視● 監視はDatadogを使い、そのDashboardにはTerraformを使用
#mercari_merpay_sre_msp2. Kubernetesのネットワークスタットの取得、可視化ネットワークスタットって● ラウンドトリップレイテンシをはじめ、DNSルックアップ時間やTCPコネクション時間などの統計情報のこと● 一般的なRPCであるHTTP/1.1 や 、HTTP/2.0の上で構築されているgRPCを対象としているなんでしているのか● レイテンシ増加など、ネットワークに関する問題がたまにある○ 問題をドリルダウンして、早期の原因特定のため● すべてのPodの実行環境が同環境ではないので、環境ごとの差異を知るため○ リージョンやゾーンなどの地理的環境○ ホストのCPUやメモリなどのリソース環境など
#mercari_merpay_sre_msp日頃、どんな技術を普段使ってる?
15%35%50%おおまかに、ここ最近の時間比率 25
#mercari_merpay_sre_mspIT全体でSREはどんどん増えているため選択肢の一つとして魅力的!なんでも聞いてください :)
(余談) フレックス制について 27
#mercari_merpay_sre_msp突然ですが...朝型の人っていますか?
#mercari_merpay_sre_mspフレックス制(コアタイム12:00 - 16:00)は不安だった...
コアタイム外に予定入ったりするかも? 0102タスクで夜遅くまでいないといけなくなる? 30想定していた主な不安
コアタイム外に予定入ったりするかも? 0102ミーティングなど基本は入らない。適切な理由があれば入ることもあるが、滅多にない。タスクで夜遅くまでいないといけなくなる? 早急に対応が必要でないときは「これ、明日でいいですよ」など 一言いってくれる人が多い。フレックス制が広く浸透していると感じている。31想定していた主な不安
#mercari_merpay_sre_msp働きやすい=生活がしやすい
Thank you! 33KekeTwitter: @_k_e_k_e