アーキテクトが考えるシステム改善を継続するための心得 / tech-meetup2_nishimura

アーキテクトが考える  システム改善を継続するための心得    2022年1月20日西村祐樹

2 ミッション「まだ、ここにない、出会い。」を「より早く、シンプルに、もっと近くに。」実現人材領域と販促領域で、事業者と個人のマッチング支援、事業者の業務・経営支援などを行っている販促領域（主に国内）リクルートグループの事業領域は「人材」と「販促」人材領域（国内外） 3

自己紹介西村祐樹 2019年6月株式会社リクルートテクノロジーズ(当時)入社所属プロダクト統括本部 HRアーキテクトグループ最近やってること・技術難度の高い案件の支援(設計、コーディングなど) ・注力サービスへの技術、運用支援
　など

本日話す内容 1.アーキテクトグループの紹介 2.事例をもとに改善の考え方紹介 ※ Kubernetesやコンテナの話も途中入りますが、細かな内容には触れません

アーキテクトグループの紹介

・システムの安定稼働、開発を維持するために構造的な問題を解決して　価値を発揮するグループ・技術の精通だけでなく、現場の課題認識と解決能力も求められる　(いわゆるシステム設計だけにとどまらない) ・主に古くからある大規模システムを担当している　(古くからある大規模システム ≒ ビジネス規模の大きいシステム) アーキテクトグループとは私の主な担当システム

図で見るタウンワークの規模感見えている部分以外にも着目すると各システムを支える要素は膨大こうしてみるとタウンワークの規模小さく見えるが、、皆さんが目にする部分裏で支えているシステム郡

数値で見るタウンワークの規模感・掲載求人数　数十万求人・月間トラフィック数　数億アクセス(秒間約数百アクセス) ・開発者数　Web、アプリ合計約35人数値で見るとそんなことはない少しのサービス障害や開発の手戻りなどでもインパクトが大きい

先輩、上司の活動事例・肥大化、複雑化コードのリファクタリング https://codezine.jp/article/detail/11570 https://codezine.jp/article/detail/11445 ・プロセス改善 https://speakerdeck.com/poohsunny/devsumi2018 https://www.slideshare.net/i2key/devsumi-152929762#36 ・技術負債除去 https://speakerdeck.com/rtechkouhou/taunwaku90mo-yuan-gao-fals ejie-zai-wozhi-eruregasibatutipahuomansutiyuningu-number-devsum
i-number-devisumid https://youtu.be/qgVG8AVrM7M ・自動テスト強化 https://www.slideshare.net/i2key/devsumi-152929762#56 https://speakerdeck.com/rtechkouhou/kokoshu-nian-jian-falsetaunwa kuiosapurifalseenziniafalsetiyarenzi?slide=32 本日はタウンワークでの開発環境改善事例をもとに我々の仕事の考え方を紹介していきます

これから話す内容(Before) 社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with
Jenkins 自動テスト手動テストコード取得コード更新この状態を、、

Concourse (CIツール) これから話す内容(After) 社内NW オンプレ環境1 環境2 開発者 Github Enterprise
物理マシン with Jenkins 手動テスト GCP GKE 自動テスト環境環境A 環境B 環境C 環境..... コード取得 (VPN経由) 廃止これだけ見ると新しい技術要素を取り入れよくなったようには見える。だけど今回伝えたいのはどういう判断のもとこれを進めていったかになります。こうしました！

事例をもとに改善の考え方紹介

話す内容の流れステップ1: 問題、課題認識と目標設定ステップ2: 目標に向けた実現性検証ステップ3: 構築、運用開始ステップ4: 導入後の結果確認

改善前のタウンワークの開発環境周り社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with
Jenkins 自動テスト手動テストコード取得コード更新 ①CIサーバが物理マシン上で動いており動作が不安定だった → 自動で動かすためのCIなのに手動再実行に累計月約10時間発生 ②仕組み上、自動テストと手動テストを同時に実行できない制約があった → この制約により自動テスト深夜に実行していたが、失敗時の日中再実行時に手動テストを止めていた ③テスト環境が2つしかなく大型案件の同時並行時に調整業務が発生 → 新規構築は別部署のインフラチーム作業が発生するため必要な時に環境追加といった対応がしづらい ① ② ③ 一見普通の環境に見えるが動作不安定 , 制約のある自動テストの仕組みと数に限りがあるテスト環境によって運用, 調整コストがかかっていた

物理マシン問題と自動テスト制約のみを解決する場合社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with
Jenkins 手動テストコード取得コード更新 ①CIサーバが物理マシン上で動いており動作が不安定だった → 物理マシンから移行して解決 ②仕組み上、自動テストと手動テストを同時に実行できない制約があった → 専用環境を用意して解決 ③テスト環境が2つしかなく大型案件の同時並行時に調整業務が発生 → 新規構築は別部署のインフラチーム作業が発生するため必要な時に環境追加といった対応がしづらい ③ 自動テスト環境自動テスト廃止

物理マシン問題と自動テスト制約のみを解決する場合社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with
Jenkins 手動テストコード取得コード更新 ①CIサーバが物理マシン上で動いており動作が不安定だった → 物理マシンから移行して解決 ②仕組み上、自動テストと手動テストを同時に実行できない制約があった → 専用環境を用意して解決 ③テスト環境が2つしかなく大型案件の同時並行時に調整業務が発生 → 新規構築は別部署のインフラチーム作業が発生するため必要な時に環境追加といった対応がしづらい ③ 自動テスト環境デプロイ自動テスト廃止 1. 普通に考えたらそもそもこの構成にしてるはずでは？なぜ物理マシンでJenkins動かすという選択肢を取ったのか？

物理マシンでの自動テストが生まれた背景社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with
Jenkins コード取得コード更新「開発者による気軽な環境追加がしづらい」ということが見えてきたため「開発者が自由に扱える基盤の構築」を実現して以下を達成することを目標とする 1. 自動テストによる制約、無駄の排除 2. 構築した基盤による開発プロセス上の無駄排除コントロール容易上記背景もあり、自分たちで自由にできる環境として物理マシンを調達して構築した → 結果自分たちの首を締めることになったこの環境を追加するコストが高い → 初期構築費用、ランニング費用だけでなく社内申請を通すための準備など諸々コントロール困難自動テスト手動テスト

Concourse (CIツール) 目標策定後のうっすらイメージ社内NW オンプレ環境1 環境2 開発者 Github Enterprise
物理マシン with Jenkins 手動テスト GCP GKE 自動テスト環境環境A 環境B 環境C 環境..... コード取得 (VPN経由) 廃止構築するために実際どうやったらよいかは低解像度状態ここで動かしたいのって何なのか？ → 解像度を上げるためにスコープを決めるオンプレや物理マシンだけでは解決が難しいことは見えていたため、クラウドという選択肢も視野にいれることに新たなコントロール容易環境

昨今のタウンワーク開発事情社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with
Jenkins 自動テスト手動テストコード取得コード更新頻繁に開発が行われるのはカスタマー向けの画面(Web)に関する部分 → バッチの更新頻度は低く自動化のメリットはWebほど高くない自動テストでは「開発中コードのデグレ確認」を主に実施 → いわゆるdevelopやreleaseブランチを使った動作確認普段の開発において欲しいのは - Webアプリケーションが動く環境 - 開発中のコード(developやreleaseブランチ)の動作が確認できる環境であると認識し、インフラ部分の再現やバッチ動作確認などはスコープアウトすることに

ステップ1: 問題、課題認識と目標設定「環境追加しづらい」起因により各種問題が出ているという認識のもと「開発者が自由に扱える基盤の構築」を実施し、「自動テストによる制約、無駄の排除」「構築した基盤による開発プロセス上の無駄排除」を実現するステップ2: 目標に向けた実現性検証ステップ3: 構築、運用開始ステップ4:
導入後の結果確認ここまでのまとめ

目標に向けた実現性検証検証1: オンプレ以外での動作、実現性検証目的: 今の制約(オンプレにしか環境は構築できない )が突破できるのかを試す検証2: 環境の複製検証目的: 用途ごとに環境を簡単に複製することができるかを試す
検証3: クラウド上での動作検証目的: 1,2での検証内容がクラウドで適用できるかを試すステップ1によりやりたいことは定まってきたので実現に必要な検証を洗い出す

オンプレ環境検証1: オンプレ以外での動作、実現性検証環境の複製、クラウド上での構築という観点からコンテナ化を実現するべく検証を開始これらをコンテナで動かせるようになればよい？ Apache Tomcat Webサーバ
Oracle DBサーバ Solr 検索サーバタウンワークWebを動かすために必要な要素

オンプレ環境検証1: オンプレ以外での動作、実現性検証 Apache Tomcat Webサーバ Oracle DBサーバ Solr
検索サーバタウンワークWebを動かすために必要な要素 Tomcat Image Apache Image Oracle Image Solr Image ソースコードから作成可能データどうする？ DB内のデータから作成可能 (= OracleImageができれば解決コンテナイメージを作るにあたり、 DBの初期データをイチから作れないという問題発生

オンプレ環境 Apache Tomcat Webサーバ Oracle DBサーバ Solr 検索サーバ検証1:
オンプレ以外での動作、実現性検証タウンワークWebを動かすために必要な要素 Tomcat Image Apache Image Oracle Image Solr Image ソースコードから作成可能テスト環境からのデータ復元で作成可能 DB内のデータから作成可能 (= OracleImageができれば解決テスト環境DBからダンプ Oracleのベースイメージにレストア Webのみ起動！ docker-compose DBデータはテスト環境からコピーで解決コンテナイメージが用意できたのでローカルマシンで docker-compose起動し動くことを確認

検証2: 環境の複製検証環境A 環境B アクセス a.twn.net/hoge b.twn.net/hoge Aに振る Bに振る B機能の
コード A機能のコード複製の検証を始めるにあたり実現したいイメージをまずは固める環境の単位は？ (サーバ? dockerプロセス?) 複製の単位は？ (gitブランチ? 設定ファイル?) ドメインでアクセス先環境を切り替えれると素敵。例えばサブドメインとか。どうやって利用環境を切り替えるか？どうやって環境を複製するか？

namespace namespace 検証2: 環境の複製検証環境A 環境B アクセス Bに振る B機能のマニフェスト
A機能のマニフェスト詳細を詰めていく中で最終的に Kubernetesで構築環境複製はkustomizeを使って環境ごとにマニフェストを用意する方式を採用利用切り替えはingress&nginxとk8s側のnamespace分離で実現 k8s ingress(nginx) a.twn.net/hoge b.twn.net/hoge Aに振る Kustomize -base ├ kustomize.yml └ branchA 　└ kustomize.yml └ branchB 　└ kustomize.yml apply apply kind: Kustomization images: - name: twn/twn-db digest: sha256:xxx - name: twn/twn-solr digest: sha256:yyy resources: - town-web.yaml kind: Kustomization bases: - ../base namespace: branchA imageTags: - name: twn/twn-tomcat newTag: branchA kind: Kustomization bases: - ../base namespace: branchB imageTags: - name: twn/twn-tomcat newTag: branchB server { listen 80; server_name ~^(?<subhost>.+)\.twn\.net$; location / { resolver kube-dns.kube-system.svc.cluster.local valid=5s; proxy_pass http://$subhost.$subhost.svc.cluster.local; } }

GCP GKE 環境A 検証3: クラウド上での動作検証検証1, 2の結果をもとにクラウド(社内用GCP)上で構築を開始手動でkubectlコマンドを実行しての検証がメイン構築での問題はなかったが、アプリログの確認には GCPアカウントが必要であることを認識
環境B kubectl アクセス Logging GKE上のログはLoggingに集約されるが確認のために開発メンバー全員がGCPアカウント必要開発メンバー

GCP GKE 環境A 検証3: クラウド上での動作検証開発メンバーはオンプレでの動作確認 (ターミナルでのログ確認やDBアクセス)に慣れている点に着目し、k8sのWebUIダッシュボードを追加して解決環境B kubectl
アクセス Logging 開発メンバー k8s WebUI ダッシュボードコンテナアクセス

ステップ2: 目標に向けた実現性検証コンテナ化による動作検証、 k8sによる複数環境検証、クラウド化の検証によって実現性を確認ステップ3: 構築、運用開始ステップ4: 導入後の結果確認ここまでのまとめステップ1:
問題、課題認識と目標設定「環境追加しづらい」起因により各種問題が出ているという認識のもと「開発者が自由に扱える基盤の構築」を実施し、「自動テストによる制約、無駄の排除」「構築した基盤による開発プロセス上の無駄排除」を実現する

Concourse (CIツール) 構築、運用開始に向けて検証結果を自動化社内NW Github Enterprise GCP GKE 環境A 環境B
環境C 環境..... コード取得 (VPN経由) 自動化するために社内NWへのVPN接続とCIツールを導入ここではコンテナとの親和性が高く、他サービスで実績のあった「 ConcourseCI」を採用物理マシン with Jenkins これはインフラチームに依頼すればOK これを構築

環境C 環境..... コード取得 (VPN経由) 自動化するために社内NWへのVPN接続とCIツールを導入ここではコンテナとの親和性が高く、他サービスで実績のあった「 ConcourseCI」を採用物理マシン with Jenkins これはインフラチームに依頼すればOK これを構築 1. ここの自動化が一番重要と考えてます皆さんも経験ありませんか、、？ - 過去誰かが作った自動化が動かなくなり業務が止まった - プロダクトコードよりもCIのコードのほうがいじるのが怖い環境 - なぜやっているのかよくわからない自動化の呪い - いきなり運用を切り替えて混乱する現場こういったことを避けるために自動化ステップにおいては以下を実施 1.現場開発メンバーからの早期FBをもらって充分状態を目指す(やりすぎ防止) 2.最悪捨ててもよい状態及び思考をもって取り組む(可逆的に進める) 3.誰かがすべてを把握する状態を避ける(属人化の軽減) 4.目的, 背景を文書化して残す(運用陳腐化防止)

環境C 環境..... コード取得 (VPN経由) 4つを意識して自動化を作り込むだけでなく運用も見据えた動きを進める物理マシン with Jenkins GCP上での構築が完了して運用できるまで残す → 可逆的に進める各自動化タスクをアーキチーム内で分担新人育成用タスクとしてやってもらう → 属人化の軽減開発メンバーある程度できたら軽微な画面開発の動作確認に使って FBもらう → やりすぎ防止今回の取り組みを文書化して残す → 運用陳腐化防止

構築完了、運用開始既存との変更点をドキュメント化してメンバーに説明しばらくは新運用を見守りながら進める自動テスト運用の変更点まとめ

Concourse (CIツール) 最終的に運用切り替え完了社内NW オンプレ環境1 環境2 開発者 Github Enterprise
物理マシン with Jenkins 手動テスト GCP GKE 自動テスト環境環境A 環境B 環境C 環境..... コード取得 (VPN経由) 最終的にうまく切り替わりました廃止

ステップ2: 目標に向けた実現性検証コンテナ化による動作検証、 k8sによる複数環境検証、クラウド化の検証によって実現性を確認ステップ3: 構築、運用開始検証と異なりここから先の構築は今後の運用に大きく関わってくる「やりすぎ防止」「可逆的に進める」「属人化の軽減」「運用陳腐化防止」の 4つを気にして進めて最終的に運用定着まで実施
ステップ4: 導入後の結果確認ここまでのまとめステップ1: 問題、課題認識と目標設定「環境追加しづらい」起因により各種問題が出ているという認識のもと「開発者が自由に扱える基盤の構築」を実施し、「自動テストによる制約、無駄の排除」「構築した基盤による開発プロセス上の無駄排除」を実現する

導入後の結果確認主目的に対する効果 1. 自動テストによる制約、無駄の排除テスト待ち不要、マシン不調による手運用排除 (月約10時間+αの工数削減) 2. 構築した基盤による開発プロセス上の無駄排除環境利用のバッティング頻度低下 GKE
環境A 育成者用環境空DB 新人空DB 新人育成コンテンツ追加ローカル環境で docker使えるやん！「環境追加がしづらい」「オンプレ以外で動かせない」という制約 (思い込み)を解消したことで新たな活用や技術キャッチアップという好循環も生まれたその他効果環境B 迅速な動作確認デザイナー開発者更新デザインイメージあってるか見てください確認します現場の技術キャッチアップ確認

ステップ2: 目標に向けた実現性検証コンテナ化による動作検証、 k8sによる複数環境検証、クラウド化の検証によって実現性を確認ステップ3: 構築、運用開始検証と異なりここから先の構築は今後の運用に大きく関わってくる「やりすぎ防止」「可逆的に進める」「属人化の軽減」「運用陳腐化防止」の 4つを気にして進めて最終的に運用定着まで実施
ステップ4: 導入後の結果確認当初目的も達成しつつ、制約突破による副次的な効果も発生した (※今回は導入後の効果が分かりやすかった ) ここまでのまとめステップ1: 問題、課題認識と目標設定「環境追加しづらい」起因により各種問題が出ているという認識のもと「開発者が自由に扱える基盤の構築」を実施し、「自動テストによる制約、無駄の排除」「構築した基盤による開発プロセス上の無駄排除」を実現する

ステップ1: 問題、課題認識と目標設定「環境追加しづらい」起因により各種問題が出ているという認識のもと「開発者が自由に扱える環境の構築」「自動テストによる制約、無駄の排除」「構築した仕組みによる改善効果の発揮」の3つを目標設定ステップ2: 目標に向けた実現性検証コンテナ化による動作検証、 k8sによる複数環境検証、クラウド化の検証によって実現性を確認
ステップ3: 構築、運用開始検証と異なりここから先の構築は今後の運用に大きく関わってくる「やりすぎ防止」「可逆的に進める」「属人化の軽減」「運用陳腐化防止」の 4つを気にして進めて最終的に運用定着まで実施ステップ4: 導入後の結果確認当初目的も達成しつつ、制約突破による副次的な効果も発生した (※今回は導入後の効果が分かりやすかった ) ここまでの流れを抽象度を上げてみると構造的な問題認識　環境不足によって開発工程(特にテスト)の無駄が生じている構造と捉える継続可能な運用の検討　現場に運用定着させるための整備と運用伴走導入とそれによる効果確認　狙った効果と現場の変化の確認最適な打ち手の模索と検証　制約突破に向けたコンテナ化検証別の優先課題発掘

ステップ1: 問題、課題認識と目標設定「環境追加しづらい」起因により各種問題が出ているという認識のもと「開発者が自由に扱える環境の構築」「自動テストによる制約、無駄の排除」「構築した仕組みによる改善効果の発揮」の3つを目標設定ステップ2: 目標に向けた実現性検証コンテナ化による動作検証、 k8sによる複数環境検証、クラウド化の検証によって実現性を確認
ステップ3: 構築、運用開始検証と異なりここから先の構築は今後の運用に大きく関わってくる「やりすぎ防止」「可逆的に進める」「属人化の軽減」「運用陳腐化防止」の 4つを気にして進めて最終的に運用定着まで実施ステップ4: 導入後の結果確認当初目的も達成しつつ、制約突破による副次的な効果も発生した (※今回は導入後の効果が分かりやすかった ) 技術ドリブンでのやり方ではないです最新技術の検証　検証の目的は？事業貢献それとも自己学習？技術導入　現場のエンジニアは扱えるのか？継続はできるのか？導入 = 成果　導入によって別の問題が出てないか？事業メリットはあったのか？最新技術がハマる場所の発掘　ハマる場所の効果はどれくらいか？他に優先すべきポイントは？最新技術キャッチアップ

最後にまとめ大規模システムにおける改善のポイント・課題認識と効果も合わせた導入をする　→ 技術導入が目的ではなく課題解決がメイン・運用も含めて推進する　→ 構築しても現場にハマらなければ意味がない　→ 大規模システムでの運用変更による工数増加は馬鹿にできない
・技術でゴリ押しするだけが正しいわけではない　→ 今回の事例ではクラウド化がハマったがオンプレの方がやりやすいのであればそれでもよかった　→ 労力に見合う効果を発揮することと、それを見極めるために現場を知ることが重要

興味のある方お待ちしておりますmm ご清聴ありがとうございました

アーキテクトが考えるシステム改善を継続するための心得 / tech-meetup2_nishi...

アーキテクトが考えるシステム改善を継続するための心得 / tech-meetup2_nishimura

Recruit
PRO

More Decks by Recruit

Other Decks in Technology

Featured

Transcript

アーキテクトが考える  システム改善を継続するための心得    2022年1月20日西村祐樹

本日話す内容 1.アーキテクトグループの紹介 2.事例をもとに改善の考え方紹介 ※ Kubernetesやコンテナの話も途中入りますが、細かな内容には触れません

アーキテクトグループの紹介

図で見るタウンワークの規模感見えている部分以外にも着目すると各システムを支える要素は膨大こうしてみるとタウンワークの規模小さく見えるが、、皆さんが目にする部分裏で支えているシステム郡

これから話す内容(Before) 社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with

Concourse (CIツール) これから話す内容(After) 社内NW オンプレ環境1 環境2 開発者 Github Enterprise

事例をもとに改善の考え方紹介

話す内容の流れステップ1: 問題、課題認識と目標設定ステップ2: 目標に向けた実現性検証ステップ3: 構築、運用開始ステップ4: 導入後の結果確認

改善前のタウンワークの開発環境周り社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with

物理マシン問題と自動テスト制約のみを解決する場合社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with

物理マシン問題と自動テスト制約のみを解決する場合社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with

物理マシンでの自動テストが生まれた背景社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with

Concourse (CIツール) 目標策定後のうっすらイメージ社内NW オンプレ環境1 環境2 開発者 Github Enterprise

昨今のタウンワーク開発事情社内NW オンプレ環境1 環境2 開発者 Github Enterprise 物理マシン with

オンプレ環境検証1: オンプレ以外での動作、実現性検証環境の複製、クラウド上での構築という観点からコンテナ化を実現するべく検証を開始これらをコンテナで動かせるようになればよい？ Apache Tomcat Webサーバ

オンプレ環境検証1: オンプレ以外での動作、実現性検証 Apache Tomcat Webサーバ Oracle DBサーバ Solr

オンプレ環境 Apache Tomcat Webサーバ Oracle DBサーバ Solr 検索サーバ検証1:

検証2: 環境の複製検証環境A 環境B アクセス a.twn.net/hoge b.twn.net/hoge Aに振る Bに振る B機能の

namespace namespace 検証2: 環境の複製検証環境A 環境B アクセス Bに振る B機能のマニフェスト

GCP GKE 環境A 検証3: クラウド上での動作検証開発メンバーはオンプレでの動作確認 (ターミナルでのログ確認やDBアクセス)に慣れている点に着目し、k8sのWebUIダッシュボードを追加して解決環境B kubectl

ステップ2: 目標に向けた実現性検証コンテナ化による動作検証、 k8sによる複数環境検証、クラウド化の検証によって実現性を確認ステップ3: 構築、運用開始ステップ4: 導入後の結果確認ここまでのまとめステップ1:

Concourse (CIツール) 構築、運用開始に向けて検証結果を自動化社内NW Github Enterprise GCP GKE 環境A 環境B

Concourse (CIツール) 構築、運用開始に向けて検証結果を自動化社内NW Github Enterprise GCP GKE 環境A 環境B

Concourse (CIツール) 構築、運用開始に向けて検証結果を自動化社内NW Github Enterprise GCP GKE 環境A 環境B

構築完了、運用開始既存との変更点をドキュメント化してメンバーに説明しばらくは新運用を見守りながら進める自動テスト運用の変更点まとめ

Concourse (CIツール) 最終的に運用切り替え完了社内NW オンプレ環境1 環境2 開発者 Github Enterprise

興味のある方お待ちしておりますmm ご清聴ありがとうございました