Revisit the DevOps Origin: 10+ Deploys Per Day by Flickr

DevOps の源流 : Flickr 10+ Deploys per Day のトーク (2009年)
を再訪する https://www.slideshare.net/jallspaw/ 10-deploys-per-day-dev-and-ops-cooperation-at-flickr https://www.youtube.com/watch? v=LdOe18KhtT4

川口恭伸かわぐちやすのぶ Twitter: @kawaguti アギレルゴコンサルティング株式会社シニアアジャイルコーチ株式会社ホロラボシニアアジャイルコーチ
一般社団法人スクラムギャザリング東京実行委員会代表理事一般社団法人 DevOpsDays Tokyo 代表理事

10 deploys per day Dev &ops cooperation at Flickr John
Allspaw &Paul Hammond Velocity 2009

John Allspaw 00:11 皆さん、聞こえていますか？はい。私の名前はジョン・アルスポー、Flickrのオペレーショングループを担当しています。 Paul Hammond 00:22 Flickr社でエンジニアリンググループを
担当しているポール・ハモンドと申します。 John Allspaw 00:29 今日の話は、実際には様々なトピックを扱う予定ですが、開発と運用がどのようにフィットして仲良くなり、実際に協力して、お互いに大馬鹿者ではないことを説明するための手段とでも言いましょうか。 Flickrで。

Paul Hammond 00:51 しかし、始める前に、Flickrとは何かについて少し話しておきましょう。 Flickrについて聞いたことがある人は手を挙げてください。さて、 Flickrを知らない人のために説明しますと、 Flickrは写真共有サイトで
す。現在、約30億枚の写真を保存しています。そして、1日の任意の時点で、1秒間に約40,000枚の写真を提供しています。これらの写真は、約6 ペタバイトのストレージを占めています。子猫がたくさんいるように見えるかもしれませんが、実はとても大きいのです。

John Allspaw 01:26 そうそう、今回は歴史的、伝統的に開発(Dev)と運用(Ops)についてお話します。今でも、これは通常、開発vs 運用と考えられています。基調講演では、このような二人の男がいるという図
式がありました。よく耳にする言葉ですね。

John Allspaw 01:26 「それは私のマシンではなく、あなたのコードだ。」 Paul Hammond 01:54 「私のコードではなく、あなたのマシンだ」
と言っているのが聞こえてきます。

John Allspaw 01:59 そして、ステレオタイプは、開発者と運用者の典型的なタイプを作ります。開発者の中には、ちょっと変わった人もいるでしょう。開発者の中には、ちょっと変わった人もいるかもしれません。彼らは数学の分野では本当に優秀で、運用担当者は何か問題が起こる
たびにパニックになります。興奮しやすいのです。お酒を飲みすぎることもあるし、飲まないこともある。このように、真面目な話をすると、「どうぞ」というステレオタイプになってしまうのです。

Paul Hammond 02:45 運用担当者というと、もうひとつのステレオタイプは、「不機嫌な老人」です。そう、いつも「ノー」と言う不機嫌なおじさんです。彼らは、これらの新しい機能がサイトを壊すのではないかと恐れています。とてもとても指摘好きで、批判ばかり。

John Allspaw 03:00 そうそう、彼らはいつもノーと言います。だってサイトが予期せず壊れちゃいますよ。ステレオタイプのOPSのマネージャーは、こんな不機嫌な男のように、「いや、それはやりたくない」と言うんでしょうか。いや、私はそうはなりたくありません。そんな人とだ
れが働きたいんでしょう？誰もいませんよ、嫌な奴だから。

Paul Hammond 03:24 このような固定観念の根源を探ると、それは開発者(Dev)の役割と運用 (Ops)の役割に関する伝統的な考え方に帰着します。

Paul Hammond 03:24 多くの人が考えるのは、開発者(Dev) の仕事はサイトに新しい機能を追加すること。そして運用者(Ops)の仕事は、サイトの安定性と高速性を維持することです。

Paul Hammond 03:24 多くの人が考えるのは、開発者(Dev) の仕事はサイトに新しい機能を追加すること。そして運用者(Ops)の仕事は、サイトの安定性と高速性を維持することです。ですよね？違いますか？運用(Ops) の
仕事は、サイトを安全かつ高速に保つことではないと思います。それは彼らの仕事ではありません。

John Allspaw 03:44 これは、ある人にとっては新しい発見かもしれませんが、運用(Ops)の仕事はビジネスを可能にすることですよね？もしビジネス要件として、2週間ごとにサイトを停止しなければならないとしたら、たとえあなたが最大のオンラインゲームプラットフォームであり、何百万人もの有料顧客を
抱えていたとしても、その銀行顧客は可用性が97%を許容します。 99.999%でなく。これは真実です。このサイトの安定性と高速性を維持することは、よくあるビジネス要件です。ビジネス要件の話なんです。

Paul Hammond 04:34 ビジネス、特にオンラインビジネスで働く上での現実の一つは、ビジネスには変化が必要だということです。もしあなたのビジネスが立ち止まっていたら、TwitterやFacebookのような新興企業に乗っ取られ、追い越されることになるでしょう。

Paul Hammond 04:34 もちろん、問題はその変化です。ほとんどの障害の根本原因を調べて一般化すると、「変化」という結論に至ります。ほとんどの障害の根本原因は「変化」なのでしょうか？数日前、数時間前、数週間前に変更がなければ、ほと
んどの障害は起こりません。

John Allspaw 05:09 つまり、2つの選択肢があります。安定性を重視して変化を阻止するか。それとも、賢くなって、必要に応じて変化を起こせるようなツールや文化を構築するかです。

Paul Hammond 05:29 今日お話しする内容のほとんどは、上手なツールの使い方と、チーム内での優れた作業文化によって、変更のリスクを低減することです。これらのツールを使ってやろうとしていることは、ある変更がシステム停止や現場での問題を引き起こさないという確信を高め
ることです。また、万が一、障害が発生した場合の復旧能力を高める方法についても検討しています。

Dev and Ops

John Allspaw 06:03 もちろん、開発者と同じような考え方をする人たちがオペレーションをしてくれれば、それはとても助かります。

Paul Hammond 06:11 会場にいる皆さんの中で、自分はDev だと思っている人は何人いますか？自分はOps側の人間だと思っている人はどれくらいいるでしょうか？また、両方の仕事をしている人はどのくらいいるでしょうか？では、会場にいる運用担当者の中で、最近、ユーザー向けの
アプリケーションコードを変更したことがある人は何人いますか？ John Allspaw 06:51 一握りですね。その変更をしたことを喜んでくれる開発者と一緒に仕事をしている人はどれくらいいるでしょうか？はは、何かおかしいですね。

Paul Hammond 07:02 開発者の皆さんの中で、サイトに何らかの問題が発生して、週末の夕方に見つかったために、家で仕事をしたことがある人はどれくらいいるでしょうか？この会場にいる開発者の3分の1 くらいでしょうか。ポケベルを持っている人はどれくらいいますか？あるい
はオンコールで、開発者である開発者と開発者である開発者がいますか？サイトが完全に落ちてしまうまでに、何台のウェブサーバーを失っても大丈夫かを知っている人は何人いるでしょうか？

John Allspaw 07:29 これは常にいい質問ではないのでしょうか？その答えは、常に彼らのようにもっと考えることができるということだと思います。ねぇ。

Paul Hammond 07:42 そこで今回は、ツールについて少しお話ししましょう。そして、このツールの議論でやりたいことは、これらは私たちに有効なツールの一部です。必ずしもすべての人に使えるわけではありません。全体を通して、私たちが使っている具体的なツールの例を挙げてい
きたいと思います。しかし、私たちが伝えようとしている重要なことは、このカンファレンスの共通テーマになるでしょう。

1.Automated infrastructure If there is only one thing you do…

Paul Hammond 07:42 自動化されたインフラとは、そのような技術であり、オペレーションの仕事を可能にするものです。1,000台以上のサーバーがある場合、個々のサーバーを手動で管理することは現実的ではありません。開発者の視点から見ると、アプリを構築するための一貫した
予測可能なプラットフォームを提供します。

.Automated infrastructure If there is only one thing you do…
Chef Puppet CFengine FAI System Imager Cobbler BCfg2

Paul Hammond 07:42 つまり、Apache 1.3を実行している 10台のウェブサーバーと、 Apache 2.ｘを実行している3台のウェブサーバーは、アップグレードの最中でなければ、それが動いているこ
とを、知ることができます。しかし、このような一貫したプラットフォームがなければ、開発者が仕事をするのは本当に難しいのです。

John Allspaw 08:45 私たちはあらゆる種類のツールを持っていますが、この講演はそのことについてではありません。このテーマについては、AdamとEzraがもう少し後に講演をする予定ですし、もっと良いプレゼンテーションが6つほどあります。

Paul Hammond 09:35 しかし、ここでの重要なポイントは、 iOSのイメージを持っているということです。そして、このサーバー、インフラの一部、またはクラウドのビットが実際に行う何らかの役割があり、それはタスク駆動型のインフラです。実際には何の違いもありません。

Paul Hammond 09:35 このサーバーとクラウドの違いは、このサーバーの周りに青い雲があることです。それだけで、考え方は同じです。例えばEC2でサーバーを運用していて、 OSのイメージング側はamiが担当していても、その上にロールと構成管理のレイヤーが必要になるということです
ね。 John Allspaw 09:45 そうですね、それ以上に重要かもしれません。

2.Shared version control

Paul Hammond 09:50 次に紹介するツールは、バージョン管理です。開発チームの中には、バージョン管理なしで運用しようとする人はあまりいないでしょう。そして、ますます多くの運用チームが使うようになっています。バージョン管理を使うことは、実際、かつて私たちがやっていたことでもあります。かつては、 FlickrのソースコードはCVSに格納されていましたが、運用
やパッケージ、構成管理のすべてはPerforceに格納されていました。そのため、開発者は何が起こっているのかわからず、 Perforceのリポジトリをどうやってチェックすればいいのかわからず、ジョンはCVSのリポジトリをどうやってチェックすればいいのかわからなかったのです。

Paul Hammond 09:50 1つの共有リビジョン管理システムがあれば、チームの誰もが、どこを見れば特定のボックス用の設定の最新インスタンスを見つけられるのかを知ることができ、また、アプリケーションで何が起こっているのか、どこに変更があるのかを知ることができます。これは、緊急時には本当に便利です。先週の金曜日、
私は外で食事をしているときに、サイトの一部に問題が発生していることがわかりました。ジョンのチームで働いているケビンが私に電話をかけてきたのです。もしソースコードのリポジトリが違っていたら、ケビンがアクセスできなかったかもしれないし、私が家に帰ってラップトップを取り出し、自分で修正しなければならなかったでしょう。このように、シングルソースコントロールは透明性を提供してくれるので、非常に便利です。

3.One step build

Paul Hammond 09:50 開発の観点からは、ワンステップビルドを設定することが最も重要です。ワンステップビルドとは、現在svnのソースコントロールシステムに登録されているコードを、本番サーバーにコピーしてサイトを実行できるようなファイルセットにするために必要なすべてのことを意味します。今お見せしているスクリーンショットは、 Flickr内部の開発管理インターフェースの一部です。画
面の一番下にある「ステージングを行う」と書かれたボタンをクリックすると、SVMチェックアウトが行われ、すべての翻訳、すべてのテンプレートのコンパイル、最適化のためのコンパイルなどが行われます。そして、そのコードをステージング・サーバーにコピーして、テストできるようにします。

Paul Hammond 09:50 今お見せしているスクリーンショットは、Flickr内部の開発管理インターフェースの一部です。画面の一番下にある「ステージングを行う」と書かれたボタンをクリックすると、svnチェックアウトが行われ、すべての翻訳、すべてのテンプレートのコンパイル、最適化のためのコンパイルなどが行われます。そして、そのコードをステージング・サーバーにコピーして、テストできるようにします。 John
Allspaw 12:07 自動的に自動的に、つまり、人がこのコマンドを実行していないのに、このコマンドを実行するのです。結論から言うと、コンピュータはコマンドを同時に実行するのがとても得意で、何度も同じ順番で実行されます。 Paul Hammond 12:20 また、開発者が自分のワークステーションでビルドを行い、それが開発者とは微妙に異なる設定になっているような状況もありません。そのため、コードに大きな変更がなくても、その後の変更で、アプリケーションがデプロイされたときの支払いが大きく変わってしまうのです。

Paul Hammond 09:50 ワンステップビルドができたら、次に必要なのはワンステップデプロイです。

Paul Hammond 09:50 これはFlickr内部のデプロイ用管理ツールで、上部にはデプロイログが表示されています。これは非常に安上がりな変更管理方法で、誰もが何が起こっているかを見ることができ、システムの他の場所で何か変更が起こっているので、今がデプロイの絶好の機会であることを警告することができるということです。下部には「I'm feeling lucky」と書かれたボタンがあります。これを押すと、コードが横に
押し出されます。コードを横に押し出しているときの様子はこんな感じです。同じ原理がここにも当てはまります。ボタンを1つにすることで、エラーの余地が非常に少なくなり、一貫した環境でビルドやデプロイを行うことができ、間違った手動の手順がなくなるのです。つまり、ソースコードの差分を見れば、それがデプロイされたときのアプリケーションの動作に見られる唯一の違いになると、かなりの自信を持って言えるのではないでしょうか。

John Allspaw 13:35 そして、これこそが私たちのやり方なのです。しかし、継続的なデプロイメントがトレンドになっていますね。そして、継続的インテグレーションは、多くの運用ツールや、ベンダーが販売しているもの、さらにはオープンソースのプロジェクトにも登場し始めています。これは良いアイデアだと思います。

[2009-06-22 16:03:57] [harmes] site deployed (changes...) Who? When? What?

John Allspaw 13:35 このプロセスで最も素晴らしいことの一つは、デプロイ・ログがあることです。誰が、いつ、何をしたかがわかります。John Adamsは、監視・測定ツールの一番上にデプロイ時のタイムスタンプを置いていることを先ほど紹介しました。コンテキストが絶対的に重要なの
です。この講演のタイトルは、1日に10回以上のデプロイを行うというものです。1日に 10回もデプロイするふりをしたり、しようとしたりすることはできません。1日に10回もサーバダウンしていたら、それはアジャイルではなく、ただのダメな人です。

Paul Hammond 14:45 私がここで伝えたいことの一つは、Webページ上にプロセスを結びつけないワンボタンを設置するだけではないということです。ソースコントロールのルートにmakeスクリプトやmakeファイルを置いているかもしれません。デプロイに関してはシェルスクリプトを実行するだけでもいいですし、Capistranoを使ってもいいですし、RPMを使ってもいいでしょう。先ほど紹介したデプロイシステムは、Flickrのメインアプリ
ケーションがどのようにデプロイされるかを示しています。周辺の小さなアプリケーションで実験を始めていることの一つに、継続的インテグレーション・サーバー（Hudson）を使ってパッケージを自動的に生成し、運用チームがボックスにデプロイする方法があります。繰り返しになりますがSVNのファイルをコミットするだけのシングルステップビルドです。SVNのファイルをコミットし、ボタンを1つ押すだけでパッケージが生成されます。そして、シングルステップデプロイでは、運用チームの誰かが実際にそのパッケージや開発者をデプロイしていきます。 ※Hudsonは現在の Jenkins です。

Paul Hammond 14:45 ジョンがすでに述べたように、私たちのビルドとデプロイのシステムは完全に自動化されているので、より頻繁にデプロイすることができます。また、1回のデプロイを小さくすることができるので、個々のデプロイのリスクが少なくなり、万が一何か問
題が発生した場合でも、何が起こったのかを簡単に調べることができるので、リカバリーが可能になります。

4.Feature ﬂags (aka branching in code)

Paul Hammond 14:45 次に紹介するのは、これまた開発者向けの話です。それは、フィーチャーフラグと呼ばれるものです。これは、コードの分岐(ブランチ)と考えることもできます。

Paul Hammond 14:45 リビジョン管理の分岐システムについて考えてみると、それはデスクトップソフトウェアを構築する際の現実に対する反応です。そして、開発チームはすぐにMicrosoft Word 1.1の開発を始めます。そして、makeを動かして、1.1を
起動します。そして数日後、重大なセキュリティ上の脆弱性があることに気づきます。そこで、1.0のコードベースに戻って変更を加え、それを出荷しなければなりません。そして、 1.2をリリースします。そして、1.2をリリースすると、また別の変更を加えなければなりません。つまり、一度に3つの異なるバージョンのソフトウェアをリリースすることになります。

Paul Hammond 14:45 しかし、ウェブアプリケーションのインスタンスが1つしかない場合は、そうはいきません。私たちが持っているのは、現在デプロイされているものだけであり、古いバージョンはもう重要ではありません。

Paul Hammond 14:45 私たちがこの問題に対処する方法は、常にトランクを出荷することです。すべての開発をtrunkで行っているわけではありませんが、ブランチで開発を行い、そのブランチをマージすることも可能です。 ※現在主流の
Githubでは 2020年にtrunk は main に変更されました。

Paul Hammond 14:45 しかし、常にtrunkを出荷することで、チームの誰もが、現在サイトにデプロイされているコードのバージョンがどこにあるのかを正確に知ることができ、どのブランチのどのパッチリリースが現在リリースされているものなのかを考える必要がなくなります。

#php if ($cfg['enable_feature_video']){ … } {* smarty *} {if $cfg.enable_feature_beehive}
… {/if} Feature ﬂags

Paul Hammond 14:45 SVN(Subversion)に入ると、そこにはトランクがあります。先ほど、SVNではブランチを行わないと言いました。代わりにコードで分岐を行います。つまり、すぐにはリリースしない機能を開発しているときは、条件分岐を使ってその特定の分岐をブロックしている
のです。ここでは、PHPの例を紹介します。これはSmartyの例です。つまり、まだリリースされていないすべての新機能のコードを、実際に本番サーバーに置いておくことができるのです。本番サーバーでは、設定を変更するだけで、まだ実際には表示されません。

Paul Hammond 18:11 この機能により、いくつかの優れたトリックが可能になります。1つ目は、本番サーバー、本番ハードウェア、本番トラフィックでプライベートベータを行うことができるということです。もちろん、私たちには現実的なテストを行うことができる素晴らしいステージング環境があります。そして、そのような環境で多くのQAを行いました。しかし、私たち
が発見したのは、テストのために2台目のサーバーを使用した場合、ベータ版サーバーと本番サーバーの間で設定の変更があることに気づくかもしれないということでした。構成管理を行っていても、ベータ版サーバーでは新機能が完璧に動作していたのに、本番版サーバーに移行した途端に動作しなくなったということがあります。しかし、本番環境に移行した途端、頼りにしていたバックエンドの内部ウェブサービスが、本番環境のダブダブからブロックされていることに気付きました。そのため機能が動作せず、そのバックエンドのウェブサービスに緊急の変更要求を出さなければなりませんでした。

Paul Hammond 18:11 これでバケットテストができるようになりました。これは非常に便利なことです。つまり、新しいコードパスを手に入れて、新しいバックエンドシステムの使用を検討している場合、まずは5%のトラフィックをプッシュして、その後10、20、 30、50%と増やしていき、一部のユーザーに対して機能をオンにすることができるのです。異な
るバージョンのソフトウェアを異なるサーバーで実行したり、本番環境に入れたり出したりといったことを慎重に行う必要はなく、すべてコードで行うことができます。

Paul Hammond 18:11 そして最後に、ダークローンチこれは、先ほどJonathanがFacebookの話をしたときに言っていたことですが、新しい機能を舞台裏で立ち上げることができるのです。例えば、検索クラスタのデータベース・サーバーのmemcachedボックスに負荷をかけるような新機能があった
場合、その機能を裏でオンにして、数週間データの取得を開始し、そのデータは表示しないようにします。

John Allspaw 20:00 Opsにとっては、不安を取り除くことができるという点で、非常に大きなメリットがあります。申し訳ありませんが、ギグから恐怖を取り除くことができるのです。そうではなくて、新しいお酒のホームページの例を挙げてくれましたか？私は知りませんでした。そうですね。つまり、私たちは新しいFlickrのホームページを再設計し、より多くの情報、基本的にはあなたの連絡先からのアクティビティや、リアルタイムでストリーミングされる様々な量のアクティビティを持っています。膨大な量
のデータだよ。そうでしょ？ではどうすればいいのかというと、これから配信するすべてのホームページは、データベースからより多くのデータを取得することになります。でも、データベースは最悪です。それはとても面倒なことです。そして、そして、そして、本当に怖いです。そこで私たちは実行しました。何週間もかけてリリースしました。そう。アプリケーションがそれを受け取って、データはどうなるんですか？おかげで、実際のローンチはまったく拍子抜けするようなものになりました。これはとてもいいことですね。そう、この時点で明らかになっているはずなんです。これらの機能フラグや無効フラグは、今いくつあるのかな。

John Allspaw 21:12 100点満点の結果が出れば、それを無効にすることができます。また、サイトに影響を与えているもの、つまり可用性やパフォーマンスに関わるものの動作を変更することもできます。データベースクラスターがたまたま劣化していたり、他のバックエンドサービスが劣化していた
りして、それが機能に依存している場合は、これを変更することができます。そして、サイトに影響を与えることなく、ロールバックすることができます。多くの場合、ロールフォワードしてオフにします。これらの機能フラグの中には、単にオンかオフかだけではないものもあります。Paulが言っていたように、量を変えられるノブのようなものもあります。だから良いのです。

5.Shared metrics

John Allspaw 21:12 メトリクスの共有。メトリクスを共有することは、バージョンコントロールを共有することと同じです。あなたは私のビットを見ることができ、私はあなたのビットを見ることができます。まあ、私たちはメトリクスを集めています。

John Allspaw 21:12 これは私たちのガングリオンのインストールのスクリーンショットです。37の異なるクラスターがありますが、どれだけの数のメトリクスを収集しているかわかりません。ここで重要なのは、開発者はこれがどこにあるかを知っているだけ
でなく、アクセス権を持っていて、運用と同じくらい熱心に見ているということです。オフィスを歩けば、すべての開発者が少なくともブラウザの1つのタブに、このようなものを持っています。

John Allspaw 21:12 CPU、ネットワーク、メモリ、ディスクなどのアプリケーションレベルのメトリクスをそこに入れることができるということです。ユーザーCPUが75%であろうと、そのうちの何% であろうと、私は気にしません。その役割とは、サーバーがウィジェットを食べているかどうか、 1秒間に何個のウィジェットを食べているか、
それぞれのパーツ、それぞれのビット、それぞれのCPUの割合です。これは当然、キャパシティマネジメントやキャパシティプランニングなどにも関わってきますが、もしそれが重要だと思うのであれば、そのようなことも必要です。これは、画像処理を行う特定のサーバーの、過去1分間の平均値を示したグラフです。あなたが子猫をFlickrにアップロードすると、私たちはそれを6つ、あるいは5つ、あるいは6つの異なるサイズに切り分けます。それぞれの処理にかかった時間の平均値を示しています。

Paul Hammond 24:10 これは、非同期タスクキューにあるバックグラウンドタスクの数を示したグラフです。面白いのは、このグラフに表示されている指標を私が実際に作ったことです。このグラフを作成した理由の一つは、Johnのチームに頼まれたからではなく、オフラインタスクシステムのパフォーマンスをある程度把握したかっ
たからです。ここで興味深いのは、開発者が伝統的な運用指標を作りたがるというダイナミックな状況があることです。ジョンのチームは、私たちがこれらを簡単に作れるようにしてくれました。今では、アプリケーションのどの部分であっても、キーと値のペアを含むファイルを書くだけで、ガングリオンのセットアップがそれを取り込んで、かなりアーティスティックなグラフを作ってくれるフレームワークを持っています。

Adaptive feedback loops App System Metrics RU ok? maybe?

Paul Hammond 24:10 これが、アプリケーションにおける適応型フィードバックループの作成につながります。つまり、非同期に起こっていることがあれば、システムがうまく機能していない場合には、アプリケーションが手を引いて、システムへの負荷を減らすようにすることができるのです。先ほど説明したオフラインタスクセン
ターは、データベースが過負荷になり始めると、実際にダイヤルバックして、データベースがリアルタイムの負荷に対応できるようにしてくれます。もし10分後にオフラインタスクを実行する必要があっても、それは大したことではありません。また、YahooフォトからFlickrへの移行を行った際には、ストレージの空き容量に応じてスロットルをかけ、ストレージが不足しないようにしました。

John Allspaw 25:42 ああ、あれは本当にいい例です。このように、数ヶ月に及ぶプロセスがありますよね。彼らはYahooフォトを閉鎖していますが、Yahooフォトをどうするかの選択肢の1つとして、Shutterflyや他のいくつかの場所に行って、 Flickrに移行することができますよね？本質的には何なのでしょうか？10年分のYahooの写真を、Flickrが持っているのと同じフォーマットで、すべてのメタデータとともにFlickrにインポートする
には、膨大な時間がかかるでしょう。ですから「Flickrに移行したいと思うのですが」「わかりました。あとでご連絡します。」と答えなければなりませんでした。Yahooの写真とFlickrでは大きな違いがあったので、異なるサイズに処理しなければなりませんでした。ご存知のように、私たちはどのくらいの量のストレージがいつオンラインになるのか、かなり厳密に把握しています。しかし、私たちが知らなかったのは、何人の人がそのボタンをクリックするのかという巨大な未知の変数でした。「はい、フリッカーに行きます」と言う人はどれくらいいるか。移行の全期間を通じて、本当にこの変数に依存していました。つまり、いつスペースが足りなくなるかを予測し、それを変更していくということです。そして、それに適応するための移行は、私たちにとって非常に大きな勝利でした。

John Allspaw 27:24 私たちは、すべての指標のすべてのページに、最後にサイトが展開された時刻を表示していますが、これはすでに設定済みです。 Paul Hammond 27:35 そのため、あるグラフがなぜ2倍になったの
か、あるいは半分になったのかを簡単に把握することができます。これは、私のチームが画像処理コードの最適化を行った例です。どのような効果があるのかわからなかったのですが、ちょっとしたことだろうと思っていたら、かなりの効果があることがわかりました。

6.IRC and IM robots

John Allspaw 27:58 コミュニケ―ションは、ツールの最後のパートです。 Flickr では、他の多くの場所と同様に、IRCを多用しています。開発者と運営者の間の継続的な対話のために使用しています。IRC は、特にリモートで仕事をしている人にとっては便利です。それで、このような会話が行われているわけです。そして、文脈があるのは良いことだと思います。そこで私たちは、前回の
FMで、まさにこのようなことをするための素晴らしい小さなツールを書きました。

Dev, Ops, and Robots Having a conversation IRC search engine
alerts monitors deploy logs build logs

John Allspaw 27:58 IRCのストリームにイベント、つまりコンピュータ主導のイベントを流します。例えば、私たちが本当に気にしている特定のアラートやモニターは、ビルドログや、何かがデプロイされたときのデプロイログです。つまり、あなたは会話をしていて、ある書き換えルールとデプロイでこんな問題が起きていることを知らないのです。それについてど
う思いますか、それともアラートが出ないのですか？そこで実際にやることは、このログに記録された情報をすべて、検索エンジンに突っ込むことです。そうすれば、2ヶ月前の木曜日に一体何をしていたのか、何が起こっていたのかを知ることができます。以前にもこのような問題があったのか。人間がコンテキストを持つようになったということで、本当に助かりました。IRCツールで過去にさかのぼって調べられるだけでなく、実際に人間の文脈があるわけですから。

Culture

Paul Hammond 29:28 どのようなツールを導入しても、信じられないほどの議論好き、闘争心の強い文化の下では、役に立ちません。そしてもうひとつ、私たちの仕事ぶりを非常に楽にしていると思うのが、Flickrが持つ文化です。自動化されたインフラのようにね。申し訳程度のグラウンドゼロのようなもので、ツールに関しては非常に基本的なことをしなければならないようなものです。

1.Respect If there is only one thing you do…

Paul Hammond 29:28 文化に関して言えばこれを言うのはちょっと偽善的ですが、最も重要なことの1つは固定観念を避けることです。あなたが5年前に一緒に働いていたカウボーイは、あなたのアプリケーションに関心がなかったり、システムのアップタイムに関心がなかったりしましたよね。しかし、あなたが
一緒に仕事をする開発者の全員が彼のようなウイルスに感染しているわけではありませんし、運用担当者の全員が彼のように妨害されるわけではありません。誰もが最悪の事態を想定するなら、誰もがあなたに最悪の事態を想定することになるでしょう。

Paul Hammond 30:36 誰もが繊細な小さな雪の結晶であり、誰もが少しずつ、彼らは異なる経験を持っており、あなたとは異なる問題解決策を思いつくからです。それらの解決策はベストなものではないかもしれませんが、少なくとも彼らの提案を尊重すべきです。もうひとつ重要なことは、人それぞれの責任を尊重することです。私たちは皆、ビジネスに対して異
なる責任を負っています。つまり、私たちはそれぞれ異なる優先順位を持っているということです。それを理解し、認識し、そして尊重することが大切です。

John Allspaw 31:20 それは、問題について会話をするときに、「いいえ」と言うことは、「あなたの問題には関心がありません」と言っているようなものだということです。ブルーム・フィルターは書けません。開発者が問題を解決しようとしているのか、運用担当者が問題を解決しようとしているのか、何を解決しようとしているのかを知ることができます。ここで最もクールなものを見
つけることができます。規模の壁を乗り越えて成功した企業のほとんどは、開発者と運用担当者が一緒になってユニークなソリューションを考え出したところです。memcachedがいい例です。かつては、データベースといえば、DBAや運用担当者がいて、それが彼らの仕事だったんです。私は開発者なので、コードを書きます。そして、どこかに魔法のようなデータベースがあって、私に代わって答えを出してくれる。そして、memcachedが開発されました。そして、この問題を解決するために様々なアーキテクチャが設計されました。そして、それが実現したのは、開発者と運用者が一緒に仕事をしたときだけです。

Paul Hammond 32:41 もし、あなたが問題を解決しようとしているときに、同僚や他のチームからの反応が「それはダメだ」というものであることがわかっているなら、解決策を隠しておくのは、本当にダメなことです。私がやりたいことをジョンが断るとしたら、それはおそらく正当な理由があるはずです。それを隠してしまうと、彼に専門知識を提供する機会を与えないことになり
ます。さらに重要なことは、もし私が何かを隠していたら、彼はいずれそれを知ることになるでしょうし、知ったときにはきっと怒るでしょう。べきです。

Developers:Talkto ops about the impact of your code: •what metrics
will change, and how? •what are the risks? •what are the signs that something is going wrong? •what are the contingencies? This means you need to work this out before talking to ops

Paul Hammond 32:41 繰り返しになりますが、開発者にとって、自分の仕事に敬意を払ってもらうためにできることのひとつは、何かを立ち上げる前、あるいは何かを提案する前に、その影響について前もってOpsに相談することです。もしあなたがコードを公開するなら、どのような指標が変わるでしょうか？どのようなボックスでしょうか？CPUの使用量は増えますか？どのボックスの空きメモリが増えますか？何かが間違っているかもしれないリスクは何ですか？実際に何か問題が起きていることを示す兆候は何
ですか？では、運用チームは何に気をつけるべきでしょうか？そして、もし何かが起こり始めたら？不測の事態とは何か？サイトを継続的に運営するために、オペレーションチームはどのように回復することができるのでしょうか？これらの答えを導き出すための問題は、オペレーションチームに話を聞きに行く前に、これらの答えを導き出す必要があるということです。すべての答えを得ることはできないかもしれませんが、少なくともこれを会話のベースにすべきです。

2.Trust

John Allspaw 34:05 そして、信頼へとつながっていきます。

Ops needs to trust dev to involve them on feature
discussions Dev needs to trust ops to discuss infrastructure changes Everyone needs to trust that everyone else is doing their best for the business http://www.ﬂickr.com/photos/85128884@N00/2650981813/

John Allspaw 34:05 最後のスライドには、会話を成立させるのに役立つ様々な事柄や推奨事項が書かれています。つまり、開発者が運用担当者のところに来て、不機嫌な運用担当者だけど、そんなに長くは不機嫌にならないだろうと思って、こう言ったとしましょう。「クラスタA,B,Cの低い特性が変わると思うんだ。これを作ったんだけど、小さなフックがあって、これをゼロに設定できるんだ。何かあったら私のせいにしてください。」この機能のために、このコードを入れるのは良いことだと思わなければなりません。この男は本当に考えてい
るんだな。それだけではなく、彼はこのことを気にかけています。彼はサイトのアップタイムを気にしているし、真夜中に私のチームを起こさないように気にしています。これは信頼の問題です。運用担当者は、機能の議論に参加させるために開発者を信頼する必要があります。つまり、自分たちの間で「新しい機能ができた、最高だ」と話しているわけです。ここで言っているのは、キャパシティプランニングのような、早期に行われるべき通常のオペレーションの話ではありません。私が言っているのは、サイトに起こる変化のことです。

Paul Hammond 35:25 開発チームは、運用チームがインフラの変更について事前に話し合うことを信頼する必要があります。繰り返しになりますが、本当に当たり前のことをしているように聞こえます。しかし、私は過去にいくつかの機能不全のチームで働いたことがありますが、そこではこれが必要なこととして受け入れられていませんでした。これは、組織全体のためにベストを
尽くそうとしている他のメンバーを、皆が信頼しているということに帰結します。 John Allspaw 35:58 「うん、うん、ジムには言わない方がいいよね。だって、言ったらどうせ怒り散らすよね」「いいからやっちまおうぜ」それはつまりあなたもクソッタレのカウボーイになるってことです。ほかのみんなにもそれをしてほしくはないでしょう。

Paul Hammond 36:17 この会話を確実に行うために私たちが実践していることは、可能な限り共有のランブックと共有のエスカレーションプランを作成することです。つまり、ジョンと私が一緒に座って、どんな機能を見ても、あるいはチームのメンバーが一緒に座って、この新機能が運用面でどのようにサポートされるのかを検討するのです。何
を？失敗する可能性のあるシナリオは何か？誰がその修正に関与する必要があるのか、そのためにはどのような会話が必要なのか。リスクは何か？不測の事態に備えて、全員が参加しているかどうかを確認する。

John Allspaw 36:57 そうは言っていられないのです。開発者が苦労して作ったコードを監視するためのノブやレバーを提供することが多すぎるのです。そして、開発者はこれらのことが運用できるように、フックやノブ、レバーを書きます。 Paul Hammond
37:20 ただコードを投げ込むだけでは不十分で、すべての変数にまつわる仮定があらかじめコンパイルされていて、オペレーションがそれを変更できないようになっています。20個の子プロセスを持つことが良い数字だと思うなら、オペレーションが設定できるようにして、その下にあるハードウェアをアップグレードしたら、自分たちでそれを実行できるようにしなければなりません。

John Allspaw 37:50 私は、開発者がシステム上で何が起こっているかを確認できるようにすべきだと考えています。電話のタグを渡すのは最悪です。シェルコマンドでは、ただの馬鹿です。ところで、開発者はあなたのマシンで動いているコードを書いています。もちろんガードレールは重要ですが、誰かに読み取り専用のシェルアカウントを与えることは、たとえ本番用のハードウェアで超偏執的になっていたとしても、リスクは低く、実際に何が起こっているかを見ることができます。それは、あなたが共有しているメトリクスを超えて、あなた
が運用担当者として共有しているからこそ、彼らが実際に内部に入り込み、 gangliaやNagiosにあるメトリクスだけでなく、あなたのすべてのメトリクスにアクセスできることを確認できるということです。そして、何が起こっているのかを見極める必要があり、それを許可することを恐れてはいけません。

Paul Hammond 38:53 私たちは、すべての開発者がすべての本番マシンでRoot権限を持つべきだとは言いません。開発者としては、アプリケーションが作成しているファイルやロックファイルを見ることができず、プロセスツリーを見ることもできないのであれば、自分のアプリケーションでより良い方法があるかどうかを診断することは非常に困難です。個々のアプリケーションがどれだけのCPUを消費しているかを知ることは、マシン
にアクセスできなければ、オペレーションを助けることは非常に難しいのです。

3.Healthy attitude about failure

Paul Hammond 38:53 文化の3つ目の側面として、失敗に対する健全な態度についてお話しします。

Paul Hammond 38:53 ここで重要なことは、失敗は必ず起こるということです。起こるかどうかは問題ではなく、いつ起こるかが問題なのです。

Paul Hammond 38:53 もしあなたが失敗を防ぐ方法を考えることに時間を費やしているのであれば、失敗が起こったときにどのように対応するかを考えることに時間を費やしていないことになります。例えば、航空会社のパイロットは、毎月何日も何時間もシミュレーターに通い、エンジンが止まったらどうなるかを考えます。何か問題が起きたとき
のための手順や、避難計画なども策定しています。

Paul Hammond 38:53 もしあなたがサイトの停止中に何らかの医療問題を抱えているとしたら、年に一度、心臓発作に対処する救急救命士に治療してもらいたいと思いますか？それとも、数週間に一度、心臓発作に対処する救急隊員の方がいいでしょうか。ですから、オペレーションチームと開発チームの両方に必要なことのひとつは、問題に迅速か
つ効果的に対応する能力なのです。もちろん、毎週のように障害に対処していたら、もっと大きな問題が発生してしまいます。そこで、消防訓練の話に戻ります。

Paul Hammond 38:53 Flickrで障害が発生した場合は、オペレーションチームの担当者と上級エンジニア数名が待機し、できるだけ早く問題を解決するようにします。私が始めたことのひとつに、チームのジュニアエンジニア1人か2人にメッセージを送ることがあります。「いいかい、誰もオフィスにいないと仮定して、サイトがダウンしたと仮定して、君しかいないんだ。そして、停電が終わっ
た後に、その内容を比較するのです。これは、この種の問題にどのように対応すべきか、チームの若手メンバーを訓練するための方法なのです。

4.Avoiding Blame

John Allspaw 41:46 非難しないこと。それは本当に基本的なことのように聞こえます。

John Allspaw 41:46 だれかの責任にしない(No fingerpointing)というルールがありますが、実際にはそれを徹底する必要はありません。なぜなら、私は、責任の所在を明らかにする組織に関わることができて非常に幸運だからです。すぐ近くにいるぞ、行こう行こう。そうそう、進化した世界での普通の問題のようなものです。

John Allspaw 41:46 問題が発生して、ああ、どうしよう？私はどうすればいいの？もしかしたら変わるかもしれません。何が起こっているかを人に知られたくないと思っているのでログを削除しようと思うんだけど、どうしよう？とか、鶏の頭を切って、私のコードに基づいてではなく、あなたのマ
シンに基づいて、やっとの思いで解明するんですよ。無駄な時間がやたらと多いんですよね。縄張り意識が物事を解決する邪魔をしているんだ。

John Allspaw 41:46 こうすればいいんじゃないかな？あなたはそれを理解することができます。あなたは物事を修正することができます。そして、後でそのことについて罪悪感を感じたいなら、そうすればいい。これは一般的に起こることです。私のチームでもPaulのチームでも、「自分
のせいだ」と証明しようとする人が出てきます。自分のせいで壊れた。だって、1日に10回は誰にもわからないんだから。そうすれば、彼らはそれを修正する人になれると思います。そして、彼らはそれを修正する男になれるのです。

Developers: Remember that someone else will probably get woken up
when your code breaks http://www.ﬂickr.com/photos/alex-s/353218851/

Paul Hammond 43:23 何か変なことが起きていますね。うん。 John Allspaw 43:28 そうですね。繰り返しになりますが、「開発者の皆さん、コードを書くときに、誰かが夜中に目を覚ますかもしれない、ということを忘れな
いでください」とおっしゃっていましたね。開発者を待機させている組織もあります。真夜中に何かが起こるかもしれないと考えたとき、あなたが不在であったり、セントマーチン島の感謝祭に行っていたりしたら、他の人があなたのクソを直してくれるでしょう。他の人があなたのクソを直してくれます。

Paul Hammond 43:55 たとえ開発者が待機していたとしても、これが最初のページであることを知るのは、たいてい運用チームです。夜中に何かを壊してしまい、朝になってみると30分もの停電が発生していて、5人もの人が呼び出されて起こされたのは自分のせいだったというシナリオがあったとしたら、ただ謝るだけでいいんです。
多くの開発チームが陥りがちなのが、オペレーションが存在すること、オペレーションが夜中に起こされて修正してくれることを当てにしていることです。しかし、自分自身に問いかけてみるのもいいでしょう。「もし、誰かが私の不足分を補ってくれなかったら、私は何か違うことをするだろうか？もし自分が夜中に起こされていたとしたら、何かを変えるべきだと思います。

John Allspaw 44:49 Opsは、建設的なフィードバックを提供し、物事がどのように進んでいるかについて継続的にフィードバックする必要があります。この人たちは、あなたのビジネスを動かすためにコードを書いているんですよね。そして、より多くのユーザーを獲得し、地球を征服するために。だから、彼らは物事がどのように進んでいるかを
知るべきです。不満を言うのではなく、何が起きているのかを説明して、こう言いましょう。「ほら、毎朝6時に発生するcronジョブに気づいたんだ。

1.Automated infrastructure 2.Shared version control 3.One step build and deploy
4.Feature ﬂags 5.Shared metrics 6.IRC and IM robots 1.Respect 2.Trust 3.Healthy attitude about failure 4.Avoiding Blame

Paul Hammond 45:32 利用を検討すべき6つのツールと、変更を検討すべき4つの文化をまとめます。自動化されたインフラ、共有されたバージョンコントロール、ワンステップビルド＆デプロイ、フィーチャーフラグ、共有されたメトリクス、
IRCボット、リスペクト、信頼、失敗に対する健全な態度、責任追及しないこと。

This is not easy You could just carry on shouting
at each other…

John Allspaw 45:56 はっきり言って、これは絶対に簡単なことではありません。お互いに怒鳴りあい続けることも自由です。お好きにどうぞ。 Paul Hammond 46:07
お忙しい中、ありがとうございました。

Revisit the DevOps Origin: 10+ Deploys Per Day...

Revisit the DevOps Origin: 10+ Deploys Per Day by Flickr

More Decks by Yasunobu Kawaguchi

Other Decks in Technology

Featured

Transcript