CPUに関する話

CPUに関する話 sejima

免責事項 - 本資料において示される見解は、私自身の見解であって、私が所属する組織の見解を必ずしも反映したものではありません。ご了承ください。

はじめに - 最初に推薦図書を列挙しておきます - この手の知識は、十年二十年と役に立つので - 十年後もエンジニアやりたい人は、読んでみてもいいかも

推薦図書 - はじめて読む486 - OSの勉強をするときに読んどくといいかも - CPUの創りかた - Write Great
Code〈Vol.1〉 - 比較的プログラマよりの内容 - 電子書籍版もある - Write Great Code〈Vol.2〉 - 最近のコンパイラだいぶ賢いから、ちと古いかも

- これらの書籍、十年くらい前に読んだんですが - いま思い返しても、良い内容だった（という気がするので） - いまはじめて読んだとしても（たぶん）役に立つ - 良い書籍は、十年以上経っても価値があると思います

- ただ、流石に古い気がしなくもないので - 最近の本で良い書籍あったら教えて下さい - 書籍以外でいうと、日本のライターさんは優秀なので、Web上に日本語でいい記事がけっこうあります。 - わたしはよく後藤弘茂さんや、大原雄介さんの
記事を読んでます

次に、インフラエンジニア向けの一冊 - クラウドを支える技術 ──データセンターサイズのマシン設計法入門 - Google の人がDCについて書いてる - 個人的には「電気代とビッグデータ」がテーマだ
と感じた。彼らのワークロードに最適化するとこうなるという - 彼らがCPUをどう捉えているかわかって面白い

CPUの細かい構造や仕組みについては - 作図が嫌いというかめんどくさいのでカツアイします - 各々調べてみてください - というわけではじめます

CPUはなぜ遅いのか？ - 消費電力や排熱の都合上、動作周波数を上げにくい - 電圧上げないとクロック上げられないけど、電圧もクロックも消費電力に多大な影響を与える - IPC（Instructions Per
Cycle）を上げるのが大変難しい - execution unit の稼働率を上げるのが難しい

そして何より

DRAMが遅い

CPUから見ると、DRAMは非常に遅い - CPU内部のキャッシュと比べて100倍以上遅い - これは可視化できてて面白い - メモリアクセスを減らせないと、CPUの execution unit の稼働率を上げられない
- DRAMの遅さに引きずられる

DRAMの遅さに引きずられる？ - CPU内部の execution unit が欲しい速さでは、 DRAMからデータを転送できない - 複数のスレッドやプロセスが、メモリアクセスをして、メモリからデータを読み込むのを待って
- パイプラインがストールする - レジスタの取り合いになるなど、ストールするケースは他にもあるけど、DRAMの遅さはかなり致命的

ちなみに最近の Intel の L1 cache は - いわゆるハーバード・アーキテクチャ -
命令とデータが別々の領域に格納されてる - 他の cache と異なり、 L1 cache だけは命令とデータで二種類ある - 命令がぜんぶ L1 cache から捨てられると大変なので、これはアリな設計だと思います

DRAMが遅いから - CPU の execution unit の稼働率が低いので、 Intel は Hyper-Threading
導入したそう - Typically, applications make use of about 35 percent of the internal processor execution resources. The idea behind Hyper-Threading Technology is to enable better processor usage and to achieve about 50 percent utilization of resources.

じゃとりあえず - 広範囲にメモリアクセスすると遅いっていう、至極簡単で、人類にとって何の役にも立たないサンプルコード書いてみたんで - これとこれ - じっさいに見てみましょう

で、具体的には - こんな感じでコンパイルして、差分はこんだけ - Xeon L5630 の環境と E5-2630L v3
の環境 - Xeon L5630 or Xeon E5-2630L v3 - Ubuntu 14.04.3 LTS - kernel 3.13 x86_64 - glibc 2.19 - gcc 4.8.4

実行するとこんだけ違う - けっか - L5630 - E5-2630L v3 - CPUのキャッシュから引けないと、CPUの
backend（演算装置）がめっちゃ待たされる

最近のCPUとDRAMだいぶ優秀ですが - clock down してるとだいぶ性能落ちます - L5630 - E5-2630L v3
- L5630 と E5-2630L v3 の差がなくなる勢い - 最近のCPUは clock の落ち幅が大きい傾向にあるので、このへん注意しましょう - Brendan Gregg は AWS でも MSR 見てるようですしね

閑話休題 - 据置型ゲーム機の優位性はざっくり以下の２つ - コストパフォーマンス（ゲーミングPCよりかなり安い） - メモリの帯域 - ゲーム機に限らず、GPUを酷使するならメモリの帯域は重要になる。GPUはメモリの帯域食うので
- 少々コスパが悪くても、据置型ゲーム機には、PCで使われてるものより高速なメモリが積まれてる

じゃ、なんでCPUはこんな状況なの？

10年前と比べ、CPUは何が良くなったか - プロセスルールが進んで微細化が進んだ結果、消費電力減った - 省電力機構が進化した - DRAMの帯域が増えてきた - しかし、まだ足りない。CPUほど進歩してない。
- 動作周波数上げるの難しいから、Coreの数が増えてきている。特にXeonは劇的に

クロック上げるのが難しいから - 電圧を上げないと、クロック（動作周波数）はそんなに上げられない - 消費電力は、電圧の二乗×動作周波数に比例 - 電圧上げたくないから、今でも、x86
は高くても 4GHzくらいの動作周波数しかない - 電圧上げるくらいなら、ということでコアを増やしてる

そして

トランジスタが余ってきた

トランジスタが余った結果 - コアの数を増やしたけど - キャッシュを増やしたけど - まだ余るので、アンコア（Uncore）を強化する余裕ができた - Skylake
に至っては、カメラ用にISP(Image Signal Processor) まで積んだらしい - 確かにイマドキのWindowsマシンには、組み込みのカメラ普通についてる

アンコア？ - CPUに統合された、coreじゃない部分 - メモリコントローラや I/O コントローラなど - プロセッサーコアやキャッシュじゃない部分 -
かつてはマザーボード上のチップセットなどで実現していた、様々な機能を統合している - 消費電力削減やI/Oの性能改善に貢献している

アンコアの強化に至る前、2006年ごろ - Intel は Larrabee で many core の夢を見た -
一方、 Sony、 SCE、IBM、東芝は、 Cell というヘテロジニアスアーキテクチャをもたらした - Cellは扱いが難しいけど性能でたので、ヘテロジニアスな設計を他のCPUベンダーは追いかけることになった

- トランジスタが余ってきたと思うけど - いまのSRAMやプロセッサーコアだけでは、 CPU上のトランジスタを上手く使い切れない - CellがPPEとSPEを分けたように、CPUの中に様々な機能を持つものを入れていくほうが効率がいい

ここで Intelさんを振り返ってみると

Intelさんとしてはきっと - いまの Xeon は大勝利 - NetBurst のときの失敗は取り返せた - もはやサーバ市場で恐れるものは無いのだろう
- 性能が上がるとサーバの高集約化が進んで、台数の伸びは鈍化するだろうけど - PCやサーバ以外の市場も取らないといけない - 自社のFabを自社製品の製造で埋め尽くせるのが理想

Intelは自社の生産ラインを使い切りたい - 研究開発をし、他社の追随を許さない製造技術を持ち続ける - 研究開発費を回収するために、大量生産する - PCやサーバのCPUだけでは、自社工場の生産ラインを埋められなくなってきた -
NAND Flash の製造で自社工場を活用するのも必然

それでも足りない - IDF の資料を見ると、そのとき Intel が取りたがってる市場がうかがい知れるんですが - IDF2012 Beijing
に行ってきたとき、 Ultrabook と HPC の話ばかりだったので、「あぁWebサービスなんてIntel から見たら大したことないんだ」と実感できました - Intelは数年前からタブレットやスマートフォン、いまだとIoT狙ってますけど、研究開発を維持するために、市場の拡大が必須なわけです

そんなIntelさんだけでなく、業界的に - シングルスレッド性能はもう10年前から伸び悩んでる - 物理的に今の製造技術や、素材の限界があるそうで - 新しい素材や製造技術の研究が進められているみたいですが、実用化するまでまだまだ年月
は必要そう

閑話休題・２ - 現代のトランジスタ製造技術ってすごいんです - 絶縁膜が原子数個分のレベルらしいです - こうなってくると、もう、電流がリークしてもしょうがないですよね？ - ただ、現状を打ち破るには、基礎研究に時間と
経費がかかるんです

個人的に思うんですが - 情報産業は、普通の業界と比べて流行り廃りが激しいのでドッグイヤーと言われますが - 個人的に、半導体の基礎研究はその７倍の時間、犬ではなく人間の遅さで進んでると思うので - そう考えると、カーボンナノチューブがノーベル賞レベルと言われても納得なんですが、我々の
ところまで来るのには時間かかるんです

だから我々は、物理学や化学を支援する必要があると思います

極論すると

エンジニアにとって CERNみたいな研究機関は、ハードウェアの進化のために必要なんじゃないでしょうか

ムーアの法則が終わると言われてますが - それは、ブレイクスルーとなるような技術革新が起きるのに時間がかかるせいだと思うので - 半導体の集積密度とは違うけど、例えば、3D NANDを東芝が発表したのは2007年で、本格的な出荷開始は 2016年とか -
逆に考えると、注意深く見ていさえすれば、次世代のハードウェアと、それに伴う環境の変化があるていど予測できるんじゃないかと

最近のIntelさんの Xeonを見て思うに

- 5年前の低電圧版Xeonと現在の低電圧版 Xeon 、似たような価格帯のを比べると - 物理コアは4から8に増えつつ、 Last Level Cache は1.6倍に
- North Bridge は CPU に統合され、 PCI- Express 経由で GPU や NIC、 NVMe は、 CPU と直結できるようになった

DDIOサイコー - NICとCPU直結できるようになって、 Intel Data Direct I/O ができた - NICがメモリを経由せず、LLCに直接読み書き
できるようになりました - GbEや10GbEでは、大量のパケット受信するとむかしは大変重かったんですが - これでかなりネットワークの性能改善しました

TurboBoostって悪い仕組みじゃない - ARMにはbig.LITTLEっていう構成があります - 高性能なcoreと低消費電力なcoreを、そのときどきで使い分ける - なんで Intel は採用しないんだろ？って思ったけ
ど、 Intel さんには TurboBoost がありました - 性能出したいcoreだけクロック上げて、熱や消費電力をコントロールすればいい - 省電力的にはARMの方が良い構成だけど

そろそろTurboBoost使いこなしたい - ただ、サーバのことを考えると、全部のコアを無駄なくつかえる TurboBoost の方が合理的で - 全力でぶん回したとき、CPU上に無駄なものがないから - 実は、
AWSのC4インスタンスも TurboBoost 使えるんすよ - 次のインフラないしシステムでは、個人的に活用したいとアイデアを練ってるところ

いままで雑多に話しましたが

さて、現時点で我々は - 最近のXeonは選択肢が増えた - いまどんなXeonを買うかというと - Coreの数、メモリの帯域、消費電力のバランス次第じゃないですかね - Coreに比例してメモリの帯域増えるわけじゃな
いんで、Coreそんなにいらないかもしれないし - 実際に動かしてみて評価してみないことには

いまコードを書く上で考えるべきは - アンコアが充実して、I/Oが速くなったりしたけど - L2 cache や Last Level Cache
の容量増えてきてるけど、これ以上増やしすぎると、キャッシュ管理のコストが上がってLatency悪くなるので、SRAMのキャッシュはそんなに増えないんじゃないかなぁ - となると、如何にしてメモリアクセスを削減するか

クライアントサイドで考えると - CPUのキャッシュを如何に活用するか（如何にメモリアクセスを抑えるか）によって、高い性能をもたらせる - ARMの事例ですが、スクエニの杉本さんは、Android版スクストのフットプリントを数百KBに収めた -
コンソールゲーム業界の職人は、そこまでやって性能を叩き出す

サーバサイドでは - MySQLみたいに、巨大なメモリに広範囲にアクセスするソフトウェアは、 L2 cache に全てのデータが載るわけではないが - ただ
L2 cache がムダかというとそうでもないと思います - メモリなどI/Oの帯域を節約できるコードは、結果として速い - MySQL で table がメモリに載っていても、 full table scan は避けるべき

ただ、サーバサイドでも - それでも、メモリの無駄遣いは良くないので - TLB miss 発生するとメモリアクセス増えるし - あと、C/C++ などでコードを書くときは、スタック
を上手く使える方がいいんじゃないでしょうか。スタックは hotspot で、 TLB で引けるだろうし、 CPUのキャッシュに載ってる可能性高いし - 詳しくは Write Great Code でも読んでください

そして、たぶん2-3年くらい後の Xeon には

（おそらく）劇的な変化が来る

Xeon に L4 cache として eDRAM が載ればサーバでも（一部の）コードが cache に載る時代が来る

Intel のロードマップではまだないけど - 最近の Core i7 では 128MB の eDRAM
を L4 cache として使えるようになった - この eDRAM 、実はかなりすぐれもので、いままでの DRAM よりかなり速い - この eDRAM にフィットするコードを書けば、主記憶へのアクセス減らせるのでサーバでも速い

ただ、 Intel さんにお願いしたいのは - PHPなど Lightweight Language のWebアプリケーションなら、 L4
cache にフィットするかもしれませんが - MySQLみたいなRDBMSだとムリなんで - L4 cache のあるXeonと無いXeon、あるいは、 L4 cache の無効化ができると嬉しいです - cacheの階層増えるとメモリアクセスのLatency に影響するんで

直近では L4 cache 来るかもだけど - メモリベンダーが想定している未来だと - メモリの階層がかなり増える - Near
Memory と Far Memory - OSからみたとき、速いメモリと遅いメモリが混在するという可能性

近いメモリと遠いメモリ - 実はすでに存在している概念 - 具体的にいうとNUMA - x86 で NUMA の概念がもたらされたのは、
もう十年以上前 - いまでは NUMA も珍しくなくなった - OSのサポートや最適化進んできたし - percona server でも NUMA 向けオプションあるし

きっと未来では - NUMA のように、プログラマに受け入れられる時代になる - 10年先か、20年先はわからないけど - 先ずは Windows
で取り入れられるだろうから、 Windows の動向を見守るのがいい - 何気に Windows ってかなり先進的なOSなんで

私が思うに - 速いメモリが1GB～4GBくらいあるなら - Linuxなら、そこに kernelとlibcとPTE載せちゃうのが、合理的だと思うんだ - それで余ったら、large page
みたいなノリでプロセスからも使えるようになるかもしれん - mysqld のコードをそこに割り当てたいな - 楽しみやね

ちなみに Xeon Phi では - DDR4 の5倍のバンド幅を持つメモリが、オンパッケージで来るそうですね -
なので、来てくれるんじゃないですかね、いつかそのうち。速いメモリってやつが

最後に - 三年後、どんなサービスが流行ってるのか考えるのは難しい - でも、サーバがどんな進化を遂げるかは、ベンダーのロードマップや、現時点における半導体の限界を学んでおけば、ある程度予測できる - その変化を予測して備えておけば、エンジニア
として準備ができる

半導体を学んで、サーバの未来をより良くする

おわり

CPUに関する話

CPUに関する話

More Decks by Takanori Sejima

Other Decks in Technology

Featured

Transcript