キャッシュメモリ

キャッシュメモリ (cache memory) は、CPUなど処理しょり装置そうちがデータや命令めいれいなどの情報じょうほうを取得しゅとく/更新こうしんする際さいに主しゅ記憶きおく装置そうちやバスなどの遅延ちえん／低てい帯域たいいきを隠蔽いんぺいし、処理しょり装置そうちと記憶きおく装置そうちの性能せいのう差さを埋うめるために用もちいる高速こうそく小しょう容量ようりょうメモリのことである。略りゃくしてキャッシュとも呼よぶ。コンピュータは以前いぜんから記憶きおく装置そうちや伝送でんそう路ろの性能せいのうが処理しょり装置そうちの性能せいのうに追おいつけず、この差さが全体ぜんたい性能せいのうに対たいするボトルネックとされてきた（ノイマンズ・ボトルネック）。そしてムーアの法則ほうそくに基もとづく処理しょり装置そうちの加速度かそくど的てきな高性能こうせいのう化かにより現在げんざいではますますこの差さが拡大かくだいされている。キャッシュメモリは、記憶きおく階層かいそうの観点かんてんからこれを解消かいしょうしようとするものである。

主おもに、主しゅ記憶きおく装置そうちとCPUなど処理しょり装置そうちとの間あいだに構成こうせいされる。この場合ばあい、処理しょり装置そうちがアクセスしたいデータやそのアドレス、状態じょうたい、設定せっていなど属性ぞくせい情報じょうほうをコピーし保持ほじすることで、本来ほんらいアクセスすべき記憶きおく装置そうちに代かわってデータを入出力にゅうしゅつりょくする。通常つうじょうはキャッシュメモリが自動的じどうてきにデータ保存ほぞんや主しゅ記憶きおく装置そうちの代替だいたいを行おこなうため、基本きほん的てきにCPUのプログラムなど処理しょり装置そうち側がわがキャッシュメモリを意識いしきする必要ひつようはない。

キャッシュの一般いっぱん的てきな概念がいねんはキャッシュ (コンピュータシステム)を参照さんしょうのこと。

意義いぎ

データ帯域たいいき

キャッシュメモリは再さい利用りようデータのキャッシングによる実効じっこうデータ帯域たいいきの増加ぞうかという意義いぎをもつ。

例たとえば SGEMV（単精度たんせいど浮動ふどう小数点しょうすうてんの行列ぎょうれつベクトル積せき）を考かんがえる。2.0 GHzで動作どうさする Haswell CPUのシングルコアはピーク時じに128GB/sのデータアクセスを要求ようきゅうする^[1] (8 [FMA/inst.] ÷ 0.5 [CPI=cycle/inst.]^[2] * 2.0G [Hz=cycle/sec] * 4 [Byte/FP32])。一方いっぽうプロセッサ-メインメモリ間あいだのレイテンシは数すう百ひゃくサイクルであり、並列へいれつロードをおこなっても高々たかだか5GB/sしかデータを読よみ出だせない^[3]。すなわちメモリ律りつ速そくでCPU性能せいのうの5%以下いかしか引ひき出だすことができない^[4]。もし行列ぎょうれつをキャッシュに載のせきることが出来できれば、よりレイテンシの小ちいさいキャッシュメモリからデータを供給きょうきゅうし高たかいデータ帯域たいいきを確保かくほできる。

構成こうせい

キャッシュメモリの構造こうぞう

キャッシュメモリは、通常つうじょうは下位かいレベルの記憶きおく装置そうちより小しょう容量ようりょうで高速こうそくなスタティックRAMを用もちいて構成こうせいされる。データ本体ほんたいの一部いちぶとそのアドレス、フラグなど属性ぞくせい情報じょうほうのセットを固定こてい容量ようりょうのメモリに格納かくのうする構造こうぞうで、データ格納かくのう構造こうぞう、ライン入替いれかえ、データ更新こうしん方式ほうしき、キャッシュ階層かいそうなどに多数たすうのアーキテクチャが存在そんざいする。以前いぜんはCPUチップの外部がいぶに接続せつぞくされていたが、LSIの集積しゅうせき度どの向上こうじょうや要求ようきゅう速度そくどの上昇じょうしょうに伴ともないCPUチップ内部ないぶに取とり込こまれることが普通ふつうとなった。

キャッシュ階層かいそう

記憶きおく階層かいそうをもつキャッシュメモリをマルチレベルキャッシュ（英えい: multi level caches）という^[5]。CPUとメモリの性能せいのう差さの拡大かくだい、マルチスレッドなどアクセス範囲はんいの拡大かくだいに対応たいおうするために導入どうにゅうされる。CPUに近ちかい側がわからL1キャッシュ（レベル1）、L2キャッシュ（レベル2）と呼よばれ^[6]、2013年ねん時点じてんではL4キャッシュまでCPUに内蔵ないぞうする例れいも存在そんざいする。CPUから見みて一番いちばん遠とおいキャッシュメモリの事ことをLLC（Last Level Cache）と呼よぶ事こともある。

データ格納かくのう構造こうぞう

キャッシュメモリはデータをライン(ブロック)と呼よぶある程度ていどまとまった単位たんいで管理かんりする(例たとえばIntel Pentium 4の8kByte L1キャッシュはラインサイズ64Byte)が、データのアクセス要求ようきゅうがあった時ときにそのデータがキャッシュに存在そんざいしているか、あるならどのラインかなどを瞬時しゅんじ(多おおくの場合ばあい1サイクルのスループット)に検索けんさくする必要ひつようがある。そのためデータ格納かくのうアドレスの一部いちぶ、具体ぐたい的てきにはライン単位たんいアドレスの下位かい数すうビット(エントリアドレス)によりある程度ていどの格納かくのう位置いちを限定げんていすることで検索けんさく速度そくどを高たかめる。各かくラインにはライン単位たんいアドレスの上位じょういビット、即すなわちフレームアドレスを格納かくのうしておき、キャッシュ検索けんさく時じには検索けんさくアドレスのフレームアドレス部ぶと、キャッシュ内ないに格納かくのうされている検索けんさくエントリアドレス位置いち（エントリアドレス部ぶをデコードしラインが1つ選択せんたくされる）に対応たいおうしたフレームアドレスとを比較ひかくすることでキャッシュのヒットを検出けんしゅつする。このフレームアドレス格納かくのうバッファが（図ず中ちゅう）タグである。複数ふくすうセットのタグを持もてば同おなじエントリアドレスでも複数ふくすうデータの格納かくのうを行おこなうことが可能かのうとなる。このタグのセット数すう(ウエイ)を連想れんそう度どと呼よぶ。データ格納かくのう構造こうぞうの相違そういは連想れんそう度どの相違そういでもある。

メモリ位置いちがキャッシュの場所ばしょを特定とくていする例れい

ダイレクトマップ方式ほうしき (Direct Mapped): 1組くみのタグにより構成こうせい（連想れんそう度ど1）されるデータ格納かくのう構造こうぞう。アドレスにより一意いちいに配置はいちが決きまるため、タグの構造こうぞうが非常ひじょうに単純たんじゅん。だが、同どう一いちエントリに異ことなるフレームアドレスが転送てんそうされると必かならずラインの入いれ替かえが発生はっせいする。ラインの入いれ替かえが頻発ひんぱつしスループットが落おちることをキャッシュスラッシングというが、この状態じょうたいが起おこりやすくヒット率りつは他たの方式ほうしきに比くらべ高たかくない。
セットアソシアティブ方式ほうしき (Set Associative): 複数ふくすうのタグにより構成こうせい(連想れんそう度ど2以上いじょう)されるデータ格納かくのう構造こうぞう。同どう一いちエントリに異ことなるフレームアドレスのデータを複数ふくすう格納かくのうすることができる。連想れんそう度どが上あがるほどキャッシュヒット率りつは上昇じょうしょうするが製造せいぞうは困難こんなんになっていくため、システムによりバランスのよい実装じっそうが異ことなる。n個このタグにより構成こうせいされた場合ばあい、nウエイセットアソシアティブ方式ほうしきと呼よぶ。最近さいきんはCAM (連想れんそうメモリ：Content Addressable Memory)がタグとして使つかわれ出だし、32など非常ひじょうに高たかい連想れんそう度どを実装じっそうできるようになってきた。ダイレクトマップ方式ほうしきや下記かきのフルアソシアティブ方式ほうしきはこの方式ほうしきの特殊とくしゅな場合ばあいである。
フルアソシアティブ方式ほうしき (Fully Associative): エントリアドレスによる振ふり分わけはなく、全すべてのラインが検索けんさく対象たいしょうとなる構造こうぞう。従したがって連想れんそう度どはライン数すう分ふんとなる。キャッシュスラッシングは起おこり難がたくヒット率りつは最もっとも優すぐれているが、実装じっそうコストや複雑ふくざつ度どの面めんから通常つうじょう用もちいられることはない。

ライン入替いれかえ方式ほうしき (Refill)

ラインの入替いれかえ(リフィル)は該当がいとうエントリの全ぜんラインにデータが格納かくのうされてなお同どう一いちエントリ新規しんきフレームアドレスが入力にゅうりょくされてキャッシュミスした（ヒットしなかった）場合ばあいに発生はっせいする。その場合ばあいどのラインを掃出はきだして新規しんきアドレスと入替いれかえるかのアルゴリズムによってキャッシュのヒット率りつが変動へんどうする。代表だいひょう的てきなアルゴリズムを記しるす。

ラウンドロビン (Round Robin): リフィル対象たいしょうとなるラインを順番じゅんばんに交代こうたいさせる方法ほうほう。各かくラインのアクセス頻度ひんどに拘かかわらず順番じゅんばんにリフィルを行おこなうため、あまりヒット率りつが高たかくない。
LRU (Least Recently Used): 最もっとも古ふるくアクセスされたラインをリフィルする方法ほうほう。時間じかん的てき局所きょくしょ性せいに鑑かんがみれば、過去かこ最もっともアクセスのなかったラインは将来しょうらいにわたってもアクセスされる可能かのう性せいは少すくないと言いえる。従したがってこの方法ほうほうはヒット率りつがかなり高たかい方法ほうほうとしてよく採用さいようされている。ただし各かくラインごとにアクセス順じゅん履歴りれきを持もちアクセスがある度たびに頻繁ひんぱんに履歴りれきを入替いれかえるため、複雑ふくざつな構成こうせいとなりアクセス性能せいのうに影響えいきょうが出でる場合ばあいがある。
ランダム (Random): リフィルラインの選択せんたくをランダムに行おこなう方式ほうしき。各かくライン毎ごとにリフィル用よう機構きこうを持もつ必要ひつようがなくなるため構成こうせいが簡易かんいになる。ヒット率りつはラウンドロビンよりは良よいとされる。

データ更新こうしん方式ほうしき (Replacement policy)

ライトスルー方式ほうしき

ライトバック方式ほうしき

CPUキャッシュは命令めいれいキャッシュとデータキャッシュの2種類しゅるいが搭載とうさいされている場合ばあいが多おおい。命令めいれいキャッシュはプログラムという静的せいてきなデータを扱あつかうのでデータ更新こうしんは存在そんざいしないが、データキャッシュはメモリへのライト動作どうさがあるためデータ更新こうしんが存在そんざいする。更新こうしんされたデータはいずれかのタイミングで下位かいレベルのメモリにも反映はんえいされる必要ひつようがあり、そのタイミングの相違そういにより2つのアルゴリズムが存在そんざいする。

ライトスルー方式ほうしき (Write Through Algorithm)

CPUがメモリ書かき込こみを行おこなったら、キャッシュにストアすると同時どうじに下位かいレベルのメモリにも書かき戻もどす方式ほうしき。必かならず下位かいレベルのバスが活性かっせい化かするため、バスの競合きょうごうや下位かいレベルの低ひくいスループットに律りつ速そくされるなどの制約せいやくはあるが、単純たんじゅんな構成こうせいで実現じつげんでき、またデータのコヒーレンシを保たもつことが容易よういである。出力しゅつりょく段だんにライトバッファを設もうけることにより、単一たんいつCPUであればライトバック方式ほうしきに比くらべ遜色そんしょくのない性能せいのうが期待きたいできる。そのためCPUのL1キャッシュなどに実装じっそうされる場合ばあいが多おおい。

ライトバック方式ほうしき (Write Back Algorithm)

CPUがメモリ書かき込こみを行おこなっても、条件じょうけんが整ととのわない限かぎりキャッシュに留とまりメモリへの書がき戻もどしを行おこなわない方式ほうしき。書がき戻もどす条件じょうけんは対象たいしょうエントリにウエイ数すう以上いじょうのフレームアドレスのリード／ライトが行おこなわれる、他たのバスマスタが対象たいしょうエントリが保持ほじしているアドレスに対たいしアクセスを行おこなった時ときにコヒーレンシを保たもつために行おこなうなどがある。ライトスルー方式ほうしきに対たいし下位かいレベルのバスが競合きょうごうを起おこしにくく、マルチCPU構成こうせいに向むくため、記憶きおく階層かいそうの同どう一いちレベルに複数ふくすうのキャッシュが接続せつぞくされているようなL2キャッシュに実装じっそうされる。ライトミス時じに2つのアプローチがある。一ひとつは、Write allocate であり、もうひとつが No-write allocate である。

Write allocate は fetch on write とも呼よばれる。ライトミスしたアドレスを含ふくむラインがキャッシュにロードされた後のち、ライトが実行じっこうされる。このアプローチでは、ライトミスとリードミスは同様どうようの動作どうさとなる。
No-write allocate は write-no-allocate または write around と呼よばれる。ライトミスしたアドレスのデータはキャッシュにロードされず、データは下位かいの記憶きおく階層かいそうに書かき込こまれる。このアプローチでは、データロードは、リードミス時じにのみ発生はっせいする。

キャッシュコヒーレンシ (Cache Coherency)

詳細しょうさいは「キャッシュコヒーレンシ」を参照さんしょう

マルチCPU/キャッシュ構成こうせいなど複数ふくすうのバスマスタが存在そんざいし、各々おのおのがデータ更新こうしんを行おこなった場合ばあいでも最新さいしんの正ただしいデータにアクセスできるよう保たもつべきデータの一貫いっかん性せいのことをキャッシュコヒーレンシもしくはキャッシュコンシステンシ (Cache Consistency) という。データ更新こうしんに上記じょうきライトバック方式ほうしきを用もちいた場合ばあいなど、キャッシュに更新こうしんされたデータが滞留たいりゅうして主しゅ記憶きおく装置そうちなど下位かいレベルのメモリには最新さいしんのデータが存在そんざいしない可能かのう性せいがある。この時ときに複数ふくすうのCPUが同一どういつの記憶きおく領域りょういきを参照さんしょう／更新こうしんしようとすると、データの不ふ整合せいごうが起おこり正ただしい結果けっかが得えられないため、これを解決かいけつしどのCPUも必かならず最新さいしんのデータにアクセスできるようにする必要ひつようがある。このための代表だいひょう的てきなアルゴリズムにスヌープ方式ほうしきやディレクトリ方式ほうしき、共有きょうゆうキャッシュがある。

スヌープ方式ほうしき (Cache Snooping)

詳細しょうさいは「バススヌーピング」を参照さんしょう

キャッシュコヒーレンシのアルゴリズムにおいて、特とくに各かくキャッシュ自身じしんに搭載とうさいされる方法ほうほうとしてスヌープ方式ほうしき（スヌープキャッシュ）がある。これは各々おのおののキャッシュが自身じしんや他たCPUのキャッシュのライン更新こうしん状態じょうたいを把握はあく／管理かんりし、他たのキャッシュと更新こうしん状態じょうたいの情報じょうほうを交換こうかんすることで、どのキャッシュに最新さいしんのデータが存在そんざいするかを知しり、各かくキャッシュが必要ひつようなときに最新さいしんのデータを取得しゅとくできるように自身じしんの状態じょうたいを変更へんこうしたりラインのパージを行おこなう。この情報じょうほう交換こうかんは共通きょうつうのデータバスを介かいして行おこなわれるため、情報じょうほうの通知つうちと実際じっさいのデータ転送てんそうとの順序じゅんじょが保たもたれ、破綻はたんを起おこすことはない。逆ぎゃくに共通きょうつうバスを持もたない分散ぶんさん型がたメモリシステムには用もちいることが困難こんなんなどの制約せいやくもある。このプロトコルとして下記かきのものが知しられている。

無効むこう型がたプロトコル (Invalidate Protocol): 複数ふくすうのキャッシュから参照さんしょうがあるアドレスに対たいしあるキャッシュが更新こうしんを行おこなう場合ばあい、そのアドレスはダーティであるとして参照さんしょう中ちゅうの全ぜんキャッシュの該当がいとうラインを無効むこう化かする。これにより更新こうしんされたラインがありながら他たのキャッシュで古ふるいデータをキャッシングしている状態じょうたいがなくなり、コヒーレンシが保たもたれる。MESI(Illinoisプロトコル)、MOSI(Berkeleyプロトコル)などがある。
更新こうしん型がたプロトコル (Update Protocol): 複数ふくすうのキャッシュが参照さんしょうしているアドレスに対たいしてデータ更新こうしんを行おこなうときはライトスルー型がたとなり、単独たんどくでアクセスしている場合ばあいはライトバック型がたとなるような制御せいぎょを行おこなうことで更新こうしんデータを行いき渡わたらせコヒーレンシを保たもつ。MEI(Fireflyプロトコル)、MOES(DRAGONプロトコル)などがある。

ディレクトリ方式ほうしき (Directory-based Protocol)

スヌープ方式ほうしきと異ことなり、メモリの一貫いっかん性せいをディレクトリと呼よぶ専用せんよう領域りょういきにて一元いちげん管理かんりする方式ほうしき。この領域りょういきは実装じっそう上じょうの各かくメモリ領域りょういきに分散ぶんさんしてよく、分散ぶんさんメモリ型がたシステムに適てきしている。

共有きょうゆうキャッシュ (Shared Cache)

1つのキャッシュに対たいし複数ふくすうのCPUが参照さんしょうできるような構成こうせいを持もつキャッシュ。1チップに集積しゅうせきされた複数ふくすうのCPUを扱あつかうなど限定げんてい的てきな場面ばめんではキャッシュコヒーレンシを根本こんぽん的てきに解決かいけつするが、キャッシュ自体じたいの構造こうぞうが非常ひじょうに複雑ふくざつとなる、もしくは性能せいのう低下ていか要因よういんとなり、多おおくのCPUを接続せつぞくすることはより困難こんなんとなる。

その他た機構きこう

プリフェッチ (Pre-fetch): CPUが専用せんよう命令めいれいなどによりあらかじめデータをキャッシュに汲くんでおく動作どうさ。データの流ながれがある程度ていど予測よそくできるような特定とくていのソフトウエアアルゴリズムは、先さきんじてプリフェッチを行おこなうことで実際じっさいにデータが必要ひつような場面ばめんで余分よぶんなレイテンシがかかることなくスムーズに処理しょりを行おこなうことができる。例たとえばストリーミング処理しょりのようなデータの流ながれや処理しょり量りょうなどが単純たんじゅんで予測よそくしやすい処理しょりなどは、プリフェッチを行おこなうことで大幅おおはばに性能せいのう向上こうじょうする場合ばあいがある。

目的もくてき別べつ分類ぶんるい

命令めいれいキャッシュ: プログラムなどCPUの命令めいれいを格納かくのうするキャッシュ。命令めいれいは静的せいてきなデータなため、書かき換かえが発生はっせいせず(x86を除のぞく最近さいきんのCPUは命令めいれいの自己じこ書かき換かえなどには対応たいおうしていない場合ばあいが多おおい)コヒーレンシを保たもつ必要ひつようがないと想定そうていし、CPUからの入力にゅうりょくはアドレスのみでデータ更新こうしんユニットなどを省はぶいている。
データキャッシュ: CPUが処理しょりするデータを格納かくのうするキャッシュ。上述じょうじゅつの構成こうせいをフルサポートしている場合ばあいが多おおい。命令めいれいキャッシュとデータキャッシュが分離ぶんりされ、命令めいれいバスとデータバスの2種類しゅるいのバスがCPUに接続せつぞくされているCPUをハーバードアーキテクチャと言いう。現在げんざいのCPUはハーバードアーキテクチャが主流しゅりゅうである。
実行じっこうトレースキャッシュ: インテルのPentium 4などは、インストラクション・セット・アーキテクチャ(ISA)はCISCであるが、内部ないぶでRISC的てきなマイクロ命令めいれいに変換へんかんし実行じっこうするアーキテクチャとなっている。単純たんじゅんな命令めいれいキャッシュと異ことなり、変換へんかん済ずみのマイクロ命令めいれいを再さい利用りようすれば命令めいれいデコーダの使用しよう頻度ひんどを減へらすことができる。Pentium 4ではL1命令めいれいキャッシュの代かわりに約やく12000語ごの命令めいれいを格納かくのうできる8 ウェイ・セット・アソシエイティブの実行じっこうトレースキャッシュが搭載とうさいされている。
トランスレーションキャッシュ: x86(Pentiumなどに用もちいられているISA)の互換ごかんCPUメーカであるトランスメタが、そのコア技術ぎじゅつとして開発かいはつしたコードモーフィングソフトウェア(CMS)用ように主しゅ記憶きおく装置そうち上じょうに確保かくほしている領域りょういき。Crusoeで16メガバイトの容量ようりょうがある。CMSはx86命令めいれいを動的どうてきにCPUコアのネイティブ命令めいれいに変換へんかんし、変換へんかん後ごの命令めいれいを実行じっこうさせる機構きこうだが、このネイティブ命令めいれいに変換へんかんしたプログラムを格納かくのうするキャッシュとして用もちいる。
スタックトップキャッシュ: コールスタックをハードウェアで実装じっそうしたアーキテクチャでは、スタックトップの数すうバイトから数すう十じゅうバイトにアクセスが集中しゅうちゅうする。この部分ぶぶんをキャッシュするのがスタックトップキャッシュである。ISAからは存在そんざいに気きづけない実装じっそう（トランスピュータなど）と、積極せっきょく的てきにレジスタとして使用しようできる実装じっそう（AMD Am29000など）がある。後者こうしゃの概念がいねんを発展はってんさせたものがレジスタ・ウィンドウである。

ソフトウェアへの影響えいきょう

コヒーレンシの明示めいじ的てきな制御せいぎょが必要ひつようとなるような場合ばあいを除のぞき、キャッシュメモリの存在そんざいはソフトウェアの挙動きょどうに対たいしては透過とうか的てきである。一方いっぽう、性能せいのう面めんではキャッシュメモリの存在そんざいや仕様しようを意識いしきすることにより向上こうじょうが図はかれることが知しられている。

Solaris 2.4カーネルにて採用さいようされたスラブアロケーション（英語えいご版ばん）では、構造こうぞう体たいの特定とくていのメンバにアクセスが集中しゅうちゅうする傾向けいこうを利用りようし、各かくスラブにてオブジェクト領域りょういきの先頭せんとうに異ことなるスラブ先頭せんとうからのオフセットを与あたえることにより、キャッシュライン内ないで頻繁ひんぱんにアクセスされる位置いちを分散ぶんさんさせている。^[7]当時とうじサンが販売はんばいしていた製品せいひんではメモリインターリーブに併あわせてキャッシュライン内ないをさらに複数ふくすうのメモリバスに分割ぶんかつして割わり当あてていた。このためキャッシュライン内ないでアクセスが頻繁ひんぱんな箇所かしょが特定とくていの位置いちに集中しゅうちゅうするとキャッシュラインだけでなくメモリバスの負荷ふかも分散ぶんさんされなくなってしまうことが問題もんだいとなっており、スラブアロケーションはその解決かいけつ策さくとして使用しようされた。

同一どういつのキャッシュライン内ないに頻繁ひんぱんに更新こうしんされるデータとほとんど更新こうしんされないデータが共存きょうぞんしていると、システム全体ぜんたいではメインメモリへの書がき戻もどしが必要ひつようなキャッシュライン数すうが増ふえてしまう。両者りょうしゃがキャッシュライン上じょうで分離ぶんりされるようにデータを配置はいちすると、書かき戻もどしが必要ひつようなキャッシュラインの数かずを減へらして効率こうりつを上あげることができる。LinuxカーネルやFreeBSDなど、GNU ldないしはその互換ごかんリンカをビルドに用もちいているOSでは、ほとんど更新こうしんされないデータをELFのある特定とくていのセクションに定義ていぎすることにより、そのようなデータだけを集あつめた上うえでキャッシュライン境界きょうかいに整列せいれつさせている。なお、上記じょうきのセクションに対たいしてそのようなアドレス配置はいちを実際じっさいにさせているのは、カーネルのリンク時じに使用しようするリンカスクリプトである。^[8]^[9]

脚注きゃくちゅう

^ "to sustain Haswell’s CPU peak (e.g., 16 multiply-adds per cycle), a core must access 16 matrix elements (= 64 bytes) per cycle, all from memory ... assuming 2.0GHz processor, it requires memory bandwidth of: ≈ 64 × 2.0 GHz = 128 GB/s" 田浦たのうら. (2016). What You Must Know about Memory, Caches, and Shared Memory. 並列へいれつ分散ぶんさんプログラミング, 東京とうきょう大学だいがく.
^ "__m256 _mm256_fmadd_ps ... Throughput (CPI) ... Haswell ... 0.5" Intel Intrinsics Guide. 2022-04-03閲覧えつらん.
^ "A simple memcpy experiment ... 4.575611 GB/sec ... an almost proportional improvement up to 10 lists" 田浦たのうら. (2016). What You Must Know about Memory, Caches, and Shared Memory. 並列へいれつ分散ぶんさんプログラミング, 東京とうきょう大学だいがく.
^ "it requires memory bandwidth ... ≈ 20× more than it provides" 田浦たのうら. (2016). What You Must Know about Memory, Caches, and Shared Memory. 並列へいれつ分散ぶんさんプログラミング, 東京とうきょう大学だいがく.
^ "multi level caches ... recent processors have multiple levels of caches" 田浦たのうら. (2018). What You Must Know about Memory, Caches, and Shared Memory. 並列へいれつ分散ぶんさんプログラミング, 東京とうきょう大学だいがく.
^ "multiple levels of caches (L1, L2, . . . )" 田浦たのうら. (2018). What You Must Know about Memory, Caches, and Shared Memory. 並列へいれつ分散ぶんさんプログラミング, 東京とうきょう大学だいがく.
^ Bonwick, Jeff (6 June 1994). "The Slab Allocator: An Object-Caching Kernel". USENIX Summer 1994 Technical Conference. USENIX.
^ Torvalds, Linus. “arch/x86/kernel/vmlinux.lds.S at master”. GitHub. 2024年ねん5月がつ26日にち閲覧えつらん。 Linux カーネル、x86のリンカスクリプト。セクション.data..read_mostlyが該当がいとう、マクロREAD_MOSTLY_DATA()を用もちいて間接かんせつ的てきに定義ていぎ。
^ The FreeBSD Project. “sys/conf/ldscript.amd64 at main”. GitHub. 2024年ねん5月がつ26日にち閲覧えつらん。 FreeBSD カーネル、amd64のリンカスクリプト。セクション.data.read_mostlyが該当がいとう。

参考さんこう文献ぶんけん

ヘネシー, ジョン・L、パターソン, デイビッド・A 著ちょ、富田とみた眞しん冶 / 村上むらかみ和かず彰あきら / 新實にいみ治男はるお訳やく『コンピュータ・アーキテクチャ　設計せっけい・実現じつげん・評価ひょうかの定量ていりょう的てきアプローチ』日経にっけいBP社しゃ、1993年ねん5月がつ。ISBN 4-8222-7152-8。
ヘネシー, ジョン・L、パターソン, デイビッド・A 著ちょ、成田なりた光彰みつあき訳やく『コンピュータの構成こうせいと設計せっけい　ハードウエアとソフトウエアのインタフェース』上じょう（第だい2版はん）、日経にっけいBP社しゃ、1999年ねん5月がつ。ISBN 4-8222-8056-X。
ヘネシー, ジョン・L、パターソン, デイビッド・A 著ちょ、成田なりた光彰みつあき訳やく『コンピュータの構成こうせいと設計せっけい　ハードウエアとソフトウエアのインタフェース』下か（第だい2版はん）、日経にっけいBP社しゃ、1999年ねん5月がつ。ISBN 4-8222-8057-8。
中森なかもり, 章あきら『マイクロプロセッサ・アーキテクチャ入門にゅうもん　RISCプロセッサの基礎きそから最新さいしんプロセッサのしくみまで』CQ出版しゅっぱん社しゃ〈TECHI Vol.20〉、2004年ねん4月がつ。ISBN 4-7898-3331-3。
インテル株式会社かぶしきがいしゃ『IA-32 インテルアーキテクチャソフトウェア・デベロッパーズ・マニュアル』。