GPGPU

GPGPU（General-purpose computing on graphics processing units; GPUによる汎用はんよう計算けいさん）とは、GPUの演算えんざん資源しげんを画像がぞう処理しょり以外いがいの目的もくてきに応用おうようする技術ぎじゅつのことである^[1]^[2]。ビッグデータなどを含ふくむ科学かがく技術ぎじゅつ計算けいさんに対たいし大量たいりょうの計算けいさんを実行じっこうできるというメリットのため、広ひろく使つかわれるようになった^[3]。2022年ねん、単一たんいつマシンとしては世界せかい初はつのエクサスケールコンピュータとなった米べいHPEの「フロンティア」にもベクトル計算けいさん用ようにAMDのGPUが搭載とうさいされるなど、世界せかい最速さいそくを競きそうスーパーコンピュータでの利用りようも一般いっぱん的てきである。

GPGPUは、GPUが持もつベクトル計算けいさん機きとしての特性とくせいを活いかした汎用はんよう的てきなストリーム・プロセッシングの一いち形態けいたいである。GPUはコンピュータゲームで多用たようされるリアルタイム画像がぞう処理しょり向むけのデータ並列へいれつ計算けいさんとパイプライン処理しょりに特とく化かした命令めいれい発行はっこう形態けいたいを持もち、またGPUとメインメモリ間あいだの帯域たいいき幅はばは通例つうれい狭せまく^{[注釈ちゅうしゃく 1]}、固定こてい長ちょうレジスタしか扱あつかえない^{[注釈ちゅうしゃく 2]}（後述こうじゅつ）ものの、GPUと直結ちょっけつされるVRAM間あいだには十分じゅうぶん広ひろい帯域たいいき幅はばを備そなえておりSIMDやSIMT（英語えいご版ばん）による並列へいれつ計算けいさんも行おこなえる^[4]。

GPGPUは制約せいやくはあるもののHPCの分野ぶんやで注目ちゅうもくされる応用おうよう技術ぎじゅつである。伝統でんとう的てきに構築こうちくされてきた、カスタムCPUとして開発かいはつされるベクトルプロセッサを主体しゅたいとしたスーパーコンピュータと比較ひかくして、疎行列そぎょうれつで計算けいさん効率こうりつが低下ていかする^{[注釈ちゅうしゃく 3]}、可変長かへんちょうベクトル命令めいれいが扱あつかえずレジスタ長ちょうで割わり切きれない要素ようそを別途べっと考慮こうりょする必要ひつようがあるという欠点けってんはある^[5]ものの、GPUを主体しゅたいとして計算けいさん機きシステムを構成こうせいする方ほうがコストパフォーマンスが高たかくなることからHPC分野ぶんやでの導入どうにゅうが進すすんでいる^[6]。

しかし、GPU特有とくゆうの制約せいやくは無なくなりつつある。2023年ねん現在げんざいではプログラマブルシェーダーの発展はってんによりCPUと同どう程度ていどのプログラマビリティが実現じつげんされており^[7]、OpenCLなどを用もちいることでCPUとGPUでの相互そうごで互換ごかん性せいを持もったプログラムを作成さくせいすることも可能かのうであることから^[8]、前述ぜんじゅつのランダムメモリアクセスに弱よわい、可変長かへんちょうベクトル命令めいれいが利用りようできないという、伝統でんとう的てきなベクトルプロセッサと比較ひかくした場合ばあいの原理げんり的てきな欠点けってん以外いがいについては改善かいぜんされてきている。

GPGPUブームまでの略りゃく史し

最初さいしょの試こころみから一般いっぱん的てきに使つかえるAPIが完成かんせいするまでに10年ねんの歳月さいげつを要ようした。

1998年ねん: SGIのグラフィックスワークステーションを用もちいた実験じっけん

GPUという製品せいひんカテゴリが登場とうじょうする前年ぜんねんでプログラマブルシェーダーも存在そんざいしない1998年ねんに、Ian Buck^[9]によりSGI O2 R5000とSGI Indigo2 R4400 Maximum IMPACTのグラフィックスアクセラレータで、OpenGLのフレームバッファを漸やや化か式しきの各かく計算けいさんステップ用ように2枚まい用もちいた単純たんじゅんな流体りゅうたい計算けいさんの高速こうそく化かが試こころみられ、実際じっさいに数すう倍ばい程度ていどは高速こうそく化かされた^[10]^[11]。この当時とうじのSGIのグラフィックスワークステーションにはジオメトリエンジンが独立どくりつしたLSIチップとして搭載とうさいされており、後ごのGPUの原型げんけいとも言いえる構成こうせいとなっていた^[12]。しかし固定こてい機能きのうシェーダーしか存在そんざいしない時代じだいであったため非常ひじょうに簡単かんたんなモデルしか計算けいさんできず、実用じつようには程遠ほどとおい代物しろものであった。

固定こてい機能きのうシェーダーを用もちいて流体りゅうたい計算けいさんを高速こうそく化かする方法ほうほうはGPGPUの着想ちゃくそう時じに試こころみられたのみであり、今日きょう的てきなGPGPUの観点かんてんからすると極きわめて特殊とくしゅでイメージが付つきづらいため、下記かきにその研究けんきゅうで実行じっこうされたコードの引用いんよう^[10]と各行かくこうの説明せつめいを示しめす。概要がいようとしてはOpenGLの標準ひょうじゅん機能きのうの1つである2次元じげん畳たたみ込こみフィルタを漸やや化か式しきの各かく計算けいさんステップにおける拡散かくさんの操作そうさとして転用てんようすることで、各かく領域りょういきの拡散かくさんの計算けいさんがハードウェアで並列へいれつ化かされるというアイデアとなっていた。下記かきのコードを見みれば分わかる通とおり、物理ぶつりモデルを2次元じげん畳たたみ込こみフィルタとして表現ひょうげんして標準ひょうじゅん機能きのうに渡わたすことしかできず、今日きょう的てきなGPGPUと比較ひかくすればブラックボックスな固定こてい機能きのうシェーダーに並列へいれつ計算けいさんを任まかせるしかないため、全まったく自由じゆうが利きかないことが分わかる。またRGBの各かく色いろ8bitを数値すうちに割わり当あてるため、計算けいさん精度せいどが重要じゅうような科学かがく技術ぎじゅつ計算けいさんとして8bitを超こえる精度せいどで計算けいさんするためにはRGBの各かく色いろ間あいだでの桁けたの繰くり上あがりなども実装じっそうする必要ひつようがあったが、その際さいに大おおきなオーバーヘッドが生しょうじて計算けいさんが非常ひじょうに遅おそくなってしまうという問題もんだいがあった。当時とうじはIan Buck自身じしんも、これらの実用じつように当あたって許容きょようできない制約せいやくを緩和かんわするためには今後こんごのグラフィックスハードウェアの進歩しんぽが必要ひつようであると述のべている。

#define k .2 // 拡散かくさん係数けいすうの定義ていぎ
/* 畳たたみ込こみフィルタの定義ていぎ */
float filter[] = {
    0.0, k, 0.0,
    k, 1-4*k, k,
    0.0, k, 0.0
};

glConvolutionFilter2D(filter)  // 畳たたみ込こみフィルタを設定せってい
glEnable(GL_CONVOLUTION)       // 畳たたみ込こみフィルタを有効ゆうこう化か
glReadBuffer(GL_FRONT)         // 読よみ込こみ側がわのフレームバッファ（1ステップの畳たたみ込こみ計算けいさんにおける現げんステップ(例たとえばtと置おく)の値ねを保存ほぞんするバッファ）
glDrawBuffer(GL_BACK)          // 書かき込こみ側がわのフレームバッファ（1ステップの畳たたみ込こみ計算けいさんにおける次つぎステップ(例たとえばt+1と置おく)の値ねを保存ほぞんするバッファ）

... Draw any initial conditions ... // 任意にんいの初期しょき条件じょうけんの描画びょうが

glRasterPos(1,1);  // ピクセル操作そうさのラスター位置いちを(x,y)=(1,1)に設定せってい
/* 畳たたみ込こみ計算けいさんの繰くり返かえし実行じっこう */
while(1) {
    glCopyPixels(0, 0, Width, Height, GL_COLOR);
    glxSwapbuffers(dspy, wnd);
}

1999年ねん-2000年ねん: GPUとプログラマブルシェーダーの登場とうじょう

続つづいて1999年ねんのGeForce 256の発売はつばいによってジオメトリエンジンをグラフィックスアクセラレータに統合とうごうした「GPU」という製品せいひんカテゴリが登場とうじょうし、2000年ねん11月9日にちにはアセンブリ言語げんごで128個この命令めいれいのみ記述きじゅつ可能かのうな原始げんし的てきなプログラマブルシェーダー（シェーダーモデル1.x）が登場とうじょうした。2002年ねん、GPUの固定こてい機能きのうシェーダーがプログラマブルシェーダーに置おき換かわったことでブレイクスルーが起おきたと主張しゅちょうし、ムーアの法則ほうそくを超こえる速度そくどで進化しんかするGPUのストリーム・プロセッサとしての未来みらいを予感よかんしたIan Buckにより、再度さいどGPUによるレイトレーシング計算けいさんの高速こうそく化かについての論文ろんぶんが発表はっぴょうされた^[13]。

2002年ねん: シェーダーモデル2.0への進化しんか

2002年ねん12月20日にちのシェーダーモデル2.0の登場とうじょうにより、GPUのプログラマブルシェーダーで従来じゅうらいより遥はるかに長ながい命令めいれい長ちょうと浮動ふどう小数点しょうすうてん演算えんざんが扱あつかえるようになった直後ちょくごの2003年ねん頃ころからGPGPUが大々的だいだいてきに試こころみられ始はじめ、2004年ねん8月がつには世界せかい初はつのGPGPU学会がっかい「GP2」（Workshop on General Purpose Computing on Graphics Processors）が開催かいさいされた^[14]。しかし当時とうじは画像がぞう処理しょり専用せんように作つくられていたGPU特有とくゆうの制約せいやく（演算えんざん精度せいどの不足ふそくや仮想かそうメモリが扱あつかえないなど）について酷評こくひょうが相次あいついでいた^{[要よう出典しゅってん]}。またGPUメーカーは歩留ぶどまり向上こうじょうのため画面がめん表示ひょうじに問題もんだいがなければ計算けいさんミスがあってもGPUを出荷しゅっかするため、計算けいさんミスを起おこすようなGPUを検品けんぴんして排除はいじょする必要ひつようが生しょうじた^{[要よう出典しゅってん]}。

2007年ねん: CUDAの提供ていきょう開始かいし

その後ご、2005年ねんにIan BuckらのチームがグラフィックスAPIを経由けいゆせずC言語げんごライクにGPGPUの処理しょりを記述きじゅつできるCUDAの開発かいはつに着手ちゃくしゅ^[11]し、2007年ねん7月がつにCUDA 1.0を提供ていきょう開始かいししたことで、以降いこう2008年ねん頃ころからGPGPUが普及ふきゅうして行いった^[14]。CUDAが有名ゆうめいになったことで、NVIDIAはGPGPUでトップランナーの地位ちいを占しめることになった。GPGPUは2010年代ねんだい前半ぜんはん以降いこうのビッグデータブームや仮想かそう通貨つうかブーム、2010年代ねんだい中盤ちゅうばん以降いこうの人工じんこう知能ちのうブームを下した支ささえする存在そんざいとなり、2020年代ねんだいにはブームのあまりの過熱かねつぶりにGPU製品せいひんの供給きょうきゅうが不足ふそくする事態じたいまで発生はっせいしている^[15]。

概要がいよう

GPUは一般いっぱん的てきに画像がぞう処理しょりを専門せんもんとする演算えんざん装置そうちであり、多おおくの場合ばあい、CPUと呼よばれる主演しゅえん算さん装置そうちの制御せいぎょの下したで用もちいられる動画どうが信号しんごう生成せいせい専用せんようの補助ほじょ演算えんざん用ようICである。動画どうが像ぞうの実じつ時間じかん内ないでの生成せいせいは高速こうそくな演算えんざんが要求ようきゅうされるが、その多おおくが定式ていしき化かされた単純たんじゅんな演算えんざんの繰くり返かえしであるためハードウェア化かに向むいており、GPUを設計せっけいしている数すう社しゃからは、高速こうそくなメモリ・インタフェース機能きのうと高たかい画像がぞう演算えんざん能力のうりょくを備そなえたIC製品せいひんのシリーズがいくつもリリースされている。GPUは民生みんせい用ように大量たいりょう生産せいさんされているため、スーパーコンピュータに用もちいられるベクトル型がたのカスタムCPUからすれば非常ひじょうに安価あんかである^[6]。但ただし、GPGPUは完全かんぜんなベクトル型がたとして設計せっけいされていないx86等ひとしの一般いっぱん的てきなCPUのSIMD命令めいれいと比較ひかくして高たかい並列へいれつ度どを誇ほこりスループットが高たかいが、バスアクセスのためにレイテンシも大おおきくなることが欠点けってんとなる。従したがって、一定いってい量りょうのデータを常つねに流ながし込こみながら計算けいさんさせ続つづける事ことが最もっとも理想りそう的てきな利用りよう形態けいたい（ストリーム・プロセッシング）であり、逆ぎゃくにネットワークのパケット処理しょりといった多数たすうの小ちいさいデータの各々おのおのに対たいして個別こべつに処理しょりを行おこなう場合ばあいでは効率こうりつは劇的げきてきに悪化あっかする。

特とくに1990年代ねんだい中盤ちゅうばん以降いこうは3D描画びょうが性能せいのうが劇的げきてきに向上こうじょうし、それに伴ともないベクトル・行列ぎょうれつ演算えんざんを中心ちゅうしんとしたSIMD演算えんざん機きの色彩しきさいが強つよくなってきた。2000年代ねんだいに入はいると、表現ひょうげん力りょくの向上こうじょうを求もとめて固定こてい機能きのうシェーダーからプログラマブルシェーダーへの移行いこうが進すすみ、演算えんざんの自由じゆう度ど・柔軟じゅうなん性せい（プログラマビリティ）が飛躍ひやく的てきに増ました。そこでこれをグラフィックス・レンダリングのみならず、他たの数値すうち演算えんざんにも利用りようしようというのがGPGPUのコンセプトである。GPGPUのコンセプトは2000年代ねんだいの実験じっけん期きを経へて、入力にゅうりょくデータをテクスチャデータに変換へんかんして画像がぞう用ようのシェーダーに処理しょりさせるという回まわりくどい工夫くふう^[16]が必要ひつようない汎用はんよう計算けいさん用ようの言語げんごやコンピュートシェーダーが開発かいはつされた後のち、2010年ねん頃ころのビッグデータブームの波なみに乗のり産業さんぎょう応用おうようが開始かいしされ、2010年代ねんだい半なかばには一般いっぱん化かした。

最高さいこうのシングル理論りろん演算えんざん性能せいのうを持もつGPU・MIC・CPU
(2015年ねん8月がつ現在げんざい)
種別しゅべつ	単精度たんせいど	倍精度ばいせいど
種別しゅべつ	TFLOPS	TFLOPS
GPU	8.6 (AMD Radeon R9 Fury X)^[17]	2.62 (AMD FirePro S9170)^[18]
MIC	2.416 (Xeon Phi 7120P)^{[要よう出典しゅってん]}	1.208 (Xeon Phi 7120P)^{[要よう出典しゅってん]}
CPU	1.325 (Xeon E5-2699 v3)^{[要よう出典しゅってん]}	0.662 (Xeon E5-2699 v3)^{[要よう出典しゅってん]}

上記じょうきの表ひょうは 1CPU, 1MIC, 1GPU に限定げんていした表ひょうである。なおAMD Radeon R9 295X2やAMD FirePro S10000、NVIDIA GeForce GTX TITAN ZやNVIDIA Tesla K80のようなデュアルGPUソリューションは除外じょがいされている。

2015年ねん現在げんざい、GPUの浮動ふどう小数点しょうすうてん演算えんざん能力のうりょくは単精度たんせいどで8TFLOPSをオーバーした一方いっぽうで、CPUはサーバー向むけでも単精度たんせいどは1TFLOPS台だいに留とどまっている。GPUは構成こうせいが単純たんじゅんであるためにCPUよりも集積しゅうせき化かの点てんで有利ゆうりであることから浮動ふどう小数点しょうすうてん演算えんざんでの効率こうりつがよく、またGPU専用せんようにローカル接続せつぞくされたメモリIC (VRAM) とのバンド幅はばを広ひろく備そなえるために、CPUと比くらべて性能せいのう比ひで安価あんかかつ成長せいちょうの伸のび率りつが高たかい^[19]。さらにCPUよりも電力でんりょくあたりの理論りろん演算えんざん性能せいのう（ワットパフォーマンス、Performance per Watt）が高たかいのもGPUの特徴とくちょうである。またGPUの主おもな使途しとがゲーム（PCゲーム）と動画どうが再生さいせいで、ゲームをしないユーザーにとって余あまり気味ぎみの資源しげんということもあって注目ちゅうもくされている。

2015年ねん現在げんざいにおけるGPGPU対応たいおうのグラフィックスカード（グラフィックスチップ）単体たんたい製品せいひんすなわちディスクリートGPU (discrete GPU, dGPU) としては、NVIDIAのNVIDIA GeForceおよびNVIDIA Quadroシリーズや、AMDのAMD RadeonおよびAMD FireProシリーズなどが代表だいひょうとして挙あげられる（ただし後述こうじゅつするGPGPU対応たいおうAPIをサポートするのはDirectX 10世代せだい以降いこうの製品せいひんとなる）。CPU統合とうごう型がたGPU (integrated GPU, iGPU) に関かんしては、NVIDIAのNVIDIA Tegraシリーズ、AMDのAMD APUシリーズ、そしてインテルのIntel HD GraphicsシリーズなどがGPGPUに対応たいおうしている。一方いっぽう、GPGPU専用せんよう製品せいひんとしては、NVIDIAのNVIDIA Teslaシリーズ、そしてAMDのAMD FirePro Sシリーズ（旧きゅうAMD FireStreamシリーズ）が挙あげられ、こちらは科学かがく技術ぎじゅつ分野ぶんやのHPC市場いちば向むけにも投入とうにゅうされるなど、従来じゅうらいのベクトル計算けいさん機きからの置おき換かえを視野しやに置おいた^{[独自どくじ研究けんきゅう?]}製品せいひん展開てんかいが行おこなわれている。

GPGPUアプリケーション開発かいはつの環境かんきょうおよびAPIとしては、ハードウェア内部ないぶ構造こうぞう自体じたいが汎用はんよう性せいを増ましたDirectX 10世代せだいの統合とうごう型がたシェーダーアーキテクチャGPUの登場とうじょう以降いこう、NVIDIAによるGPGPU専用せんようの統合とうごう開発かいはつ環境かんきょう「CUDA」や、AMDによるGPGPU基盤きばん「AMD Stream」（旧称きゅうしょうATI Stream）、そしてクロノス・グループによる標準ひょうじゅん規格きかく「OpenCL」が現あらわれ、GPGPU活用かつようの幅はばが広ひろがりつつある。

なお、DirectX (Direct3D/HLSL) はバージョン11でGPUによる汎用はんよう演算えんざん用ようのステージであるコンピュートシェーダー（DirectCompute）を、またOpenGL/GLSLはバージョン4.3で同様どうようのコンピュートシェーダーを導入どうにゅうする^[20]など、グラフィックスAPIのほうにも従来じゅうらいのグラフィックスパイプラインに加くわえてGPGPU機能きのうを活用かつようするための変化へんかが現あらわれつつある。MetalやVulkanといった後発こうはつのローレベルグラフィックスAPIにも、コンピュートシェーダーが搭載とうさいされている。

その他た、マイクロソフトの「C++ AMP」や、PGIの「OpenACC」^[21]など、DirectCompute/OpenCL/CUDAといったローレベルAPIをバックエンドとしながら、従来じゅうらいのC/C++やFortranにおけるOpenMPに近ちかい高こうレベル並列へいれつプログラミング環境かんきょうを提供ていきょうするアクセラレータ系けいライブラリ・言語げんご拡張かくちょうも出現しゅつげんしている。

特徴とくちょうと課題かだい

GPUはメモリにシーケンシャルにアクセスし、かつ条件じょうけん分岐ぶんきの無ない計算けいさん（演算えんざん密度みつどの高たかい処理しょり）に強つよい。そのような例れいに行列ぎょうれつ計算けいさんがある。苦手にがてな物ものの代表だいひょうとして二分にぶん探索たんさくがある。二分にぶん探索たんさくは条件じょうけん分岐ぶんきだらけなうえ、メモリにランダムアクセスする。ポインタをたどる操作そうさもメモリにランダムアクセスするため、連結れんけつリストや木き構造こうぞうなども苦手にがてである。密行みっこう列れつは得意とくいだが、疎行列そぎょうれつは苦手にがてで、東京大学とうきょうだいがく情報じょうほう基盤きばんセンターによると100倍ばい遅おそい^[22]。グラフ計算けいさんにおいては、例たとえば最短さいたん経路けいろ問題もんだいでは、完全かんぜんグラフのような密みつグラフに対たいしては高速こうそくに計算けいさんできるが、頂点ちょうてんから数すう本ほんしか辺あたりが出でていないような疎うとグラフに対たいしては遅おそい^[23]。

条件じょうけん分岐ぶんき

GPUはシェーダープロセッサ（ストリームプロセッサ^[24]、ストリーミングプロセッサ^[25]とも）と呼よばれる演算えんざんユニットを多数たすう持もち、複数ふくすうのシェーダープロセッサをまとめてクラスタとしている。これらの演算えんざん器きに命令めいれいを与あたえるインストラクション・ユニットはクラスタごとに1台だいしか無なく、クラスタを構成こうせいするシェーダープロセッサはそれぞれ異ことなるデータを与あたえられ、そのデータに対たいして同おなじ命令めいれい内容ないようを一いち度どに実行じっこうする。このようなSIMD型がたデータ処理しょりは3次元じげん演算えんざんやマルチメディア処理しょりに効果こうかを発揮はっきする一方いっぽうで、命令めいれい中ちゅうに条件じょうけん分岐ぶんきによる分岐ぶんきが入はいるとオーバーヘッドがかさみ、途端とたんに効率こうりつを落おとしてしまう。今日きょうのCPUでは、このようなペナルティを最小限さいしょうげんにするためにプリフェッチ／プリデコードや投機とうき実行じっこう／レジスタ・リネーミングといった機能きのうを備そなえているが、GPUでは備そなえていない（限定げんてい的てきな条件じょうけん付つきで投機とうき的てき実行じっこうを行くだりなえるものもある。GPUでの動的どうてき分岐ぶんきはDirectX 9.0c世代せだい以降いこうでようやく現実げんじつ的てきになった^[26]^[27]）。またPC向むけのGPUではシェーダープロセッサごとに分岐ぶんきするためのプログラムカウンターを持もたないため、条件じょうけん分岐ぶんきの際さいは個別こべつに異ことなる命令めいれいを発行はっこうするのではなく、実際じっさいに命令めいれいを実行じっこうするか否ひかを分わけるためのマスクレジスタを使つかって分岐ぶんきする手法しゅほうが採用さいようされている^[28] ^[29]。

また、シェーダープロセッサ間あいだでデータをやりとりする場合ばあい、遠とおくのデータバスを経由けいゆすることになり、それがボトルネックとなってしまう。この点てんに関かんしては、DirectX 10世代せだいの統合とうごう型がたシェーダーアーキテクチャ以降いこうのハードウェアに搭載とうさいされている、小しょう容量ようりょうだがプロセッサグループ内ないで共有きょうゆうすることのできる高速こうそくなキャッシュメモリ（共有きょうゆうメモリ）を介かいすることで、プロセッサグループ内ないでのデータ交換こうかんやメモリI/Oの効率こうりつを高たかめることができる^[30] ^[31]。

一般いっぱんのアプリケーションで条件じょうけん分岐ぶんきが存在そんざいしないものは珍めずらしく、こういった制約せいやくによってGPUはオフィススイートのようなアプリケーションの実行じっこうには不向ふむきである。GPGPUの発展はってんにはいかに効率こうりつを落おとさず条件じょうけん分岐ぶんきを行おこなうかというのが1つの課題かだいとなっている。原理げんり的てきにはシンプルなアルゴリズム構造こうぞうを持もったプログラムによって、並列へいれつデータ処理しょりに最適さいてき化かすることがGPGPUの特長とくちょうを最大限さいだいげん引ひき出だすことにつながるといえる。

浮動ふどう小数点しょうすうてん演算えんざん

単精度たんせいどと倍精度ばいせいど

単精度たんせいど浮動ふどう小数点しょうすうてん演算えんざんに関かんしてはCPUをはるかに上回うわまわる理論りろん演算えんざん性能せいのうとスケーラビリティを持もつGPUだが、倍精度ばいせいど浮動ふどう小数点しょうすうてん演算えんざんに関かんしては様相ようそうが異ことなる。もともとGPUが扱あつかう多おおくの画像がぞう演算えんざん（特とくにリアルタイム3Dグラフィックス）では、整数せいすう演算えんざんや単精度たんせいどの浮動ふどう小数点しょうすうてん演算えんざんで足たりてしまうために浮動ふどう小数点しょうすうてん演算えんざん器きは仮数かすう部ぶが24ビット程度ていどとそれほど広ひろくなく、単精度たんせいどの演算えんざん器きで倍精度ばいせいどの浮動ふどう小数点しょうすうてん演算えんざんを行おこなうには、分割ぶんかつして幾度いくども演算えんざん器きを使つかう必要ひつようがあり、性能せいのうを大おおきく落おとす要因よういんとなる。なお倍精度ばいせいど対応たいおうが必須ひっすとされる科学かがく技術ぎじゅつ計算けいさん分野ぶんやを含ふくめたHPC向むけに設計せっけいされた製品せいひんでは、倍精度ばいせいど専用せんようの演算えんざん器きを搭載とうさい・有効ゆうこう化かしているものもある^[32]。

AMDは2006年ねんに自社じしゃのGPU「R580」をベースとした、単精度たんせいど浮動ふどう小数点しょうすうてん演算えんざん対応たいおうのストリームプロセッシング向むけ製品せいひん「AMD Stream Processor」（第だい1世代せだいAMD FireStream）を発表はっぴょう^[33]、続つづいて2007年ねんにR6xxコアを使用しようした業界ぎょうかい初はつの倍精度ばいせいど浮動ふどう小数点しょうすうてん演算えんざん対応たいおうHPC向むけGPUである「AMD FireStream 9170」（第だい2世代せだいAMD FireStream）を発売はつばい^[34]した（ただし倍精度ばいせいどの理論りろん演算えんざん性能せいのうは単精度たんせいどの場合ばあいの1/5となる^[35]）。また2008年ねんに発売はつばいされたRADEON HD 4850は1チップでは世界せかい初はつの1TFLOPS（単精度たんせいど）を達成たっせいし、このRADEON HD 4850にも使用しようされたR7xxコアを使用しようして低てい価格かかくかつ高性能こうせいのうを売うりに、HPC分野ぶんや向むけに第だい3世代せだいAMD FireStreamを発売はつばい^[36]することになった。2010年ねんには、さらに高性能こうせいのう化かした第だい4世代せだいAMD FireStreamを発売はつばいしている。2014年ねんに発売はつばいされたAMD FirePro S9100/S9150では倍精度ばいせいど演算えんざん性能せいのうが強化きょうかされ、倍精度ばいせいどの理論りろん演算えんざん性能せいのうは単精度たんせいどの場合ばあいの1/2になっている^[37] ^[38]。

NVIDIAも、自社じしゃのGPU「G80」をベースとした、単精度たんせいど浮動ふどう小数点しょうすうてん演算えんざん対応たいおうのHPC向むけ製品せいひん「Tesla C870」を2007年ねんに投入とうにゅう、さらに2008年ねんに発売はつばいされた NVIDIA Tesla C1060 で倍精度ばいせいどに対応たいおうしたが、単精度たんせいど933GFLOPSに比くらべて倍精度ばいせいどは1/12の78GFLOPSとなっており^[39]、倍精度ばいせいど演算えんざん性能せいのうが極端きょくたんに低ひくかった。2010年ねんに発売はつばいされた Fermi 世代せだいの Tesla 20 シリーズ^[40] ^[41]では倍精度ばいせいど演算えんざん性能せいのうが強化きょうかされ、倍精度ばいせいどの理論りろん演算えんざん性能せいのうは単精度たんせいどの場合ばあいの1/2になったが、2012年ねんに発売はつばいされたKepler世代せだいのTesla K20シリーズ^[42] ^[43]、2013年ねんに発表はっぴょうされたK40^[44]、2014年ねんに発表はっぴょうされたK80^[45] ^[46]では倍精度ばいせいどの理論りろん演算えんざん性能せいのうは単精度たんせいどの場合ばあいの1/3となっている。

2020年ねん現在げんざいでも、GPUにおける倍精度ばいせいど演算えんざんに関かんしてはHPC向むけを除のぞき、省しょう電力でんりょく性能せいのうやゲーミング性能せいのうを重視じゅうし・維持いじするために必要ひつよう最低限さいていげんの性能せいのうしか用意よういされないことが多おおい^{[注釈ちゅうしゃく 4]}。また倍精度ばいせいど専用せんようの演算えんざんユニットでは単精度たんせいどの演算えんざんを行おこなうことはできないため、単精度たんせいどを優先ゆうせんするか、それとも倍精度ばいせいどを優先ゆうせんするかはチップ設計せっけい段階だんかいにおけるトレードオフとなる。実際じっさい、NVIDIAのMaxwellアーキテクチャのGPUでは前ぜん世代せだいに存在そんざいした倍精度ばいせいど演算えんざん器きが省略しょうりゃくされ、単精度たんせいど演算えんざん器きを使つかって倍精度ばいせいど演算えんざんを行おこなうため、倍精度ばいせいど演算えんざんのピーク性能せいのうは単精度たんせいど演算えんざんの1/32となる^[48]。このため、HPC向むけ以外いがいのGPUは倍精度ばいせいどの浮動ふどう小数点しょうすうてん演算えんざんが不得意ふとくいであると言いえる。

半はん精度せいど

深層しんそう学習がくしゅうの計算けいさんにおいては計算けいさん精度せいどが求もとめられないことから、半はん精度せいど(16ビット)の演算えんざんを高速こうそくで行おこなえるようにハードウェア側がわの対応たいおうも進すすみつつある^{[注釈ちゅうしゃく 5]}^[50]。深層しんそう学習がくしゅうにおいては仮数かすう部ぶの細こまかさよりも値ねがオーバーフローしないほうが使つかいやすいというメリットのため、指数しすう部ぶを増ふやしたBF16(bfloat16（英語えいご版ばん）)と呼よばれるフォーマットが考案こうあんされ、一部いちぶのGPU^{[注釈ちゅうしゃく 6]}でサポートされている^[51]。

GPUから派生はせいした分野ぶんや特とく化か型がたのプロセッサとして、ディープラーニングなどのAI計算けいさん能力のうりょくに対たいして既存きそんのGPUでは消費しょうひ電力でんりょくの大おおきさが問題もんだいになることから、計算けいさん精度せいどを8ビットに抑おさえて、積せき和わ演算えんざんに特とく化かしたTPU（テンソル・プロセッシング・ユニット）というプロセッサが実現じつげんされており、人工じんこう知能ちのうのアクセラレーターとして活用かつようされている^[52]。バッテリー駆動くどうが基本きほんとなるスマートフォンのSoCにも電力でんりょく効率こうりつ向上こうじょうの必要ひつよう性せいからAIアクセラレータが搭載とうさいされている。

IEEE 754サポートおよびFMA命令めいれい

DirectX 11対応たいおうとなるEvergreen世代せだい以降いこうのAMD GPU、およびFermi世代せだい以降いこうのNVIDIA GPUでは、浮動ふどう小数点しょうすうてんの演算えんざん精度せいどはIEEE 754規格きかくに準拠じゅんきょしたものとなっている。なおNVIDIA GPUおよびAMD GPUでは融合ゆうごう積せき和わ演算えんざん命令めいれい (FMA) をサポートしているが、CPUで同おなじ内容ないようの処理しょりをFMAを使つかわず実行じっこうした場合ばあいと比くらべて、GPUによる演算えんざん結果けっかが異ことなることもある^[53] ^[54] ^[55] ^[56] ^[57]。

メモリ

メモリ環境かんきょうについても、演算えんざん入力にゅうりょくは少数しょうすうの格子こうし点てんデータと幾分いくぶん大おおきなテクスチャ・データだけであり^{[疑問ぎもん点てん – ノート]}、演算えんざん出力しゅつりょくは画像がぞう1枚まい程度ていどの大おおきさのピクセルごとに3色しょく^{[疑問ぎもん点てん – ノート]}のデータを保持ほじしながら順次じゅんじそれらを送おくり出だすだけで済すむため、相応そうおうに大おおきな^{[疑問ぎもん点てん – ノート]}外部がいぶの半導体はんどうたいメモリ（グラフィックスメモリ／ビデオメモリ／デバイスメモリ／VRAM）とかなり広ひろい^{[疑問ぎもん点てん – ノート]}メモリバンド幅はばによる接続せつぞくで十分じゅうぶんに対応たいおうしており、演算えんざん対象たいしょうデータの局所きょくしょ性せいが高たかいのでグラフィックスメモリと内部ないぶキャッシュによってデータの読よみ書かき性能せいのうが向上こうじょうすると同時どうじに演算えんざんも途切とぎれずに順次じゅんじ行おこなえる傾向けいこうが強つよい。

基本きほん的てきにGPUは、配列はいれつ構造こうぞうの単純たんじゅんなデータを半はん精度せいど／単精度たんせいど程度ていどの浮動ふどう小数点しょうすうてん演算えんざんによって順番じゅんばんに処理しょりすることで2次元じげんの動画どうが像ぞうデータを実じつ時間じかん内ないに生成せいせいすることに特とく化かしているため、それ以外いがいの用途ようとではあまり高たかい性能せいのうは期待きたいできない。リアルタイム画像がぞう処理しょり専用せんようICの流用りゅうようでは、科学かがく技術ぎじゅつ計算けいさんでも倍精度ばいせいど以上いじょうの浮動ふどう小数点しょうすうてん演算えんざん（拡張かくちょう倍精度ばいせいど・四よん倍精度ばいせいどなど）を必要ひつようとするものや、演算えんざんの局所きょくしょ性せいが低ひくいものではそれほど高たかい性能せいのうは得えられない。リアルタイム画像がぞう処理しょり専用せんようではなく、GPUから派生はせいして新あらたに開発かいはつされたGPGPU用ようのICでは、倍精度ばいせいど浮動ふどう小数点しょうすうてん演算えんざんやより広ひろいメモリ空間くうかんに対応たいおうしたものがあり、これらは広範こうはんな科学かがく技術ぎじゅつ計算けいさんへの利用りようが期待きたいされる。なお、コンシューマー向むけの画像がぞう処理しょり分野ぶんやではほとんど必要ひつようとされないメモリの冗長じょうちょう機構きこうであるECCがHPC分野ぶんやでは必須ひっすとされるため、ICを共用きょうようする場合ばあいに制約せいやくとなる^[58]。

共有きょうゆうメモリ

GPUによるVRAMへのアクセスは、複数ふくすうのプロセッサ群ぐんによって並列へいれつ的てきに発生はっせいするため、連続れんぞくしたメモリ領域りょういきに対たいするコアレスアクセス（coalesce access、≒シーケンシャルアクセス）を行おこなうことで効率こうりつ化か・高速こうそく化かできる^[59]。NVIDIA GPUでは32のハードウェアスレッドを束たばねるバッチ単位たんいをWarp^[60]と呼よび、AMD GPUでは64のハードウェアスレッドを束たばねるバッチ単位たんいをWavefront^[61]と呼よんでいるが、これらのユニット内ないではプロセッサが完全かんぜんに同期どうきして動作どうさするため、バッチ単位たんいごとにまとめて連続れんぞく領域りょういきにアクセス（コアレスアクセス）することで効率こうりつが良よくなる。逆ぎゃくに言いえば、バッチ単位たんい内ないのスレッドがそれぞれ遠とおく離はなれたばらばらのアドレスにアクセスするような非ひコアレスアクセス（≒ランダムアクセス）は効率こうりつが悪わるくなる。

GPGPUの本質ほんしつは、大量たいりょうの演算えんざん器きによって実現じつげんされるハードウェアマルチスレッド集合しゅうごうを用もちいたデータ並列へいれつ演算えんざんにより性能せいのうを稼かせぐ点てんにある。例たとえばNVIDIA GPUのFermi/Keplerマイクロアーキテクチャでは、演算えんざん器きの最小さいしょう単位たんいをCUDAコア (SP, streaming processor) と呼よび、また複数ふくすうのCUDAコアを束たばねる単位たんいをSMX (SM, streaming multiprocessor) と呼よんでいるが、GPUでの演算えんざんは、複数ふくすうのSMXに対たいして同一どういつの命令めいれいを発行はっこうしていき、各々おのおののハードウェアスレッドに割わり当あてられたデータに対たいして並列へいれつ的てきに演算えんざんを行おこなうスタイルとなる^[31]。またWarp単位たんい内ないにおける各かくスレッドはすべて同一どういつの命令めいれいを実行じっこうする（SIMT（英語えいご版ばん））^[62]。基本きほん概念がいねんとしてはAMDのVLIWやGraphics Core NextといったGPUアーキテクチャにおいても同様どうようである。

しかし、このGPGPUプログラミングが特とくに従来じゅうらい型がたのCPUプログラミングと異ことなる点てんは、共有きょうゆうメモリ（shared memory、シェアードメモリ）の存在そんざいである。共有きょうゆうメモリは小しょう容量ようりょうだが高速こうそくで、ユーザープログラマーが明示めいじ的てきに管理かんりできるキャッシュメモリ（≒L1キャッシュ）の仕組しくみを果はたし、複数ふくすうのコアでデータを共有きょうゆう・交換こうかんする目的もくてきに使用しようできる。なお各かくAPIにおいては、CUDAは共有きょうゆうメモリ、OpenCLはローカルメモリ、DirectComputeはグループ共有きょうゆうメモリ^[63]、そしてC++ AMPはタイル静的せいてきメモリ^[64]という名称めいしょうで、それぞれ同等どうとう機能きのうを備そなえている。

例たとえばFermi/Keplerマイクロアーキテクチャでは、1SMXあたり最大さいだい48KBの共有きょうゆうメモリを使用しようできるが^[65]、外部がいぶにあるDRAMにキャッシュなしでアクセスする場合ばあいと比くらべて、共有きょうゆうメモリのレイテンシは（スレッド間あいだのバンクコンフリクトがないかぎり）100倍ばい小ちいさくなる。そのため、複数ふくすうのスレッドから参照さんしょうされるデータの一時いちじ書かき込こみ場所ばしょとして共有きょうゆうメモリを活用かつようすることにより、高速こうそくな並列へいれつアルゴリズム（たとえば高速こうそくに総和そうわを求もとめる並列へいれつリダクションなど）や、GPUプログラミングにおける高速こうそく化かに必要ひつようなコアレスアクセス（≒シーケンシャルアクセス）を実現じつげんすることができるとNVIDIAは説明せつめいしている^[66]。しかしながら、最大さいだいでも48KBしかない共有きょうゆうメモリというハードウェア制約せいやくがアルゴリズムの幅はばに制限せいげんをかけるため、共有きょうゆうメモリの存在そんざいはGPUプログラミングの難むずかしさにもつながってしまう。また、共有きょうゆうメモリに読よみ書かきする際さい、スレッド間あいだの同期どうきをとるための処理しょりもプログラマーが明示めいじ的てきに記述きじゅつする必要ひつようがある。

なお、インテルCPUのL2キャッシュメモリはL1キャッシュメモリに比くらべて容量ようりょうが大おおきく、またプロセッサコア側がわに直結ちょっけつされているが、NVIDIA GPUのL2キャッシュメモリはL1キャッシュメモリに比くらべて容量ようりょうがほとんど変かわらず、またメモリ側がわに直結ちょっけつされているなど、データアクセス傾向けいこうの違ちがいがハードウェア設計せっけい思想しそうの違ちがいにも反映はんえいされており、単純たんじゅんにキャッシュメモリの容量ようりょうだけを比較ひかくして性能せいのうの優劣ゆうれつを決きめることはできない^[67] ^[68] ^[69]。

接続せつぞくバスの速度そくど

コンピュータのマザーボードとdGPUを接続せつぞくするPCI Express規格きかくは、CPU-システムメモリ間あいだやGPU-ビデオメモリ間あいだと比くらべてはるかに帯域たいいき幅はばが狭せまく、安易あんいにGPGPUを導入どうにゅうしようとするとデータ転送てんそうがボトルネックとなって逆ぎゃくに性能せいのうの低下ていかを招まねいてしまう可能かのう性せいもありうる^[70]。この点てんに関かんしては、NVIDIAが開発かいはつした独自どくじのインターコネクト技術ぎじゅつであるNVLink^[71] ^[72]などの解決かいけつ策さくが模索もさくされている。

開発かいはつおよびチューニングの難むずかしさと移植いしょく性せい

2015年ねん現在げんざい、GPGPU対応たいおうプログラムの開発かいはつ環境かんきょう・APIとして代表だいひょう的てきなものはCUDA、OpenCL、およびDirectComputeであり、GPGPU黎明れいめい期きの開発かいはつ環境かんきょうに比くらべればはるかに開発かいはつしやすくなっている^[73]ものの、依然いぜんとしてアクセラレーターとなるハードウェアを意識いしきしたGPGPU特有とくゆうのプログラミング知識ちしきが不可欠ふかけつである。また、規格きかくによってある程度ていど標準ひょうじゅん化か・抽象ちゅうしょう化かされているとはいえ、いずれもデバイスとの通信つうしんを行おこなうローレベルのAPIを使つかいこなさなければならないなど、通常つうじょうの C/C++ や Fortran を用もちいたソフトウェア開発かいはつとは次元じげんの異ことなる難むずかしさがあり、導入どうにゅうのハードルが高たかい。特とくに OpenCL と DirectCompute はハードウェアに共通きょうつうにアクセスできる API を規定きていしているだけであり、CUDAよりもさらにローレベルの抽象ちゅうしょう度どである。この点てんに関かんしては、アクセラレーターの存在そんざいを抽象ちゅうしょう化かし、従来じゅうらいのCPUベース並列へいれつプログラミング用ようの共通きょうつう規格きかく OpenMP に近ちかい高こうレベルプログラミング環境かんきょうを提供ていきょうする OpenACC や C++ AMP といった規格きかくも徐々じょじょに整備せいびされつつある^[74]。

CPU上じょうで動作どうさするプログラムは組くみ込こみ環境かんきょうを除のぞき、ライブラリも含ふくめて高こうレベルに洗練せんれんされた開発かいはつ環境かんきょうが整ととのっていることが多おおい。例たとえばC++、Java、C#言語げんごなどの代表だいひょう的てきな高級こうきゅう言語げんごでは、単純たんじゅんな連続れんぞくメモリの配列はいれつ構造こうぞうだけでなく、リンクリスト・二分にぶん探索たんさく木き・ハッシュテーブルといった基本きほん的てきなデータ構造こうぞうはプログラミング言語げんご標準ひょうじゅんライブラリで提供ていきょうされていることがほとんどだが、GPUプログラミングの場合ばあいは高速こうそくに処理しょりできないという理由りゆうから^{[要よう出典しゅってん]}基本きほん的てきには配列はいれつ構造こうぞうしか用意よういされていない。フォトンマッピング手法しゅほうの開発かいはつ者しゃであるWann Jensen博士はかせによると、複雑ふくざつなデータ構造こうぞうをGPU上じょうで扱あつかおうとするとCPUよりもはるかに困難こんなんとなる場合ばあいが多おおいと評ひょうされている^[75]。他ほかにも、GPUプログラミング言語げんごであるHLSL、GLSL、およびOpenCL CではC++テンプレートのようなジェネリックプログラミング機能きのうがサポートされないため、生産せいさん性せいが低ひくい。なおBLASやFFTに関かんしては、NVIDIAによるCUDA実装じっそうのcuBLAS^[76]やcuFFT^[77]、およびAMDによるOpenCL実装じっそうのclMath (clBLAS, clFFT) ^[78]が存在そんざいする。そのほか、二分にぶん探索たんさく、ソート、リダクション、スキャンといったよく使つかわれるアルゴリズムに関かんしては、NVIDIAによるCUDA実装じっそうのC++テンプレートベース並列へいれつアルゴリズムライブラリThrust^[79]や、AMDによるOpenCL/C++ AMP実装じっそうの同等どうとうライブラリBolt^[80]が存在そんざいするが、両者りょうしゃに互換ごかん性せいはない。

また、GPUで演算えんざんした結果けっかをCPUで読よみ出だして利用りようする場合ばあい、従来じゅうらいアーキテクチャではGPUメモリからCPUメモリへのデータ転送てんそうが必要ひつようとなる。その逆ぎゃくもまた然しかりである。こうしたCPU-GPU間あいだのメモリ転送てんそうにかかる処理しょり時間じかんおよびプログラミング上じょうの手間てまが、性能せいのうのボトルネックやソフトウェア開発かいはつの難むずかしさにつながるという問題もんだいも抱かかえている。これは物理ぶつり的てきにメモリが分離ぶんりされているdGPUとCPUによる構成こうせいだけでなく、従来じゅうらい型がたのオンボードグラフィックスやCPU内蔵ないぞうGPUといった、物理ぶつりメモリを共有きょうゆうする構成こうせいにおいても同様どうようである。CUDA^[81]やOpenCL^[82]にはソフトウェア（ドライバー）レベルでこの転送てんそうの手間てまを解決かいけつする仕組しくみとして統合とうごうメモリ (unified memory) 機能きのうや共有きょうゆう仮想かそうメモリ (shared virtual memory) 機能きのうが用意よういされてはいるが、あくまでメモリ空間くうかんのアドレッシングを仮想かそう化かして転送てんそう処理しょりを自動じどう化かするだけの仕組しくみであり、アプリケーションプログラマーが明示めいじ的てきに転送てんそう処理しょりを記述きじゅつしてチューニング・最適さいてき化かする場合ばあいと比くらべてパフォーマンス上じょうの問題もんだいもある^[83]。この点てんに関かんしては、AMDが推進すいしんしているHSA (Heterogeneous System Architecture)^[84] におけるhUMA (heterogeneous Uniform Memory Access) といった解決かいけつ策さくが模索もさくされている。

GPGPUプログラムの移植いしょく性せいに関かんしては、CUDAはNVIDIAハードウェア専用せんようであり、また DirectCompute (DirectX) はMicrosoftプラットフォーム（Microsoft Windows、Xbox Oneなど）専用せんようという制約せいやくがある。一方いっぽうでOpenCLは、GPUだけでなく対応たいおうするあらゆるハードウェア・あらゆるプラットフォームへ展開てんかいできる高たかい移植いしょく性せいを持もっているが、性能せいのうに関かんするポータビリティは必かならずしも確保かくほ・保証ほしょうされず、場合ばあいによってはデバイスやチップごとにコードをチューニングする必要ひつようがある^[85]^[86]^[87]。

適合てきごう分野ぶんや

GPGPUで性能せいのうが向上こうじょうするアプリケーションの例れいとして、下記かきが挙あげられる。

数値すうち計算けいさん
- シミュレーション
暗号あんごう解読かいどく
- 暗号あんごう通貨つうかの採掘さいくつ
音声おんせい処理しょり
CT再さい構築こうちく
データベース処理しょり
市況しきょう分析ぶんせき
機械きかい学習がくしゅう（ニューラルネットワークなど行列ぎょうれつ計算けいさんによるもの）
- ディープラーニング
最適さいてき化か問題もんだい（DRAMにコアレスアクセスするもの）
グラフィックス用途ようとでの汎用はんよう計算けいさん^{[注釈ちゅうしゃく 7]}^{[注釈ちゅうしゃく 8]}

実際じっさいの演算えんざん内容ないようとしては、行列ぎょうれつ演算えんざん、配列はいれつのリダクション、およびフーリエ変換へんかんなどが挙あげられる。

変かわった例れいではカスペルスキー・ラボが現在げんざい^[いつ?]Radeon HD 2900で行おこなっている実証じっしょう試験しけんとして、GPUのパワーを使つかってセキュリティソフトによる大おおまかなセキュリティチェックを行おこなう機能きのうを開発かいはつしている。これによりCPUへの負担ふたんを減へらすことができるとしている[5]。

一方いっぽうで、大量たいりょうの条件じょうけん分岐ぶんきが伴ともなう創そう薬やく研究けんきゅうや遺伝子いでんし解析かいせきのような用途ようとにはスカラー計算けいさん機きが適てきしており、ベクトル計算けいさん機きやGPGPUベースの計算けいさん機きには向むかないとされている^[90]。

実用じつようソフトウェアの登場とうじょう

GPGPU技術ぎじゅつの話題わだいは、コンピュータ（特とくに資源しげんやスペースの制約せいやくが強つよいパーソナルコンピュータ）の進化しんかにおいて2000年代ねんだい中盤ちゅうばんまでのトレンドであり課題かだいであった。しかし、デモンストレーションばかりが先行せんこうし、実際じっさいに活用かつようできるソフトウェアが発売はつばいされることはなかった。そもそも、CUDAやOpenCLなどの汎用はんようAPIや、それらに対応たいおうするDirectX 10世代せだいの統合とうごう型がたシェーダーアーキテクチャGPUが出現しゅつげんするまでは、GPGPU開発かいはつ環境かんきょうは制約せいやくの強つよいリアルタイムグラフィックス向むけのAPIやシェーディング言語げんごを直接ちょくせつ利用りようしたものか、もしくは研究けんきゅう機関きかんが独自どくじ開発かいはつした固有こゆうのプログラミング言語げんご基盤きばんであり、ハードルも高たかく、決けっして開発かいはつ効率こうりつや再さい利用りよう性せいが良よいとは言いえなかった^[91] ^[92]。

2008年ねん秋あきから、S3がGPUを利用りようしたGPGPU用よう写真しゃしん修正しゅうせいソフトウェア「S3FotoPro」を発表はっぴょう^[93]、また動画どうが編集へんしゅう加工かこうソフトでは動画どうがエンコードソフトの代表だいひょう格かくであるTMPGEncがCUDAに対応たいおうした^[94]ことを皮切かわきりに、サイバーリンクのPowerDirector 7がCUDAとATI Streamに対応たいおうした^[95]。さらに、2009年ねんにはSuper LoiLoScope (Pixel Shader 2.0を活用かつよう) が発売はつばい^[96]、サイバーリンクがMediaShow Espresso (CUDAとATI Streamに対応たいおう) を発売はつばいしている。GPGPUを利用りようした無料むりょうで利用りよう可能かのうな動画どうがエンコードソフトとして、AMDのATI AVIVO (完全かんぜん無料むりょう) やNvidiaのBadaboom (30日間にちかん無料むりょう体験たいけん版ばん) 、MediacoderのCUDAエンコーダが挙あげられる。

米べいアドビはCreative Suite 4 (CS4) の一部いちぶ製品せいひんにおいてCUDAベースのGPUアクセラレーションをサポートしていたが^[97]、2010年ねん5月がつ28日にちに発売はつばい^[98]したCreative Suite 5 (CS5) においてGPGPUを正式せいしきにサポートした^{[要よう出典しゅってん]}。CS5はOpenCLベースで開発かいはつされており、ほとんどすべての機能きのうにおいて^{[要よう出典しゅってん]}GPGPUによる演算えんざんを行おこなうことができる。本来ほんらいGPUは画像がぞう処理しょりを得意とくいとするため、画像がぞう処理しょりを主体しゅたいとする同社どうしゃのアプリケーションへの適性てきせいは高たかい。また、After Effects CCでは、レイトレーシングエンジンにNVIDIA OptiX（英語えいご版ばん）を採用さいようしている^[99]。その他たにも、V-Rayなど、レイトレーシングのアクセラレータとしてGPUを活用かつようしているレンダラーが存在そんざいする^[100]。AMDもOpenCLベースのレイトレーシングエンジンとして、Radeon ProRender (旧称きゅうしょうAMD FireRender) を開発かいはつ・公開こうかいしている^[101] ^[102] ^[103]。

オープンソースの統合とうごう型がた3DCG作成さくせいソフトウェアBlenderでは、GIレンダリングエンジンであるCyclesにおいてNVIDIA CUDAによるGPUレンダリングが可能かのうとなっている。なお、バージョン2.6時じ点てんではOpenCLによるGPUレンダリングも試験しけん的てきに実装じっそうが進すすめられている^[104]。また、Autodesk 3ds Maxサブスクリプションなどに搭載とうさいされている物理ぶつりベースのGIレンダリングエンジンであるNVIDIA Irayでは、CUDAベースのGPUアクセラレーションが行おこなわれる^[105] ^[106] ^[107]。

その他た、ビットコインをはじめとした暗号あんごう通貨つうかの採掘さいくつ処理しょりにもGPUが使つかわれている^[108]。

このように、学術がくじゅつ・研究けんきゅう目的もくてきや産業さんぎょう用途ようと以外いがいにも、一般いっぱん的てきなプロダクション向むけ・コンシューマー向むけに関かんしてもGPGPU技術ぎじゅつを利用りようしたソフトウェアが登場とうじょうしており、GPGPUを一般いっぱんの利用りよう者しゃが活用かつようできる環境かんきょうが整ととのってきたといえる。しかし、万能ばんのうに処理しょりをこなすCPUと比較ひかくして、GPUはピーキーな特性とくせいを持もち、ソフトウェア開発かいはつにおいてはパイプライン処理しょりや並列へいれつ計算けいさん等とうの知識ちしきだけでなく、ハードウェア仕様しようおよびAPIの知識ちしきも必要ひつようになるため、未いまだにGPGPU活用かつようのノウハウが一般いっぱん化かしたとは言いい難がたいという面めんもある。しかし、そうした特別とくべつな専門せんもん知識ちしきを要求ようきゅうされる実装じっそうについてはライブラリ，フレームワーク，処理しょり連携れんけい先さきとなるソフトウェアの背後はいごに隠蔽いんぺいするなど^{[注釈ちゅうしゃく 9]}して、一般いっぱん的てきなアプリケーションを開発かいはつするソフトウェア技術ぎじゅつ者しゃが内部ないぶの詳細しょうさいを意識いしきすることなくGPGPUによる高速こうそく化かを利用りようできるような配慮はいりょも行おこなわれている。

脚注きゃくちゅう

[脚注きゃくちゅうの使つかい方かた]

注釈ちゅうしゃく

^ 処理しょりを行おこなうCPUと、データを置おくメインメモリの間あいだのバスの速度そくどがコンピュータ全体ぜんたいの計算けいさん性能せいのうの上限じょうげんを規定きていすることをフォン・ノイマン・ボトルネックと言いう。GPUとメインメモリについても同様どうようのボトルネックが発生はっせいするため欠点けってんとして挙あげている。
^ つまり、固定こてい長ちょうベクトル命令めいれいしか扱あつかえず、固定こてい長ちょうレジスタの長ながさに一致いっちしない端はし数すうのデータについて別途べっと考慮こうりょが必要ひつようになるという問題もんだいが発生はっせいする。伝統でんとう的てきにスーパーコンピュータで多用たようされてきた専用せんよう設計せっけいのベクトルプロセッサであれば可変長かへんちょうベクトル命令めいれいが扱あつかえ、端はし数すうのデータに対たいして別途べっと考慮こうりょする必要ひつようがない上うえに効率こうりつよく計算けいさんが行おこなえるため、GPUが採用さいようする固定こてい長ちょうレジスタは欠点けってんとなる。
^ 疎行列そぎょうれつにアクセスする際さいに行おこなわれる、巨大きょだいな配列はいれつデータを大域たいいき的てきにインデックス参照さんしょうで引ひいてくるランダムメモリアクセスを多用たようする操作そうさは、一般いっぱん的てきなスカラ型がたのCPUやGPGPUにとってはフォン・ノイマン・ボトルネックにより苦手にがてな処理しょりとなる。
^ NVIDIAのRTX30シリーズでは単精度たんせいどと倍精度ばいせいどで演算えんざん器きの個数こすうに64倍ばいの差さがあり、理論りろん上じょうの倍精度ばいせいどの演算えんざん性能せいのうも単精度たんせいどの1/64となる^[47]
^ 例たとえばGPGPU向むけのTesla P100では半はん精度せいどでの演算えんざん性能せいのうが2倍ばいになるよう設計せっけいされている^[49]
^ NVIDIA Ampere A100など
^ Direct X9以前いぜんのシェーダーは固定こてい機能きのうの演算えんざんを提供ていきょうするものであったが、DirectX 10以降いこうのDirectComputeAPIではGPUをゲームなどでの汎用はんよう的てきな計算けいさんに用もちいることが可能かのうなコンピュートシェーダーが利用りようできる。^[88]。
^ 例れいとしてゲームエンジンのUnreal Engine 4やLuminous StudioのパーティクルシステムにおいてGPGPU技術ぎじゅつの利用りようがある ^[89]。
^ 例たとえばOpenACCやOpenMPなどを用もちいると並列へいれつ処理しょり用ように書かかれていない通常つうじょうのC言語げんごのソースに対たいして指示しじ行ぎょうを追加ついかすることでGPUに処理しょりをオフロードすることが可能かのうである^[109]

出典しゅってん

^ GPGPU | ビジネスパートナー | 東芝とうしばデジタルメディアエンジニアリング株式会社かぶしきがいしゃ
^ GPGPUソリューション | HPCシステムズはすべての研究けんきゅう開発かいはつ者しゃに計算けいさん力りょくを提供ていきょうします。
^ Hisa Ando 2017, p. 19.
^ 株式会社かぶしきがいしゃインプレス (2016年ねん10月がつ6日にち). “【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】 NVIDIA次世代じせだいSoC「Xavier」は進化しんか版ばんDenverとVoltaを搭載とうさい”. PC Watch. 2023年ねん6月がつ19日にち閲覧えつらん。
^ “プロセッサ開発かいはつのセンス～第だい4回かいベクトル・プロセッサ～ | 株式会社かぶしきがいしゃエヌエスアイテクス（NSITEXE,Inc.）” (2023年ねん2月がつ22日にち). 2023年ねん6月がつ18日にち閲覧えつらん。
^ ^a ^b “「ベクトル型がたスパコンは高たかすぎる」、GPU利用りようのHPCが本格ほんかく化か－＠IT”. atmarkit.itmedia.co.jp. 2023年ねん6月がつ21日にち閲覧えつらん。
^ 西川にしかわ善よし司し (2019). ゲーム制作せいさく者しゃになるための3Dグラフィックス技術ぎじゅつ改訂かいてい3版はん. インプレス. p. 76. ISBN 978-4295007869
^ Hisa Ando 2017, p. 213.
^ 2005年ねんからNVIDIAに所属しょぞくしており、CUDAを考案こうあんするなどGPGPUの第だい1人ひとり者しゃとして業界ぎょうかいを牽引けんいんしている。
^ ^a ^b “Ian Buck | Research Projects”. graphics.stanford.edu. 2023年ねん5月がつ30日にち閲覧えつらん。
^ ^a ^b published, Alan Dang (2009年ねん9月がつ3日にち). “Exclusive Interview: Nvidia's Ian Buck Talks GPGPU” (英語えいご). Tom's Hardware. 2023年ねん5月がつ30日にち閲覧えつらん。
^ ASCII. “業界ぎょうかいに痕跡こんせきを残のこして消ぎえたメーカー CG業界ぎょうかいを牽引けんいんしたSGI (1/4)”. ASCII.jp. 2023年ねん5月がつ30日にち閲覧えつらん。
^ “Ray Tracing on Programmable Graphics Hardware”. graphics.stanford.edu. 2023年ねん5月がつ30日にち閲覧えつらん。
^ ^a ^b Inc, Aetas. “2009年ねん，本格ほんかく始動しどうするGPGPUの世界せかい・前編ぜんぺん～GPGPUって何なに？”. 4Gamer.net. 2023年ねん5月がつ29日にち閲覧えつらん。
^ 株式会社かぶしきがいしゃインプレス (2022年ねん1月がつ24日にち). “ビデオカードの品薄しなうすと価格かかく高騰こうとうに振ふり回まわされた1年ねん、買かい取とり価格かかくが購入こうにゅう時じより高値たかねになる事ことも～アキバのショップ店員てんいんが語かたる2021年ねんその2 ～”. AKIBA PC Hotline!. 2023年ねん5月がつ30日にち閲覧えつらん。
^ 一いち乘じょう, 宮田みやた; 誠史せいじ, 高橋たかはし; 篤あつし, 黒田くろだ (2005). “Gpuコンピューティングの動向どうこうと将来しょうらい像ぞう”. 芸術げいじゅつ科か学会がっかい論文ろんぶん誌し 4 (1): 13–19. doi:10.3756/artsci.4.13.
^ AMD Radeon™ R9シリーズ・グラフィックス・カード, 2 ops/cycle × 1050 MHz × 4096 cores.
^ AMD FirePro™ S9170サーバーGPU
^ GPGPUのキラーアプリケーションは「グラフィックス」－＠IT
^ 4Gamer.net ― OpenGLはDirectX 11を超こえ，OpenGL ESは据すえ置おき型がたゲーム機きと同等どうとう以上いじょうに。Khronosの最新さいしん動向どうこうレポート
^ PGI GPU用ようアクセラレータコンパイラ情報じょうほうサイト　－　GPU / GPGPU / CUDA 対応たいおう、CUDA Fortran
^ これからの並列へいれつ計算けいさんのためのGPGPU連載れんさい講座こうざ(V) 疎行列そぎょうれつベクトル積せきを題材だいざいとしたCUDA最適さいてき化かプログラミング
^ Harish, Pawan; Narayanan, P. J. (2007). “Accelerating large graph algorithms on the GPU using CUDA”. Lecture Notes in Computer Science (Springer Berlin Heidelberg) 4873: 197-208. doi:10.1007/978-3-540-77220-0_21.
^ 【レビュー】549ドルのGeForce GTX TITAN対抗たいこう馬ば「Radeon R9 290X」をベンチマーク - PC Watch
^ 【4Gamer.net】［特集とくしゅう］「GeForce 8800」のポイントをブロックダイアグラムから探さぐる
^ 【4Gamer.net】－西川にしかわ善よし司しの3Dゲームエクスタシー－ ATI, Radeon X1000シリーズ発表はっぴょうでSM3.0世代せだいに突入とつにゅう
^ 【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】GTCの目玉めだまの1つ「Tegra 4/4i」のCPUアーキテクチャ
^ Kepler GPUアーキテクチャとプログラム最適さいてき化か (2) GPUはどうやって命令めいれいを処理しょりしているのか | マイナビニュース
^ 【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】PlayStation 4で採用さいようされたAMDのGCNアーキテクチャ
^ コンピュータアーキテクチャの話はなし (322) GPUが用もちいるメモリのアクセス時間じかんの短縮たんしゅく方法ほうほう | マイナビニュース
^ ^a ^b 第だい５回かい　GPUの構造こうぞう | G-DEP
^ 4Gamer.net ― 「GeForce GTX TITAN」登場とうじょう。500円えん玉だまより大おおきなモンスターGPUの“性能せいのう以外いがい”を徹底てってい解説かいせつ
^ AMD、R580コアをベースにしたHPC専用せんようプロセッサ「Stream Processor」 | マイナビニュース
^ AMDのGPGPU戦略せんりゃくは新しん章しょうへ - ATI Streamの展望てんぼう、DirectX Compute Shaderの衝撃しょうげき (1) Radeon HD 4000シリーズでネイティブGPGPU | マイナビニュース
^ AMD's RV670 does double-precision at half the speed | TG Daily
^ AMD FireStream™9250 - FirePro Server - 製品せいひん情報じょうほう - 株式会社かぶしきがいしゃエーキューブ
^ AMD FirePro S9100 - FirePro Server - 製品せいひん情報じょうほう - 株式会社かぶしきがいしゃエーキューブ
^ AMD FirePro S9150 - FirePro Server - 製品せいひん情報じょうほう - 株式会社かぶしきがいしゃエーキューブ
^ NVIDIA Tesla C1060 - 株式会社かぶしきがいしゃ日本にっぽんコンピューティングシステム
^ Tesla C2050 / C2070 GPUコンピューティングプロセッサ
^ NVIDIA TESLA C2050 - 株式会社かぶしきがいしゃエルザジャパン
^ 4Gamer.net ― NVIDIA，Keplerベースの新しん世代せだいTeslaを発表はっぴょう。「GK110」コア採用さいようの「Tesla K20」が年内ねんないに登場とうじょう予定よてい
^ NVIDIA Tesla K20 | 株式会社かぶしきがいしゃエルザジャパン
^ NVIDIA、最さい上位じょういGPUアクセラレータ「Tesla K40」を発表はっぴょう | マイナビニュース
^ SC14 - NVIDIAが最さい上位じょういの科学かがく技術ぎじゅつ計算けいさん用ようGPU「Tesla K80」を発表はっぴょう | マイナビニュース
^ “サーバー用ようのGPUアクセラレーター、Tesla K40 と Tesla K80”. NVIDIA Corporation. 2015年ねん10月がつ28日にち閲覧えつらん。
^ “西川にしかわ善よし司しの3DGE：GeForce RTX 30シリーズのアーキテクチャを探さぐる。CUDA Coreの増量ぞうりょうとRT Coreの高性能こうせいのう化かに注目ちゅうもくだ”. 4Gamer. 2023年ねん6月がつ21日にち閲覧えつらん。
^ 大原おおはら雄介ゆうすけ (2015年ねん3月がつ18日にち). “【レビュー】NVIDIA GeForce GTX TITAN Xを試ためす - Maxwell世代せだいの新しんフラグシップGPUの実力じつりょくを探さぐる (13) ベンチマーク結果けっか「Basemark CL v1.1」”. マイナビニュース. 2015年ねん11月26日にち閲覧えつらん。
^ “【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】コンピューティングとグラフィックスへ分化ぶんかするNVIDIA GPU - PC Watch”. 2023年ねん6月がつ20日はつか閲覧えつらん。
^ Hisa Ando 2017, p. 148,150.
^ Hisa Ando 2017, p. 304.
^ Hisa Ando 2017, p. 306.
^ 後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース: GeForce GTX 280の倍精度ばいせいど浮動ふどう小数点しょうすうてん演算えんざん
^ 4Gamer.net ― AMD，世界せかい初はつのDX11 GPU「ATI Radeon HD 5800」を発表はっぴょう。HD 4800の大幅おおはばな進化しんか形がた
^ 4Gamer.net ― 「ATI Radeon HD 5800」徹底てってい分析ぶんせき（3）～3Dグラフィックスに特とく化かしたAMD
^ 科学かがく技術ぎじゅつ計算けいさん向むけ演算えんざん能力のうりょくが引ひき上あげられたGPUアーキテクチャ「Fermi」 (2) 科学かがく技術ぎじゅつ計算けいさん向むけのさまざまな工夫くふう | マイナビニュース
^ GTC 2014 - GPUの浮動ふどう小数点しょうすうてん演算えんざんの精度せいど:理論りろんと実践じっせん(前編ぜんぺん) | マイナビニュース
^ ハイブリッドアーキテクチャでスパコン市場いちばに挑いどむNVIDIA - 後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース（PC Watch, Impress社しゃ、2012年ねん4月がつ16日にち配信はいしん、2012年ねん4月がつ16日にち閲覧えつらん）
^ How to Access Global Memory Efficiently in CUDA C/C++ Kernels | Parallel Forall
^ 【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】NVIDIA新しん世代せだいGPU「Maxwell」のSMアーキテクチャ - PC Watch
^ 【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】 AMDの新しんGPUアーキテクチャ「Graphics Core Next」の秘密ひみつ
^ NVIDIA GPUの構造こうぞうとCUDAスレッディングモデル
^ Variable Syntax (Windows)
^ tile_static Keyword
^ 高速こうそく演算えんざん記き第だい25回かい「Kepler解説かいせつその2 〜Kepler世代せだいの新しん機能きのう〜」 | G-DEP
^ Using Shared Memory in CUDA C/C++ | Parallel Forall
^ コンピュータアーキテクチャの話はなし (336) CPUと異ことなるGPUにおけるコアと2次じキャッシュの関係かんけい性せい | マイナビニュース
^ コンピュータアーキテクチャの話はなし (337) 実じつはそれほど速はやくはないGPUのメモリアクセス時間じかん | マイナビニュース
^ 「Skylake-K」とはいかなるCPUなのか。「Core i7-6700K」ベンチマークで新しん世代せだいマイクロアーキテクチャの実態じったいを探さぐる - 4Gamer.net
^ 【1カ月かげつ集中しゅうちゅう講座こうざ】骨ほねまで理解りかいするPCアーキテクチャ(GPU編へん) 第だい4回かい～GPGPU性能せいのう引ひき上あげのカギとなるCPUとGPUの連携れんけい - PC Watch
^ 【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】NVIDIAの次期じきGPU「Pascal」の概要がいよう - PC Watch
^ ［GTC 2016］西川にしかわ善よし司しの3DGE：Teslaとして登場とうじょうした新しん世代せだいGPU「Pascal」，その詳細しょうさいに迫せまる - 4Gamer.net
^ » アクセラレータプログラミングの未来みらい
^ 4Gamer.net ― 見みえてきたAMDの次世代じせだいGPUアーキテクチャ。なぜAMDはVLIWを捨すてるのか
^ レンダリング手法しゅほうについて-CPU or GPU? | KeyShot™総合そうごうサイト
^ cuBLAS - NVIDIA CUDA ZONE
^ cuFFT - NVIDIA CUDA ZONE
^ clMath - AMD
^ Thrust - NVIDIA CUDA ZONE
^ Bolt C++ Template Library - AMD
^ スパコン最大さいだいの学会がっかい「SC13」に見みる先端せんたん技術ぎじゅつ (5) SC13 - CPU-GPU統一とういつメモリを実現じつげんしたCUDA 6(後編こうへん) | マイナビニュース
^ OpenCL* 1.2 の活用かつよう: インテル® プロセッサー・グラフィックスでバッファーコピーを最小限さいしょうげんに抑おさえてパフォーマンスを向上こうじょうする方法ほうほう | iSUS
^ NVIDIA CUDA 6.0 Unified Memory Performance | Acceleware Ltd.
^ 【後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース】AMD、新しんGPU「Tonga」がHSAの最終さいしゅう形がたであることを明あきらかに - PC Watch
^ » コンパイラ、そしてもっと：アクセラレーター・プログラミング
^ KAKEN - GPUによるFFT計算けいさんの自動じどうチューニング手法しゅほうの研究けんきゅう(22680002) - 2011年度ねんど研究けんきゅう実績じっせき報告ほうこく書しょ
^ GPUとXeon Phi、どちらが計算けいさん処理しょりアクセラレータに最適さいてきか? - 実際じっさいの実行じっこう性能せいのうを比較ひかくするワークショップを首都しゅと大学だいがく東京とうきょうが開催かいさい (4) アクセラレータの課題かだいと問題もんだい点てんが語かたられたパネルディスカッション | マイナビニュース
^ 清原きよはら隆行たかゆき『HLSL シェーダーの魔ま導しるべ書しょシェーディングの基礎きそからレイトレーシングまで』翔しょう泳およげ社しゃ、2021年ねん6月がつ9日にち、454頁ぺーじ。ISBN 978-4798164281。
^ 西川にしかわ善よし司し (2019). ゲーム制作せいさく者しゃになるための3Dグラフィックス技術ぎじゅつ改訂かいてい3版はん. インプレス. p. 44. ISBN 978-4295007869
^ ベクトル型がたスパコンの存在そんざい意義いぎ――地球ちきゅうシミュレータのいま (1/2) - ITmedia エンタープライズ
^ "これからの並列へいれつ計算けいさんのためのGPGPU連載れんさい講座こうざ(I) GPUとGPGPUの歴史れきしと特徴とくちょう", 東京大学とうきょうだいがく情報じょうほう基盤きばんセンター, 大島おおしま聡史さとし
^ SIGGRAPH 2005 - GPUをCPU的てきに活用かつようするGPGPUの可能かのう性せい (5) GPGPU向むけプログラミング言語げんごの登場とうじょうが始はじまる | マイナビニュース
^ [1]
^ [2]
^ [3]
^ [4]
^ 4Gamer.net ― NVIDIA製せいGPUが「Photoshop」「After Effects」「Premiere Pro」の最新さいしん版ばん「CS4」アクセラレーションをサポート。ムービーでその効果こうかをチェック
^ ZDNet Japan Staff (2010年ねん4月がつ12日にち). “アドビ、クリエイティブ製品せいひんの最新さいしん版ばん「CS5」を5月28日にちに一斉いっせい発売はつばい”. CNET Japan. 2010年ねん8月がつ18日にち閲覧えつらん。
^ GPU changes (for CUDA and OpenGL) in After Effects CC (12.1) | After Effects region of interest
^ GPUレイトレーシング | NVIDIA
^ ［SIGGRAPH 2014］NVIDIAがゲーム向むけのリアルタイム大局たいきょく照明しょうめい，IntelはHaswell用ようDX12ドライバのデモを一般いっぱん展示てんじセクションで披露ひろう - 4Gamer.net
^ AMDは新しんGPU「Radeon Pro」を，NVIDIAは360度どビデオ用ようSDKをアピール。プロセッサメーカーによる「SIGGRAPH 2016」の展示てんじをレポート - 4Gamer.net
^ Radeon ProRender Technology - AMD
^ Doc:JA/2.6/Manual/Render/Cycles/GPU Rendering - BlenderWiki
^ NVIDIA iray | NVIDIA
^ NVIDIA iray - Design Rendering with CUDA Parallel Processing | NVIDIA
^ NVIDIA Advanced Rendering: NVIDIA Iray
^ Bitcoinマイニングはまさに軍拡ぐんかく競争きょうそう、素人しろうとお断ことわりの現状げんじょうとは？ - GIGAZINE
^ Hisa Ando 2017, p. 232.

参考さんこう文献ぶんけん

Hisa Ando『［増補ぞうほ改訂かいてい］GPUを支ささえる技術ぎじゅつ』技術評論社ぎじゅつひょうろんしゃ、2017年ねん7月がつ13日にち。ISBN 978-4-297-11954-6。