ヘテロジニアス・コンピューティング

ヘテロジニアス・コンピューティング (heterogeneous computing) は、異ことなる種類しゅるいのプロセッサを組くみ合あわせて構築こうちくしたコンピュータシステム上じょうで演算えんざんを行おこなうことである。用途ようとに応おうじて適てきしたプロセッサに処理しょりを分担ぶんたんさせることによって全体ぜんたい的てきな効率こうりつを高たかめる^[1]。

通常つうじょう、異種いしゅ的てき（ヘテロジニアス）なプロセッサ環境かんきょうでは異ことなる複数ふくすうの命令めいれいセットアーキテクチャ (ISA) を使用しようする。また、副ふくプロセッサは主しゅプロセッサとは大おおきく異ことなるアーキテクチャである。それゆえ、ヘテロジニアス環境かんきょう向むけソフトウェアの開発かいはつ・実装じっそうには高たかい技術ぎじゅつが必要ひつようとなる。

異種いしゅ性せい

一般いっぱん的てきにコンピューティングの文脈ぶんみゃくにおいて^[いつ?]異ことなる命令めいれいセットアーキテクチャ (ISA) のことを言及げんきゅうする「異種いしゅ性せい」とは、単たんに異ことなるマイクロアーキテクチャを持もつのではなく（例たとえば浮動ふどう小数点しょうすうてんの数値すうち処理しょりはこの特殊とくしゅ例れいであり異種いしゅ性せいと呼よばれることは稀まれ）、メインプロセッサがあるアーキテクチャを持もち、他たのプロセッサが別べつの（普通ふつうは非常ひじょうに異ことなり、複数ふくすうの場合ばあいもある）アーキテクチャを持もつ、ということを意味いみする。

かつて^[いつ?]のヘテロジニアス・コンピューティングでは異ことなるISAを異ことなる方法ほうほうで処理しょりしなければならないことを意味いみしていたが、今いま^[いつ?]では例たとえば、ヘテロジニアス・システム・アーキテクチャ（HSA）システムが存在そんざいし^[2]、同おなじ集積しゅうせき回路かいろ上うえなどにある複数ふくすうの種類しゅるいのプロセッサ（CPUとGPUなど^[3]）を使用しようする際さいの（ユーザーにとっての）違ちがいを解消かいしょうしながら、両者りょうしゃの長所ちょうしょを提供ていきょうする：CPUでオペレーティングシステムを走はしらせて従来じゅうらいの直列ちょくれつタスクを実行じっこうしながら、汎用はんようGPU処理しょりを行おこなうなど（GPUはよく知しられる3Dグラフィックスレンダリングの他ほかに、非常ひじょうに大おおきなデータセットに対たいする数学すうがく的てきに集中しゅうちゅうされた計算けいさんを行おこなうことができる）。

モダンなコンピューティングシステムでは製造せいぞう技術ぎじゅつの向上こうじょうによって以前いぜんの個別こべつ部品ぶひんがシステム・オン・チップ (SoC) へと統合とうごうされるようになり、異種いしゅ性せいのレベルが次第しだいに高たかまっている^{[要よう出典しゅってん]}。例たとえば多おおくの新あたらしいプロセッサには他たのデバイス（SATA、PCI、イーサネット、USB、RFID、無線むせん、UART、メモリコントローラ）と接続せつぞくするための組くみ込こみ回路かいろが含ふくまれているほか、プログラマブル機能きのうユニットやハードウェアアクセラレータ（GPU、暗号あんごうコプロセッサ、プログラマブルネットワークプロセッサ、A/Vエンコーダ/デコーダなど）も搭載とうさいされている。

最近さいきん^[いつ?]の研究けんきゅうでは、複数ふくすうのISAにより提供ていきょうされる多様たよう性せいを利用りようしたヘテロジニアスISAチップのマルチプロセッサが、一番いちばん良よい同一どういつISAホモジニアスのアーキテクチャを21%も上回うわまわり、23%の省しょうエネと32%のエネルギー遅延ちえん積せき（英語えいご版ばん）削減さくげんが可能かのうであることを示しめしている^[4]。AMDが2014年ねんに発表はっぴょうしたピン互換ごかんのARM / x86 SoC、コードネーム「Project Skybridge」^[5]は、ヘテロジニアスISA（ARM+x86）チップのマルチプロセッサが製作せいさく中ちゅうであることを示唆しさしている^{[要よう出典しゅってん]}。

異種いしゅCPUトポロジー

異種いしゅCPUトポロジーのシステムは同どう一いちISAを使用しようするものの、コア自体じたいが異ことなった速度そくどのものとなっているシステムのことである^[6]。この構成こうせいはどちらかというと対称たいしょう型がたマルチプロセッサに似にている（このようなシステムは技術ぎじゅつ的てきには非対称ひたいしょう型がたマルチプロセッサ（英語えいご版ばん）に当あたるものの、コアの役割やくわりやデバイスアクセスには違ちがいが存在そんざいしない）。

このようなトポロジーの一般いっぱん的てきな使用しようはモバイルSoCの電力でんりょく効率こうりつを向上こうじょうさせることにある。ARM big.LITTLEはその典型てんけい例れいであり、高速こうそくで高こう消費しょうひ電力でんりょくなコアと低速ていそくで低てい消費しょうひ電力でんりょくコアが組くみ合あわされている^[7]。Apple Siliconも同様どうようの構成こうせいのARMコアで作つくられている。また、IntelはLakefieldというコードネームのハイブリッドx86コアを製造せいぞうしているが、それには命令めいれいセットの対応たいおうに大おおきな制限せいげんを含ふくんでいる。

また、Alder Lakeも高性能こうせいのうコアと高こう効率こうりつコアを使用しようしている^[8]。

プラットフォームの例れい

ヘテロジニアス・コンピューティングのプラットフォームは、ハイエンドサーバーと高性能こうせいのう計算けいさん機きから携帯けいたい電話でんわやタブレット用ようの低てい消費しょうひ電力でんりょくの素子そしまで、あらゆる領域りょういきで使用しようされる。SoCによる実装じっそう以外いがいにも、例たとえばCPUとGPUを搭載とうさいした汎用はんようコンピュータはヘテロジニアス・コンピューティング環境かんきょうであると言いえる。たとえSoCであっても、異種いしゅプロセッサのメモリ空間くうかんが統合とうごうされているものもあれば、統合とうごうされていないものもある。

高性能こうせいのう計算けいさん
- Cray XD1
- SRC コンピュータ SRC-6 と SRC-7
組くみ込こみシステム (DSP とモバイルプラットフォーム)
再さい構築こうちく可能かのう計算けいさん
- Xilinx Platform FPGAs (Virtex-II Pro, Virtex 4 FX, Virtex 5 FXT) とZynqプラットフォーム
- Intel "Stellarton" (Atom + アルテラ FPGA)
ネットワーク
- Intel IXP ネットワークプロセッサ
- Netronome（英語えいご版ばん） NFP ネットワークプロセッサ
パーソナルコンピュータ向むけ汎用はんようプロセッサ
- AMD APU
- IntelのGPU内蔵ないぞうCPU
- Apple M1 - Macに搭載とうさい
その他た (ゲーム専用せんよう機きなど)
- IBMのCell Broadband Engine - PlayStation 3に搭載とうさい^[9]
  - SpursEngine - IBM Cellプロセッサの派生はせい型がた

プログラミング環境かんきょうの例れい

副ふくプロセッサ (ゲスト) をストリーム・プロセッシングで使つかうものや、主しゅプロセッサ (ホスト) と副ふくプロセッサ (ゲスト) の密みつな連携れんけいが可能かのうなものが存在そんざいする。黎明れいめい期きは独自どくじの専用せんようプログラミング言語げんごを利用りようするなど、実験じっけん的てきなプログラミング環境かんきょうが多数たすう出現しゅつげんしたが、普及ふきゅうが進すすむにつれ、標準ひょうじゅんC/C++あるいはその独自どくじ拡張かくちょうが第だい1級きゅう言語げんごとして選えらばれることが多おおくなっている。

ハードウェアや技術ぎじゅつによって抽象ちゅうしょう化かのレベルや関数かんすうポインタあるいは仮想かそう関数かんすうの使用しよう可否かひ、ホストとゲスト間あいだのUnified Shared Memory (USM) やヘテロジニアス・ユニフォームメモリアクセス (hUMA) への対応たいおうなどが異ことなっている。

現行げんこうの技術ぎじゅつ

OpenCL: Khronos Groupが管理かんり・策定さくていしている並列へいれつコンピューティングのためのクロスプラットフォームなAPI仕様しよう。; 派生はせい規格きかくとして、Webブラウザ上じょうでヘテロジニアス・コンピューティングを行おこなうためのWebCLも標準ひょうじゅんとして策定さくていされているが、2021年ねん3月がつ現在げんざい、ネイティブに対応たいおうしているブラウザは存在そんざいしない。; 当初とうしょAppleを中心ちゅうしんに提唱ていしょうされたが、その後ごAppleプラットフォームでは非ひ推奨すいしょうとなった。
SYCL: Khronos Groupが管理かんり・策定さくていしているヘテロジニアス・コンピューティング向むけの抽象ちゅうしょう化かレイヤー。OpenCLだけでなく、他たのバックエンドにも対応たいおうする。IntelのCPU/GPU/FPGA開発かいはつ環境かんきょうであるoneAPI（英語えいご版ばん）の中心ちゅうしんにもなっている。ISO C++との互換ごかん性せいが考慮こうりょされている^[10]。; CUDAコードをSYCLコードへと変換へんかんするツールSYCLomaticもオープンソースとして提供ていきょうされている^[11]。
CUDA (Compute Unified Device Architecture): NVIDIAによるGeForce / Quadro / Tesla / TegraシリーズGPU用ようのGPGPU開発かいはつ・実行じっこう環境かんきょう。C言語げんごを拡張かくちょうしたCUDA Cによる開発かいはつを可能かのうにする（Ver.2.2以降いこうはC++言語げんごを拡張かくちょうしたCUDA C++による開発かいはつも可能かのうとなっている）。NVIDIAによるコンパイラ実装じっそうnvccだけでなく、オープンソースコンパイラのLLVMでもCUDAコンパイラの実装じっそうが始はじまっている^[12]^[13]。また、PGI社しゃからはCUDA Fortran Compilerが提供ていきょうされている^[14]。Intel Xe向むけにコンパイルするためのZLUDAもある^[15]（開発かいはつ停止ていし中ちゅう）。; ヘテロジニアス・コンピューティング向むけ標準ひょうじゅんC++ライブラリのlibcu++ (NVIDIA C++ Standard Library) も存在そんざいする。libcu++はLLVMのlibc++の派生はせいとなっている^[16]。
HIP (Heterogeneous-Compute Interface for Portability): CUDAに近ちかいカーネル言語げんごおよびAPI。AMDによるROCm (Radeon Open Compute) プラットフォームの一環いっかんとして、オープンソースで提供ていきょうされている^[17]。実行じっこう環境かんきょうとしてAMD GPUに対応たいおうしているほか、バックエンドにCUDAコンパイラを利用りようすることで、NVIDIA GPU上じょうで動作どうさ可能かのうなCUDAコードを生成せいせいすることもできる。; CUDAコードをHIPコードへと変換へんかんするツールHIPIFYもオープンソースで提供ていきょうされている^[18]。
OpenMP (4.0以降いこう): OpenMPは4.0以降いこうoffloadに対応たいおうするようになった。GCC 5以降いこう^[19]やLLVM/Clang^[20]^[21]などがこれに対応たいおうしている。
SPMD Programming Language: インテルによって開発かいはつされた、C言語げんごを拡張かくちょうしたSPMD（英語えいご版ばん）対応たいおう言語げんごであり、Intel SPMD Program Compiler (ISPC) でコンパイル可能かのう^[22]。ISPCはオープンソースであり、バックエンドにLLVMを使用しようしている^[22]。IntelのCPUやXeon Phiだけでなく、NVIDIA Kepler GPU^[23]やARMにも対応たいおうしている。ISPCを導入どうにゅうしている例れいとしては、オープンソースのレイトレーシングエンジンであるEmbreeがある^[24]。
DirectCompute: マイクロソフトが開発かいはつ・配布はいふしているDirectXテクノロジーのひとつであり、DirectX 11/DirectX 12セットに含ふくまれるGPGPU向むけのAPI。GPGPU向むけのシェーダーステージとして導入どうにゅうされたDirect3Dコンピュートシェーダー (compute shader) を利用りようする。HLSLをカーネル記述きじゅつ言語げんごとする。グラフィックス連携れんけい用途ようとを重視じゅうししている^[25]。動作どうさ環境かんきょうはWindows Vista以降いこうのWindowsプラットフォームおよびXbox One以降いこうのXboxプラットフォーム。
OpenGLコンピュートシェーダー: DirectXに搭載とうさいされている前述ぜんじゅつのコンピュートシェーダー同様どうよう、OpenGLでもバージョン4.3でGPGPU向むけのシェーダーステージが標準ひょうじゅん化かされた。GLSLをカーネル記述きじゅつ言語げんごとする。バージョン4.6のGL_ARB_gl_spirv拡張かくちょうによりSPIR-V中ちゅう間あいだ表現ひょうげんに対応たいおうした。; OpenGL ESではバージョン3.1で導入どうにゅうされた。; Webブラウザ向むけのOpenGL ES派生はせい規格きかくであるWebGLでは、まだコンピュートシェーダーに対応たいおうしておらず、草案そうあんの段階だんかいである^[26]。
Vulkanコンピュートシェーダー: OpenGLと同様どうようにVulkanにもコンピュートシェーダーがある。シェーダーコードの中なか間あいだ表現ひょうげんにはSPIR-Vが採用さいようされており、オフラインコンパイルが可能かのう。主おもにGLSLまたはHLSLをカーネル記述きじゅつ言語げんごに使用しようする。
Metalコンピュートシェーダー: AppleはOpenCLを非ひ推奨すいしょうとし、代替だいたいとしてMetal APIのコンピュートシェーダーを推奨すいしょうしている。カーネルの記述きじゅつにはMetal Shading Language (MSL) を用もちいる。macOS/iOSなどのAppleプラットフォーム上じょうでのみ利用りよう可能かのう。
OpenACC: OpenMPのようにコード中ちゅうにディレクティブを挿入そうにゅうすることで、並列へいれつ処理しょりのハードウェアアクセラレートを行くだりなえるようにする標準ひょうじゅん規格きかく^[27]であり、Cray (のちにHPEが買収ばいしゅう)、NVIDIA、PGI (のちにNVIDIAが買収ばいしゅう)、CAPSがヘテロジニアスシステムに向むけて設計せっけいした^[28]。; PGIのコンパイラに初はじめて搭載とうさいされ^[29]^{[出典しゅってん無効むこう]}、その後ご、GCC 5.0以降いこうにも搭載とうさいされている^[30]。HPEはCCE (Cray Compiling Environment) 10.0.0以降いこうでOpenACCを非ひ推奨すいしょうとし、OpenMPを推奨すいしょうするようになっている^[31]。; NVIDIAは2020年ねんにOpenACCなどの包括ほうかつ的てきなサポートを含ふくむHPC SDKを発表はっぴょうした^[32]^[33]。

過去かこの技術ぎじゅつ

C++ AMP: マイクロソフトが策定さくていした、ハードウェアアクセラレートされた並列へいれつ処理しょりをC++言語げんごで記述きじゅつできるようにする高こうレベルのライブラリ・言語げんご拡張かくちょう。公式こうしきの実装じっそうとしてはDirectComputeをバックエンドとするMicrosoft Visual C++がある。ただしVisual C++ 2022以降いこうでは非ひ推奨すいしょうとなった^[34]。; またオープンソースのC++ AMP実装じっそう「HCC」も存在そんざいした^[35]が、その後ご非ひ推奨すいしょうとなり^[36]、CUDA類似るいじのHIP APIをベースとするHIP-Clangに置おき換かえられた^[36]。
OpenHMPP（英語えいご版ばん） (Open Hybrid Multicore Parallel Programming): OpenACC同様どうよう、ディレクティブベースのヘテロジニアス・コンピューティング向むけプログラミング標準ひょうじゅん。
OpenMP LEO (Language Extensions for Offload): インテルによるIntel MIC (Many Integrated Core) およびGFXへオフロードするためのOpenMP拡張かくちょう。ICC (Intel C++ Compiler) に実装じっそうされていた^[37]。
Close to Metal（英語えいご版ばん）（CTM, Close To the Metal）: AMD社しゃによるATI系けいGPUのストリームプロセッサインターフェイス。ハードウェアに近ちかいローレベル制御せいぎょを可能かのうとする^[38]。
AMD Stream（旧きゅうATI Stream）: AMDによるATI系けいGPU用ようのGPGPU開発かいはつ・実行じっこう環境かんきょう。CTMをCompute Abstraction Layer（CAL）^[39]によって抽象ちゅうしょう化かし、Brook言語げんごをCAL用ように拡張かくちょうしたBrook+言語げんごによる開発かいはつを可能かのうにする。; なおAMDは「GPGPUでDirectX 11およびOpenCLをフルサポートする」と発表はっぴょうし^[40] ^[41]、CCC 11.2でRadeon HDシリーズ以上いじょうのGPU向むけにOpenCLドライバーが標準ひょうじゅん搭載とうさいされた^{[疑問ぎもん点てん – ノート]}^{[要よう出典しゅってん]}。; その後ご、同社どうしゃはHSA推進すいしんとともに、独自どくじ規格きかくではなくOpenCLをヘテロジニアス戦略せんりゃくの中核ちゅうかくとする方向ほうこうに舵かじを切きり直なおした。AMDによるCPU/GPU/APU対応たいおうの総合そうごう基盤きばんテクノロジーは「AMD Accelerated Parallel Processing」（AMD APP）と呼よばれており、SDKの名称めいしょうもATI Stream SDKからAMD APP SDKに変更へんこう・統一とういつされたが、その後ごAMD APP SDKは廃止はいしされ、GPUコンピューティングの技術ぎじゅつ基盤きばんはオープンソースのROCmプラットフォームに移行いこうされることになった。
Sh（英語えいご版ばん） (libsh): ウォータールー大学だいがくコンピュータグラフィックス研究けんきゅう室しつの成果せいかに基もとづいた、RapidMindによるシェーダープログラミングおよびGPGPUのためのメタプログラミング技術ぎじゅつ。C++言語げんごによる開発かいはつを可能かのうにする。LGPLライセンスで公開こうかいされている。
RapidMind: RapidMind（英語えいご版ばん）による商用しょうよう並列へいれつコンピューティング開発かいはつ環境かんきょう。GPU／マルチコアCPU／Cellプロセッサをバックエンドに利用りようできる。C++言語げんごによる開発かいはつを可能かのうにする。
BrookGPU（英語えいご版ばん） (Brook for GPU): スタンフォード大学だいがくコンピュータグラフィックス研究けんきゅう室しつによるストリーム・コンピューティング開発かいはつ環境かんきょう。GPUおよびOpenMPによるマルチコアCPU演算えんざんをバックエンドに利用りようできる。C言語げんご (ANSI C) を拡張かくちょうしたBrook言語げんごによる開発かいはつを可能かのうにする。BSDライセンスおよびGPLライセンスで公開こうかいされている。
PeakStream: PeakStreamによる商用しょうようストリーム・コンピューティング開発かいはつ環境かんきょう。GPU / マルチコアCPU / Cellプロセッサをバックエンドに利用りようできる。PeakStreamは2007年ねん6月がつ頃ごろまでにGoogleによって買収ばいしゅうされている。

出典しゅってん

[脚注きゃくちゅうの使つかい方かた]

^ “Heterogeneous Processing: a Strategy for Augmenting Moore's Law” (2006年ねん). 2014年ねん10月がつ29日にち閲覧えつらん。
^ “Hetergeneous System Architecture (HSA) Foundation”. オリジナルの2014年ねん4月がつ23日にち時点じてんにおけるアーカイブ。 2014年ねん11月1日にち閲覧えつらん。
^ S. Mittal and J. Vetter (2015), A Survey of CPU-GPU Heterogeneous Computing Techniques ACM Computing Surveys
^ Venkat, Ashish; Tullsen, Dean M. (2014). Harnessing ISA Diversity: Design of a Heterogeneous-ISA Chip Multiprocessor. Proceedings of the 41st Annual International Symposium on Computer Architecture.
^ Anand Lal Shimpi (2014年ねん5月がつ5日にち). “AMD Announces Project SkyBridge: Pin-Compatible ARM and x86 SoCs in 2015, Android Support”. AnandTech 2017年ねん6月がつ11日にち閲覧えつらん. "Next year, AMD will release a low-power 20nm Cortex A57 based SoC with integrated Graphics Core Next GPU."
^ “Energy Aware Scheduling”. The Linux Kernel documentation. 2020年ねん11月16日にち閲覧えつらん。
^ A Survey Of Techniques for Architecting and Managing Asymmetric Multicore Processors ACM Computing Surveys 2015年ねん
^ “インテル、次世代じせだいチップ「Alder Lake」をデモ--2021年ねん下半期しもはんきリリースへ”. CNET Japan (2021年ねん1月がつ13日にち). 2021年ねん3月がつ14日にち閲覧えつらん。
^ Gschwind, Michael (2005). A novel SIMD architecture for the Cell heterogeneous chip-multiprocessor (PDF). Hot Chips: A Symposium on High Performance Chips.
^ ISO C++ and SYCL Join for the Future of Heterogeneous Programming Codeplay 2020年ねん6月がつ9日にち
^ SYCLomatic: A New CUDA-to-SYCL Code Migration Tool Intel
^ “How To Compile CUDA Code With LLVM”. Phoronix (2015年ねん11月11日にち). 2015年ねん11月15日にち閲覧えつらん。
^ “Compiling CUDA C/C++ with LLVM — LLVM 3.8 documentation”. LLVM Project (2015年ねん11月13日にち). 2015年ねん11月15日にち閲覧えつらん。
^ NVIDIAのCUDAアーキテクチャGPUにおけるFortranサポート
^ ZLUDA: Drop-In Open-Source CUDA Support For Intel Xe / UHD Graphics Phoronix 2020年ねん11月24日にち
^ NVIDIA C++ Standard Library Now Available Via GitHub Phoronix 2020年ねん9月がつ19日にち
^ ROCm-Developer-Tools/HIP: HIP: C++ Heterogeneous-Compute Interface for Portability
^ ROCm-Developer-Tools/HIPIFY: HIPIFY: Convert CUDA to Portable C++ Code
^ OpenMP 4.0 Offloading For Intel MIC Lands In GCC 5 Phoronix 2014年ねん11月13日にち
^ OpenMP Support LLVM project
^ LLVM 11 Merges AMD Radeon GCN Offloading For OpenMP Phoronix 2020年ねん5月がつ27日にち
^ ^a ^b Intel SPMD Program Compiler - Overview Intel Corporation
^ Intel SPMD Program Compiler User's Guide - Compiling For The NVIDIA Kepler GPU Intel Corporation
^ Embree Overview Intel Corporation
^ 後藤ごとう弘ひろし茂しげるのWeekly海外かいがいニュース
^ WebGL 2.0 Compute
^ OpenACC ディレクティブによるプログラミング by PGI Compilers
^ "Nvidia, Cray, PGI, and CAPS launch 'OpenACC' programming standard for parallel computing". The Inquirer. 4 November 2011. 2021年ねん3月がつ14日にち閲覧えつらん。
^ OpenACC ディレクティブによるプログラミング by PGI Compilers
^ OpenACC Changes Merged Today For GCC 5 Phoronix 2015年ねん1月がつ15日にち
^ OpenACC Use Hewlett Packard Enterprise Development
^ NVIDIA HPC SDK を発表はっぴょう | NVIDIA
^ High Performance Computing (HPC) SDK | NVIDIA
^ C++ AMP Overview | Microsoft Learn
^ AMDとMS，GPU演算えんざん用途ようと向むけのコンパイラ「C＋＋ AMP v1.2」を発表はっぴょう - 4Gamer.net
^ ^a ^b HCC Deprecation Notice AMD
^ Initiating an Offload on Intel® Graphics Technology Intel
^ AMDのGPGPU戦略せんりゃくは新しん章しょうへ - ATI Streamの展望てんぼう、DirectX Compute Shaderの衝撃しょうげき (2) ATI Streamとは? | マイナビニュース
^ "Close to the Metal", Justin Hensley, AMD Graphics Product Group
^ AMD、DirectX 11/OpenCLのGPGPUをフルサポートへ
^ AMD Drives Adoption of Industry Standards in GPGPU Software Development