(Translated by https://www.hiragana.jp/)
NVIDIA Tesla - Wikipedia

NVIDIA Tesla(エヌビディア テスラ)は、NVIDIAデータセンターようGPU製品せいひんシリーズ。GeForceQuadroをベースとしており、NVIDIAはつGPGPU専用せんよう製品せいひんである。2017ねんのVoltaマイクロアーキテクチャ以降いこうは Tesla という名称めいしょうえ、たんあたまに NVIDIA がくだけになった。

Nvidia Tesla GPU

概要がいよう

編集へんしゅう

汎用はんようCPUくらべて浮動ふどう小数点しょうすうてん演算えんざん性能せいのうたかく、高性能こうせいのう計算けいさん市場いちばでの使用しよう意図いとした製品せいひんであり、TOP500スーパーコンピュータでも多数たすう採用さいようされている。おも用途ようと機械きかい学習がくしゅうディープラーニングシミュレーションだい規模きぼ計算けいさんとく浮動ふどう小数点しょうすうてん演算えんざん)、こう品質ひんしつ画像がぞう生成せいせいなどで、APIとしてCUDAOpenCLDirectCompute使用しようする。

なお同社どうしゃせいグラフィックス製品せいひんであるGeForceやQuadroとはことなり、TeslaシリーズはC2050/C2070などの一部いちぶのぞいてディスプレイ出力しゅつりょくたず、完全かんぜん演算えんざん用途ようととくしている。

競合きょうごうとなるのはAMDAMD FireStreamAMD FirePro Sシリーズ)である。

Kepler世代せだい以降いこうのTeslaは353.06ドライバでOpenCL 1.2に対応たいおうしている[1]が、それ以前いぜんのG80からFermiまではOpenCL 1.1までの対応たいおうとなる。

仕様しよう構成こうせい

編集へんしゅう

ひょうちゅう性能せいのうらんは、単精度たんせいど倍精度ばいせいど浮動ふどう小数点しょうすうてん理論りろん演算えんざん性能せいのう(ピーク)である。

Teslaマイクロアーキテクチャ

編集へんしゅう

2007ねん6がつ20日はつか発表はっぴょう[2]。G80ベースのx870シリーズは単精度たんせいど浮動ふどう小数点しょうすうてん演算えんざんのみの対応たいおうであり、倍精度ばいせいど浮動ふどう小数点しょうすうてん演算えんざん実行じっこうできない[3]

構成こうせい 機種きしゅめい GPUすう グラフィックスクロック (MHz) CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
GPUコンピューティングプロセッサ1 C870 1 600 128 1350 77 GDDR3 384 1.5 1.6 0.519 N/A フルハイトビデオカード
デスクサイト・スーパーコンピュータ1 D870 2 600 256 1350 154 GDDR3 384 3 1.6 1.037 N/A デスクサイドシステム/ラックマウント装置そうち
GPUコンピューティングサーバ1 S870 4 600 512 1350 307 GDDR3 384 6 1.6 2.074 N/A 1Uラック
C1060
コンピューティングプロセッサ2 [4]
C1060 1 602 240 1296 102 GDDR3 512 4 0.800 0.933 0.078 フルハイトビデオカード
IEEE 754r 機能きのう
S1070 1U
GPUコンピューティングサーバ2 [5] [6]
S1070 4 602 960
(240×4)
1296/1440 408
(102×4)
GDDR3 512 16
(4×4)
? 3.73/4.14 0.311/0.345 1Uラック
IEEE 754r 機能きのう

注釈ちゅうしゃく

  • 1 NVIDIAがあきらかにしていない仕様しようについては、GeForce 8800 GTXからの推測すいそく
  • 2 NVIDIAがあきらかにしていない仕様しようについては、GeForce GTX 280からの推測すいそく

Fermiマイクロアーキテクチャ

編集へんしゅう

2009ねん11月6にち発表はっぴょう[7]。ハーフレートの倍精度ばいせいど演算えんざん性能せいのう実現じつげんしている(倍精度ばいせいど理論りろん演算えんざん性能せいのう単精度たんせいど場合ばあいの1/2になっている)。

機種きしゅめい GPUすう グラフィックスクロック (MHz) CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
C20503, 5 [8] 1 575 448 1150 144 GDDR5 384 3 1.5 1.03 0.515 フルハイトビデオカード
IEEE 754r 機能きのう
画面がめん出力しゅつりょく機能きのう
C20703, 5 1 575 448 1150 144 GDDR5 384 6 1.5 1.03 0.515
C20753, 6 [9] 1 575 448 1150 144 GDDR5 384 6 1.5 1.03 0.515
M2050 1 575 448 1150 148 GDDR5 384 3 1.546 1.03 0.515 フルハイト/
パッシブ・ヒートシンクがた
M2070 1 575 448 1150 150 GDDR5 384 6 1.566 1.03 0.515
M2090 1 650 512 1300 177 GDDR5 384 6 1.85 1.331 0.665
S2050 4 575 1792 1150 148 GDDR5 384 12 1.55 4.13 2.06 1Uラック

注釈ちゅうしゃく

Keplerマイクロアーキテクチャ

編集へんしゅう

最初さいしょ製品せいひんであるTesla K10は2012ねん5月16にち発表はっぴょうされた[10]。GK104ベースのK10は単精度たんせいど理論りろん演算えんざん性能せいのうたかいものの、倍精度ばいせいど理論りろん演算えんざん性能せいのう極端きょくたんひくく(単精度たんせいど場合ばあいの1/24[11])、科学かがく技術ぎじゅつ計算けいさんけではなく信号しんごう処理しょり画像がぞう処理しょりけのソリューションという位置付いちづけになっている[12]。なおGK110ベースとなるK20およびK40、そしてGK210ベースとなるK80における倍精度ばいせいど理論りろん演算えんざん性能せいのう単精度たんせいど場合ばあいの1/3となっている[13] [14] [15]。2014ねん発表はっぴょうされたTesla K8もGK104ベース[16]だが、K8はTeslaシリーズはつの1スロットしょうスペース製品せいひんとなる[17]

Fermiマイクロアーキテクチャでは SM(ストリーミング・マルチプロセッサー)とばれていた概念がいねんが、KeplerマイクロアーキテクチャではSMXという名称めいしょうになった。GK104/GK110のかくSMXが搭載とうさいする代表だいひょうてきなユニットは下記かきである[18] [19]

  • 192 CUDAコア。16 CUDAコアを1グループとして、12グループ搭載とうさいする。
  • 64Kの32ビットレジスタ。合計ごうけい256KB。
  • L1キャッシュ 64KB。このうち 16KB/32KB/48KB を共有きょうゆうメモリとして使用しよう共有きょうゆうメモリからは1サイクルで最大さいだい256Bせる。
  • 専用せんようキャッシュ 48KB。
  • 特殊とくしゅ関数かんすうユニット (SFU) 32三角さんかく関数かんすう対数たいすう関数かんすうなどを計算けいさん

Fermi同様どうようかくスレッド(コア)はワープ (warp) 単位たんい動作どうささせる(1ワープは32スレッド)。ワープないのスレッドは同期どうきし、それぞれおな命令めいれい実行じっこうする。16 CUDAコアを1グループとしているので、32スレッドに命令めいれいわたるには2サイクル以上いじょう必要ひつようとなる。その、Kepler世代せだいではワープない共有きょうゆうメモリをかいすることなくデータ交換こうかん可能かのうにするシャッフル命令めいれい実装じっそうされている。なおCompute capability (CC) にかんしては、GK104はCC 3.0、GK110はCC 3.5、そしてGK210はCC 3.7[20]となるが、CC 3.5以上いじょうではDynamic ParallelismやHyper-Qといった機能きのうそなえている[21]

フルスペックGK104では512KB、またフルスペックGK110/GK210では 1536KB (1.5MB) の L2 キャッシュをぜん SMX で共有きょうゆうし、このキャッシュを経由けいゆして DRAM にアクセスする。なおインテルだい1世代せだいXeon Phiは30MB前後ぜんこうの L2 キャッシュを搭載とうさいしており、このてん設計せっけいちがいのひとつとなる[独自どくじ研究けんきゅう?]

機種きしゅめい GPUすう CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう SMXすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
K8 7 1 1536 8 693
811 (Boost)
160 GDDR5 256 8 2.5 2.13
2.49 (Boost)
0.09
0.10 (Boost)
フルハイト/1スロットがた
K10 8 2 3072
(1536x2)
8x2 745 320
(160x2)
GDDR5 256 8
(4x2)
2.5 4.577
(2.288x2)
0.191
(0.095x2)
フルハイト/
パッシブ・ヒートシンクがた
K20 1 2496 13 706 208 GDDR5 320 5 2.6 3.52 1.17
K20X 1 2688 14 732 250 GDDR5 384 6 2.6 3.95 1.31
K40 1 2880 15 745
875 (Boost)
288 GDDR5 384 12 3 4.29
5 (Boost)
1.43
K80 2 4992
(2496x2)
13x2 562
875 (Boost)
480
(240x2)
GDDR5 384 24 2.5 5.6
8.74 (Boost)
1.87

注釈ちゅうしゃく

  • 7 GK104ベース
  • 8 GK104 (GeForce GTX 690) ベース

Maxwellマイクロアーキテクチャ

編集へんしゅう

MaxwellではKeplerよりもさらに倍精度ばいせいどサポートがけずられている(単精度たんせいど場合ばあいの1/32)。M4/M40はおも機械きかい学習がくしゅうディープラーニングけのソリューションとして提供ていきょうされている[22] [23] [24] [25]

機種きしゅめい GPUすう CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう SMすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
M6 [26] 1 1536 12 950

1051 (Boost)

147.3 GDDR5 256 8 2.5 3.6 (Boost) 0.11 (Boost) MXM
M60 [27] 2 4096
(2048x2)
32

(16x2)

899

1178 (Boost)

320

(160x2)

GDDR5 256 16
(8x2)
2.5 9.65

(4.825x2)

0.3

(0.15x2)

フルハイト
M4 [28] 1 1024 8 517

1074 (Boost)

88 GDDR5 128 4 2.75 2.2 (Boost) 0.07 (Boost) ロープロファイル/
パッシブ
M40 [29] 1 3072 24 948
1114 (Boost)
288 GDDR5 384 12 3 5.8
6.8 (Boost)
0.18
0.21 (Boost)
フルハイト/
パッシブ・ヒートシンクがた

Pascalマイクロアーキテクチャ

編集へんしゅう

最初さいしょ製品せいひんであるTesla P100は2016ねん4がつ発表はっぴょうされた[30]。16nmプロセスルールを採用さいよう。GP100ベースのP100では、Fermi世代せだいのようなハーフレートの倍精度ばいせいど対応たいおうのほか、ダブルレートのはん精度せいど対応たいおう実現じつげんされている(はん精度せいど理論りろん演算えんざん性能せいのう単精度たんせいど場合ばあいの2ばいになっている)。メモリにだい2世代せだいHigh Bandwidth Memory (HBM2) を採用さいようする。NVIDIA独自どくじのインターコネクト規格きかくであるNVLinkにも対応たいおうし、これまでプロセッサあいだ通信つうしんボトルネックとなっていたPCI Express大幅おおはばえる伝送でんそう帯域たいいきはば実現じつげんできる。

GP102ベースのP40およびGP104ベースのP4では、倍精度ばいせいど理論りろん演算えんざん性能せいのう単精度たんせいど場合ばあいの1/32になっている[31]。また、SMあたりのCUDAコアすうは128、共有きょうゆうメモリも96KBとなっており、Maxwellアーキテクチャにちか[32]

機種きしゅめい GPUすう CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう SMすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
P4 [33] 1 2560 20 810
1063 (Boost)
192 GDDR5 256 8 3 4.15
5.44 (Boost)
0.13
0.17 (Boost)
ロープロファイル
P40 [34] 1 3840 30 1303
1531 (Boost)
346 GDDR5 384 24 7.25 10.01
11.76 (Boost)
0.31
0.36(Boost)
フルハイト
P100 PCIe [35] 1 3584 56 1189
1328 (Boost)
540 /

720

HBM2 4096 12 /

16

0.715 9.5 (Boost) 4.8 (Boost) フルハイト/

パッシブ

P100 SXM2 [36] 1 3583 56 1328
1480 (Boost)
720 HBM2 4096 16 0.715 10.6 (Boost) 5.3 (Boost) NVLink/

パッシブ

Voltaマイクロアーキテクチャ[37]

編集へんしゅう

最初さいしょ製品せいひんであるTesla V100は2017ねん5がつ発表はっぴょうされた[38]。12nmプロセスルールを採用さいよう行列ぎょうれつ演算えんざん実行じっこうするための専用せんようプロセッサ「Tensor Core」を搭載とうさいする。

機種きしゅめい GPUすう CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう SMすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
V100 PCIe 1 5120 80 1245
1380 (Boost)
900 HBM2 4096 16 0.876 14 (Boost) 7 (Boost) フルハイト/

パッシブ

V100 SXM2 1 5120 80 1312

1530 (Boost)

900 HBM2 4096 16 0.876 15 (Boost) 7.5 (Boost) NVLink/

パッシブ

Turingマイクロアーキテクチャ

編集へんしゅう

Tesla T4が2018ねん9がつ発売はつばいされた。

機種きしゅめい GPUすう CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう SMすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
T4 1 2560 40 585

1590 (Boost)

320 GDDR6 256 16 1.25 8.1 不明ふめい フルハイト

Ampereマイクロアーキテクチャ

編集へんしゅう

最初さいしょ製品せいひんであるTesla A100は2020ねん5がつ発売はつばいされた。

機種きしゅめい GPUすう CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう SMすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
A2 1 1280 不明ふめい 1440

1770 (Boost)

200 GDDR6 128 16 6.25 4.531 0.14 ハーフハイト
A10 1 9216 84 885

1695 (Boost)

600 GDDR6 384 24 不明ふめい 31.24 0.976 フルハイト
A16 4 5120

(1280x4)

20 885

1695 (Boost)

800

(200x4)

GDDR6 128x4 64

(16x4)

6.25 18.432

(4.608x4)

1.0848 フルハイト/

2スロット

A30 1 3584 128 930

1440 (Boost)

933 HBM2 3072 24 1.215 10.32 5.161 フルハイト/

2スロット

A40 1 10752 84 1305

1740 (Boost)

696 GDDR6 384 48 7.251 37.42 1.168 フルハイト/

2スロット

A100 PCIe 1 6912 108 765

1410 (Boost)

1555 HBM2 5120 40 / 80 不明ふめい 19.5 9.7 フルハイト/

2スロット

A100 SXM 1555

2039

不明ふめい SXM英語えいごばん

Hopperマイクロアーキテクチャ

編集へんしゅう

最初さいしょ製品せいひんであるTesla H100は2022ねん3がつ発売はつばいされた。

機種きしゅめい GPUすう CUDA メモリ 性能せいのう
単精度たんせいど
(TFLOPS)
性能せいのう
倍精度ばいせいど
(TFLOPS)
形状けいじょうなど
CUDAコアすう SMすう CUDAコアクロック (MHz) 最大さいだい帯域たいいきはば (GB/s) バス規格きかく バスはば (bit) そう容量ようりょう (GiB) クロック (GHz)
H100 PCIe 1 14592 114 1065

1650 (Boost)

2000 HBM2e 5120 80 不明ふめい 48 24 フルハイト/

2スロット

H100 SXM 1 16896 132 3350 HBM3 不明ふめい 60 30 SXM英語えいごばん
H200 SXM 4800 HBM3e 141 不明ふめい 67 34 SXM

脚注きゃくちゅう

編集へんしゅう
  1. ^ Release 352 Quadro, NVS, Tesla, GRID, & Notebook Drivers - Version 353.06; RN-WQ35306-01_v01 | June 1, 2015; Windows 7, Windows 8, & Windows 8.1; Release Notes
  2. ^ NVIDIA、G80ベースのHPCけGPU「Tesla」
  3. ^ Tesla Technical Brief (PDF)
  4. ^ NVIDIA Tesla C1060コンピューティングプロセッサ―ワークステーションけメニーコアスーパーコンピューティング
  5. ^ NVIDIA Tesla S1070 1Uコンピューティングシステム― データーセンターけの測定そくてい可能かのうなメニーコアスーパーコンピューティング
  6. ^ NVIDIA Tesla S1070 - 株式会社かぶしきがいしゃ エルザ ジャパン
  7. ^ NVIDIA、Fermi採用さいよう並列へいれつプロセッサ「NVIDIA Tesla 20シリーズ」発表はっぴょう - ITmedia エンタープライズ
  8. ^ Tesla C2050 / C2070 GPUコンピューティングプロセッサ
  9. ^ NVIDIA Tesla C2075 | 株式会社かぶしきがいしゃ エルザ ジャパン
  10. ^ NVIDIA Tesla K10 GPU、石油せきゆ・ガスの探査たんさ防衛ぼうえい産業さんぎょう信号しんごう処理しょり画像がぞう処理しょり高速こうそく | NVIDIA
  11. ^ 4Gamer.net ― 「GeForce GTX TITAN」登場とうじょう。500えんだまよりおおきなモンスターGPUの“性能せいのう以外いがい”を徹底てってい解説かいせつ
  12. ^ 4Gamer.net ― NVIDIA,Keplerベースのしん世代せだいTeslaを発表はっぴょう。「GK110」コア採用さいようの「Tesla K20」が年内ねんない登場とうじょう予定よてい
  13. ^ AnandTech | NVIDIA Launches Tesla K80, GK210 GPU
  14. ^ NVIDIA,新型しんがたGPUコア「GK210」搭載とうさいのHPCけデュアルGPUカード「Tesla K80」を発表はっぴょう - 4Gamer.net
  15. ^ NVIDIA® Tesla® GPU Accelerators Datasheet - nvidia-tesla-kepler-family-datasheet.pdf
  16. ^ Tesla-K8-Board-Spec-BD-07228-001-v03.pdf
  17. ^ NVIDIA Tesla K8 | 株式会社かぶしきがいしゃ エルザ ジャパン
  18. ^ 後藤ごとうひろししげるのWeekly海外かいがいニュース】 NVIDIAが次世代じせだいGPUアーキテクチャ「Kepler」のベールをいだ
  19. ^ ホワイトペーパー NVIDIAの次世代じせだいがたCUDA コンピュート・アーキテクチャ Kepler GK110
  20. ^ Whitepaper; NVIDIA’s Next Generation CUDA™ Compute Architecture: Kepler™ GK110/210
  21. ^ Kepler Tuning Guide :: CUDA Toolkit Documentation
  22. ^ NVIDIA,Maxwellベースの数値すうち演算えんざんアクセラレータ「Tesla M40」「Tesla M4」を発表はっぴょう - 4Gamer.net
  23. ^ NVIDIA、Maxwellベースで7TFLOPSを実現じつげんする機械きかい学習がくしゅうけ「Tesla M40」 ~Low Profileの1スロットの「Tesla M4」も - PC Watch
  24. ^ NVIDIA Tesla M60 and Tesla M6 Accelerators To Power Grid 2.0 - M60 Featuring Dual-GM204 GPUs
  25. ^ NVIDIA Announces Tesla M40 & M4 Server Cards - Data Center Machine Learning
  26. ^ Tesla M6 Product Brief
  27. ^ Tesla M60 Product Brief
  28. ^ Data Sheet: Tesla M4
  29. ^ NVIDIA Tesla M40 | 株式会社かぶしきがいしゃ エルザ ジャパン
  30. ^ [GTC 2016]西川にしかわよしの3DGE:Teslaとして登場とうじょうしたしん世代せだいGPU「Pascal」,その詳細しょうさいせまる - 4Gamer.net
  31. ^ NVIDIA,ディープラーニング数値すうち演算えんざんアクセラレータ「Tesla P40」「Tesla P4」を発表はっぴょう - 4Gamer.net
  32. ^ PASCAL: 最新さいしんGPUアーキテクチャ
  33. ^ NVIDIA Tesla P4 GPU Datasheet
  34. ^ Data Sheet: Tesla P40
  35. ^ Data Sheet: Tesla P100
  36. ^ Data Sheet: Tesla P100
  37. ^ NVIDIA TESLA V100 GPU ACCELERATOR
  38. ^ [GTC 2017]西川にしかわよしの3DGE:Volta世代せだいのGPU「GV100」は,これまでとおおきくことなるプロセッサだ――いったいなにが? - 4Gamer.net

関連かんれん項目こうもく

編集へんしゅう

外部がいぶリンク

編集へんしゅう