北米時間2017年5月10日,NVIDIAの総帥である
Jensen(Jen-Hsun) Huang(ジェンスン・フアン)氏は,GTC 2017の基調講演で,新世代GPUアーキテクチャ「Volta」ベースとなる数値演算アクセラレータ「
Tesla V100」を発表した。
Huang氏が披露したTesla V100
![画像集 No.003のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/003.jpg) |
Huang氏が明らかにしたところによると,Tesla V100のGPUはTSMCの12nmプロセス技術を採用して製造され,
815mm2のダイサイズに210億トランジスタを集積。CUDA Core数は
5120基に達するとのことだ。Pascal世代の最上位GPUである「GP100」だとダイサイズが610mm
2,CUDA Core数が3584基なので,文句なしにNVIDIA史上最大のプロセッサとなる。
組み合わせるメモリはSamsung Electronicsと共同で開発したという積層タイプ(HBM2)で,帯域幅は900GB/s。また,独自インタフェース「NVLink」は第2世代へと進化し,300GB/sの帯域幅を確保しているという。TDP(Thermal Design Power)は300Wとのことだ。
Tesla V100の主なスペック
![画像集 No.002のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/002.jpg) |
演算性能はFP64(倍精度浮動小数点演算)が7.5 TFLOPS,FP32(単精度浮動小数点演算)が15 TFLOPS。さらにTesla V100は深層学習のアクセラレーションを行うため4x4のマトリックス演算を行う「
New Tensor Core」を持ち,これにより最大120 TFLOPSの演算性能を実現するとのことだ。Huang氏は,このNew Tensor Coreによって,Googleの深層学習フレームワーク「Tensor Flow」は従来比で12倍の速度で処理できると語っていた。
Tesla V100は汎用コンピューティング分野において従来の1.5倍,深層学習では12倍,認識では6倍の性能を持つというスライド
![画像集 No.005のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/005.jpg) |
New Tensor Coreは「FP16+FP16+FP32=FP64」という計算を行う新命令を実行可能とHuang氏。これにより,テンソル計算で120 TLOPSという演算性能を実現するとされる
![画像集 No.004のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/004.jpg) |
Tesla V100搭載製品としては,既存の深層学習用マシン「DGX-1」をべースに,8基のプロセッサをTesla V100へ入れ替えた「
DGX-1 With Tesla V100」と,「パーソナルなスーパーコンピュータ」として訴求され,4基のTesla V100を搭載する「
DGX Station」,そして8基のTesla V100を搭載するクラウドサーバー「
HGX-1」が発表となった。
DGX-1 With Tesla V100は深層学習において960 Tensor TFLOPSの演算性能を持ち,「サーバー400台分の能力を持つ」(Huang氏)という。
DGX-1 With Tesla V100。8基のTesla V100を搭載して14万9000ドルとなっている。注文受付は発表と同時に始まっているが,出荷は第3四半期予定とのことだ
![画像集 No.014のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/014.jpg) |
DGX Station。デスクトップPC風のタワー型コンピュータとして登場する。こちらは4基のTeslaを搭載し,6万9000ドル。やはり発表と同時に注文受付が始まっている
![画像集 No.015のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/015.jpg) |
![画像集 No.016のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/016.jpg) |
8基のTesla V100を搭載するHGX-1
![画像集 No.017のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/017.jpg) |
なお,Tesla V100は深層学習専用のアクセラレータというわけではなく,汎用的な数値演算やグラフィックスのアクセラレーションにも利用できるという。その実例としてHuang氏は,「FINAL FANTASY XV」と世界感を共有するフルCG映画「
KINGS GLAIVE FINAL FANTASY XV」のグラフィックスデモも披露している。
KINGS GLAIVE FINAL FANTASY XVより
![画像集 No.006のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/006.jpg) |
![画像集 No.010のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/010.jpg) |
![画像集 No.007のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/007.jpg) |
![画像集 No.008のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/008.jpg) |
またHuang氏は,PCI Expressカード型のTesla V100,「
FHHL」(Full Hight, Half Length)も発表している。「CDカードサイズ」(Huang氏)でパッシブ冷却方式を採用するカード版Tesla V100は,深層学習においてSkylake世代のCPUに対して15〜20倍の性能を持つとのこと。「3000ドルでコンピュータにTesla V100を追加できる」とも氏は語っていたので,カード版の価格はその程度に設定される可能性が高い。
PCI Expressカート型のTesla V100。1スロット仕様のようだ
![画像集 No.011のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/011.jpg) |
![画像集 No.012のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/012.jpg) |
基調講演では,NVIDIAとトヨタ自動車が提携し,「DRIVE PX」ベースの自動運転自動車を開発するという,驚きの発表もあった
![画像集 No.013のサムネイル画像 / [GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積](/games/208/G020859/20170511001/TN/013.jpg) |