以人工智慧運算為出發點的 NVIDIA Volta 新架構第一代產品 Tesla V100 ,有何能耐反嗆 Google TPU?

這兩天只要是講到 GPU 的一定都會提到 NVIDIA 在自家的 GDC 上端出 Volta 架構的 Tesla V100 運算卡這件事。這張卡是目前 NVIDIA 以人工智慧深度學習為出發點的新產品,但玩家更關心 Volta 跟 Pascal 兩代架構到底差在哪裡。如果一定要下個結論的話, Volta 確實比 Pascal 厲害得多,除了運算上的效能,在電晶體數量跟核心面積也有驚人的成長。更在人工智慧運算上回頭打臉不久前認為 GPU 沒一個能打的 Google TPU

熟悉顯卡生態,每年都在為了選哪張卡天人交戰的有錢玩家們通常都會用分數來決定選哪一張卡。而在旗艦卡當中, NVIDIA 可說是極盡所能的壟斷了整個高階顯卡市場。並不是對手 AMD 不夠爭氣,而是 NVIDIA 對求勝的心更為熱切,也最有實力維持領先局面:
Edited 1 01

先前的 Pascal 架構已經取得相當大的成功,為了迎戰對手即將推出的新架構,NVIDIA 搶先一步推出自己的新架構 Volta ,Volta 除了在遊戲表現上盡可能優於前一代架構外,也針對人工智慧深度學習的部分有相當程度的強化。今天就來跟大家探討 Volta 新架構有哪些細節能力壓對手。

NVIDIA Tesla 帳面規格強大,表面積也增幅

談到 Volta 架構當然也得說說第一張採用這個架構的產品,基於運算需求的 Tesla V100。這張卡雖然跟一般消費者沒什麼關係,主要針對需要高效能運算環境的使用者。Tesla V100 的核心代號是 GV100 ,從曝光的消息中得知這個核心相當厲害。光面積就有 815 mm2,211億個電晶體,5120 個 CUDA Core,15TFLOPS浮點效能。基本上現役顯卡沒有一個規格這麼強大的,這也顯示了 Volta 隱藏的實力,依照官方資料, Volta 在運算上可以匹敵 100 顆處理器:
Edited 1 07

如果 GV100 跟上一代架構的 GP100 進行比較,你會發現 GV100 確實用了不少猛料。串流式多處理器單元(SM unit)從 56 組增加到 80 組,CUDA Core 也從 3584 個增加快一倍的數目,來到 5120 個。 至於顯示記憶體頻寬與容量均無明顯變化。依然使用 16GB HBM2 記憶體。然而時脈有些提升幅度,從 Pascal 的 720 GB/s 提升至 900 GB/s,相當接近搭配 4 塊 HBM 2 記憶體的理論值 1024 GB/s 。

由於運算單元的增加,因此整個核心規模也進一步擴大,電晶體從 153 億增加到 211 億,核心面積從 610mm2 提升至現在的815 mm2 ,豪爽地刷新現代 GPU 核心面積的紀錄。過去 NVIDIA 的核心主要都在 600mm附近,現在一口氣推進到815 mm2,令人不禁覺得未來或許都會是大核心時代。另一方面也不免擔心核心散熱的問題是否能夠順利解決:
Edited 1 03
▲ Volta 架構示意圖。

為了避免大家覺得看文章看到快睡著,筆者簡單歸納一下。 Volta 與 Pascal 的規格差異其實主要在數量上。核心架構仍是一脈相承,只是 Volta 塞進更多料,外觀也更壯(核心面積變大)。效能固然值得期待,但 TDP 好不好看仍是個謎。而 GV100 主要針對科學運算、人工智慧、深度學習這些需求開發,會不會讓遊戲更厲害更順暢,我們得繼續看 Volta 之後推出的顯卡群有沒有令人眼睛一亮的表現,或是跟 AMD Vega 互有勝負。後面就來看看 Volta 核心有哪些改進之處。

加入更多運算單元,首次使用 Tensor 張量運算單元

Volta 是為了滿足對運算效能有需求的客群,效率需求會優於精度,因此在 Volta 上看到運算單元的增加。也延用了在 GP100 中 FP32:FP64 = 2:1 的比例,在每個 SM 中具備 32 個 FP64(Double Precision Floating Point)。理論上將會有 2688 個 FP64 單元。但實際上卻不會完整用到,啟用的只有 2560 個。

為了因應運算效能需求做了這麼多規格上的強化,還一口氣把晶圓面積弄大,這樣就能讓 NVIDIA 拿出來現給大家看嗎?不, NVIDIA 還在 Volta 架構加入了全新的 Tensor 張量運算單元,剛好這個名詞令人想到不久前 Google 端出來嘲諷所有做 GPU 的大廠們,效能感覺強得嫑嫑的 TPU。

不過 Google 倒沒說 TPU 的 T 是 Tensor 的 T ,所以 NVIDIA 算是理直氣壯的拿來用了。

關於這個運算單元,大家可以想成整個架構中專門作為處理 AI 人工智慧深度學習任務的東西。 GV100 內每組 SM 都配有 8 個 Tensor 單元,我們整理一下可以得到 FP32:FP64:Tensor = 64:32:8 這樣的比例:

此外 Volta 支援第二代 NVLink 匯流排,GV100 核心有 6 組 NVLink 通道,雙向運作,速度可達 300 GB/s。對比 GP100 核心上的 4 組 NVLink 通道,速度是 160 GB/s,對效能表現有相當好的影響。

不過 NVLkink 終究不是通用技術,主要用於 IBM 和 NVIDIA 開發的高階運算平台,這次 GV100 核心就會用在雙方合作的平台上,預計今年下半年正式啟用:
Edited 1 07
Edited 1 08
▲分別採用第二代 NVLink 與 PCI-Express 介面的 Tesla V100 運算卡。

最後,該來看看效能了。目前 Volta 架構的代表產品 Tesla V100 運算卡與 Tesla P100 架構的效能差異,在相同以 8 張卡去進行深度運算的情況下, Tesla V100 比起上代產品快了三倍。

Tesla V100 僅需 6.5 小時完成任務,但 Tesla P100 需要 18 小時。

在 HPC 的使用情形也有不小的提升程度,官方給出的性能成長幅度是 50 %,若考慮到運算單元的增加,其實效能的增長主要也來自運算單元的增加。跟 Tesla P100 靠提高時脈加快速度的本質不同:
Edited 1 06
▲採用 PCI-Express 介面的 Tesla P100 運算卡。

這麼成功的產品,自然也引起投資人的注意,NVIDIA 的股價在發表會後快速攀升,而 GTC 大會的與會者也比過去增加。開發者數量甚至成長了 11 倍,這些資訊顯示 NVIDIA 正以驚人的氣勢奪下人工智慧領域的運算需求。也對 Google 的 TPU 還以顏色,以行動證明 GPU 的無限可能。

至於我們什麼時候才能看見 Volta 的遊戲顯卡呢?就 Volta 的設計走向來看,運算單元雖然增加了,但時脈的提升恐怕相當有限。這意味著下一代跟下下代的 GTX Titan 會著重在 CUDA Core 的數量跟運作效率,時脈可能慢慢的不會是旗艦顯卡的重點,但 NVIDIA 還是會透過時脈跟規格來分野出各個階層的產品。

目前消費級顯卡並沒有透漏發表時間,因此循慣例推敲,會是明年第一季附近開始有消息跟測試成績。或是看 AMD Vega 努力到什麼程度,迫使 NVIDIA 提前打出王牌。大家可以憑預算跟需求買卡,不用考慮等下一代架構出來。如果遇到有不錯的價格,直接下手即可。現階段 Pascal 在中高階還是有很好的效能跟功耗表現,稍嫌困擾的只有價格。

好的產品能吸引其他企業的青睞, NVIDIA 目前與 TOYOTA 針對自動駕駛的部分合作,採用 NVIDIA 針對人工智慧與汽車自動駕駛開發的 DRIVE PX。另外 NVIDIA 也推出由  8 塊 Tesla V100組成的 NVIDIA DGX-1,其效能宣稱能夠替代 400 伺服器。

在人工運算領域,NVIDIA 取得領先,也讓 Volta 不光只是 GPU,更是兼具人工運算實力的複合式處理器,未來相信在業界的競爭下出現更多更適合人工智慧運算的產品,推動人工智慧研究到達新境界:
Edited 1 02
 

您也許會喜歡:

【隱藏好康】4G吃到飽只要$288 還可以自由配!?