GPU在人工智能來臨的前夜火了,很多人的眼光也聚焦到了英偉達(dá)身上,隨之而來的,流言也就多了起來。有人認(rèn)為,GPU在人工智能的應(yīng)用存在一定的局限性。但這些只同留在TESLA V100發(fā)布之前,這塊手掌大小的芯片凝聚了 Nvidia 7000 多名工程師超過 3 年的研發(fā),投入資金 30 億美元。
據(jù)了解,TESLA V100 使用的 GPU 就是 Volta 架構(gòu)的首款產(chǎn)品 GV100。這塊手掌大小的芯片凝聚了 Nvidia 7000 多名工程師超過 3 年的研發(fā),投入資金 30 億美元。TESLA V100 集成了 210 億個晶體管、5120 個 CUBA 內(nèi)核,雙精度浮點運算性能達(dá)到 7.5 TFLOP/s、顯存帶寬為 900GB/S。
我們看看TESLA V100具體從哪些方面讓流言不攻自破:
流言一、GPU應(yīng)用過程中無法充分發(fā)揮并行計算優(yōu)勢。深度學(xué)習(xí)包含訓(xùn)練和應(yīng)用兩個計算環(huán)節(jié),GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效,但在應(yīng)用時一次性只能對于一張輸入圖像進(jìn)行處理, 并行度的優(yōu)勢不能完全發(fā)揮。
針對深度學(xué)習(xí)優(yōu)化的流式多處理器(SM)架構(gòu)。作為 GPU 處理器的核心組件,在 Volta 架構(gòu)中 NVIDIA 重新設(shè)計了 SM,相比之前的 Pascal 架構(gòu)而言,這一代 SM 提高了約 50% 的能效,在同樣的功率范圍內(nèi)可以大幅提升 FP32(單精度浮點)和 FP64(雙精度浮點)的運算性能。專為深度學(xué)習(xí)設(shè)計的全新 Tensor Core 在模型訓(xùn)練場景中,最高可以達(dá)到 12 倍速的 TFLOP(每秒萬億次浮點運算)。
另外,由于全新的 SM 架構(gòu)對整型和浮點型數(shù)據(jù)采取了相互獨立且并行的數(shù)據(jù)通路,因此在一般計算和尋址計算等混合場景下也能輸出不錯的效率。Volta 架構(gòu)新的獨立線程調(diào)度功能還可以實現(xiàn)并行線程之間的細(xì)粒度同步和協(xié)作。最后,一個新組合的 L1 高速數(shù)據(jù)緩存和共享內(nèi)存子系統(tǒng)也顯著提高了性能,同時大大簡化了開發(fā)者的編程步驟。
流言二, 硬件結(jié)構(gòu)固定不具備可編程性。深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU 無法像FPGA 一樣可以靈活的配置硬件結(jié)構(gòu)。
Tesla V100 的架構(gòu)設(shè)計初衷即為了實現(xiàn)更高的可編程度,讓用戶能夠在更復(fù)雜多樣的應(yīng)用程序中高效工作。Volta 是首款支持獨立線程調(diào)度的 GPU,可在程序中的并行線程之間實現(xiàn)更精細(xì)的同步與寫作。提高線程寫作的靈活性,最終實現(xiàn)更高效、更精細(xì)的并行算法。
第三, 運行深度學(xué)習(xí)算法能效遠(yuǎn)低于FPGA。學(xué)術(shù)界和產(chǎn)業(yè)界研究已經(jīng)證明,運行深度學(xué)習(xí)算法中實現(xiàn)同樣的性能,GPU 所需功耗遠(yuǎn)大于FPGA,例如國內(nèi)初創(chuàng)企業(yè)深鑒科技基于FPGA 平臺的人工智能芯片在同樣開發(fā)周期內(nèi)相對GPU 能效有一個數(shù)量級的提升。
全新的最大節(jié)能模式可允許數(shù)據(jù)中心在現(xiàn)有功耗預(yù)算內(nèi),每個機(jī)架最高提升 40% 的計算能力。在此模式下,Tesla V100 以最大處理效率運行時,可提供高達(dá) 80% 的性能,而只需一半的功耗。
當(dāng)然,Tesla V100 并不是終點,但可以看到的是,不論英偉達(dá)還是GPU,都在隨著人工智能的發(fā)展逐漸走向成熟。
it168網(wǎng)站原創(chuàng) 作者: 張存