HOME > 最新消息> 品牌新訊

掌握AI 優勢,全新NVIDI A100三大特點一次看!

2021/05/26

隨著AI發展越來越成熟,企業將其導入至其產品中,研究、開發變成企業轉型中的關鍵。將AI融入企業中的產品,達到更加快速,更加準確的結果。但企業遇到了類似的問題,CPU架構運算速度不足應付龐大的AI訓練需求?AI訓練環境的架設困難?不同階段對於GPU的需求造成了規劃困難?

為了克服這些遇到的麻煩,NVIDIA設計了世界上第一個專門為AI構建的系列 NVIDIA DGX。透過強大的NVIDIA GPU與NVIDIA NGC的優化AI架構,DGX系統可提供強大的運算性能並消解決企業會遇到的問題。

全新的機型NVIDIA DGX A100


[1] NVIDIA A100 : 新一代GPU
A100 GPU包含著40/80GB的HBM2記憶體,更大更快的caches,用來加速日趨複雜的高效能運算及AI運算需求。包含著第三代的Tensor Core、稀疏加速、Multi-instance GPU(MIG) 新功能。
  • 三代的Tensor Core
Tensor Core是專用的高性能計算核心,可在一次操作中執行混合精度的矩陣乘法和累加(MMA)計算,從而為AI訓練工作和高效能運算(HPC)應用程序提供了加速的性能。對比於V100 Tensor Core提供了兩倍的性能,以及針對INT4性能優化。
  • 稀疏加速
透過NVIDIA A100減少神經網路中所需的連結數量來節省運算的資源,來達到增加神經網路模型的大小。A100上的INT8運算對比於V100高出20倍以上的性能。A100上的TF32 Tensor Core操作提供的性能比V100上的FP32 FFMA高出20倍。,A100上的FP64 Tensor Core的性能比V100上的FP64高2.5倍。
  • Multi-instance GPU(MIG)
讓每個 A100 GPU 最多能分隔成七個執行個體,各自完全獨立且具備個別的高頻寬記憶體、快取和運算核心。透過此種方式來達到AI工作的最佳分配,例如將兩張GPU用於資料分析、四張GPU用於訓練,剩下兩張A100通過MIG配置成十四份GPU,並將這十四份GPU用於模型推論,在推論期間要求更多的會是資料的吞吐量以及同時運算的模型,透過此種方式,可以同時執行高達十四種不同的模型以及運算情境。

[2] DGX Software Stack
在部屬AI相關的程序中,軟體架構是非常重要的部分。從容器到訓練架構,甚至Kubernetes,都是一大挑戰,AI花費的時間很大部份就在環境規劃,而不是程式的撰寫。如何根據使用者需求打造好的AI平台就是一件至關重要的事情。
NVIDIA DGX Software Stack 提供非常好的起點,此堆疊包含了幾乎AI會使用的套件,從底層OS到GPU 驅動,再到容器執行及容器印象檔,都可以藉由NVIDIA之手來協助建構。最複雜也最難設定的kubernetes也可以進行安裝,如何往上堆疊取決於使用者。除此之外,DGX系列也包含了NVIDIA enterprise support,在開發程式的過程中,遇到問題,往往都不是IT能解決,通常都只能尋求開源社群的協助,拖累了開發的進度。但透過NVIDIA Enterprise support,可以與NVIDIA原廠專家進行直接的溝通,快速解決問題,由此提升開發速度。


[3] NVIDIA DGXperts
DGXperts 是由將近兩萬位的AI專家所組成,他們具有數千種DGX環境部屬的經驗。他們的範圍包括了系統設計和規劃,數據中心設計,工作負載測試,作業規劃,資源管理以及持續的優化。擁有DGX系統,即可直接與這些專家聯繫。 NVIDIA DGXperts可以補充您內部AI的專業知識,使您可以將企業級平台與AI人才相結合,以實現企業的AI產品整合目標。


產品洽詢:零壹科技 張小姐  <chi.chang@zerone.com.tw>