HOME > 解決方案

NVIDIA 為社群自駕車 研究優化高效能運算 (HPC) 資源

2021/03/23



虛擬化 GPU 技術可以降低基礎架構的營運成本, 同時滿足研究人員在運算平台方面的特殊需求。

克萊門森大學是位於南卡羅萊納州克萊門森的公立贈地( land-grant )研究型大學。該校擁有七所學院,在整個南卡羅來納州皆設有經濟發展中心和研究 設施。該校每年為該州產生大約 19 億美元的經濟影響。克萊門森大學的運算研究中心稱為 Palmetto 叢集,是美國最大的公用學術超級電腦之一,在前 500 大美國學術系統中排名第九。
Palmetto 叢集是一個以自製社群公寓模型為基礎的高效能運算( HPC )基礎架構。它是一個異質系統,在十年之內分階段逐步建立而成,具有 2,000 多個運算節點以及 1,000 多個 NVIDIA® GPU。
為了改善 Palmetto 對研究人員的可存取性,克萊門森大學的 IT 管理員不斷尋求更好、更創新的方式來加強 Palmetto 高效能運算基礎架構,並提高其資源利用率。最近,克萊門森大學在為自動駕駛車( AV )研究專案建立新叢集時, 發現了虛擬化 GPU( vGPU )技術在其基礎架構中的價值。
 
解決方案
在內部討論過程中,克萊門森大學資深高效能運算研究員兼系統科學家 Xizhou Feng 博士提出一個構想,建議使用搭載 GPU 的虛擬機器取代實體伺服器,用以建立OpenCAV 運算基礎架構。此構想是受到某一位教職員偶然提出的問題而啟發:「 他們在先前的 Metamoto 電子郵件中提到,他們將每一個 K80 計為兩個 GPU 節點,並指出
K80 是『 雙 GPU 』設計,那麼該如何計算每一個 V100 ?」Feng 對於此問題感到好奇, 在研究 NVIDIA 的虛擬化 GPU 技術網站之後,他回答:「 答案依虛擬化 GPU 配置而定。透過合適的虛擬機器監視器軟體支援,一個 V100 PCIe 32G 可以支援多達八個
V100-4GB 虛擬化 GPU。」克萊門森團隊在諮詢 Metamoto 團隊之後,採用了虛擬化GPU 設計。
20197 月,先進運算基礎架構團隊開始為 OpenCAV 建置內部部署解決方案。系統是由兩個 Dell R740 伺服器組成,且叢集由八個工作者 VM 組成,每一個 VM 有一NVIDIA V100-8Q 虛擬化 GPU,由兩張實體 V100 PCIe 32GB 卡提供。亦即,該
解決方案使用單一運算節點與兩個 V100 PCIe 32G GPU,建立八個虛擬機器( VM )。根Metamoto 的要求,每一個 VM 都有 8Q 設定檔虛擬化 GPU,執行 Ubuntu 16.04.6 LTS Linux 伺服器,並做為執行 Metamoto 模擬的 Kubernetes 節點。不具任何 GPU 獨立伺服器,則提供另一組執行 Kubernetes 主控端、VMware vCenter 和授權伺服器的VM
NVIDIA 為不同的應用情境提供多種虛擬化 GPU 授權軟體產品。vComputeServer 軟體讓資料中心可以利用 GPU 加快伺服器虛擬化,在虛擬機器上執行運算最密集的工作負載,例如人工智慧、深度學習以及資料科學。除 NVIDIA vComputeServer 提供的功能外,Quadro vDWS 軟體亦可支援虛擬化專業繪圖應用程式。

最初,克萊門森團隊是因為對 Metamoto 有運算密集型工作負載的印象,而選擇 NVIDIA vComputeServer。後來,該團隊確定 NVIDIA Quadro vDWS 會是更好的解決方案, 因為 Metamoto 具有支援視覺化( OpenGL 所需的設計元件,而 Quadro vDWS 可以讓研究人員針對模擬和分析進行設計與視覺化。
10 月下旬,Metamoto 技術團隊來到現場,並在虛擬叢集上安裝 Metamoto 軟體平台。之後,將叢集移交給 OpenCAV 團隊,他們使用與 AWS 上相同的方式讓 Metamoto 開始 運作。


 
了解更多詳細內容,請立即點入 : https://reurl.cc/pm85qb