芯片圈變天了:英偉達推出首個 CPU,狂捧 Arm 生態
4 月 13 日報道,今日凌晨,一年一度影響人工智能及高性能計算技術盛會 NVIDIA GTC 如期而至,這是 GTC 大會繼去年后第二次在線上舉行。
NVIDIA(英偉達)創始人黃仁勛依然穿著拉風的皮衣,在自家廚房舉辦發布會。可以明顯看到,老黃的頭發更白了,也更長了。
去年 NVIDIA 重磅發布旗艦 A100 GPU 以及一系列服務器、集群、超算,轟動整個人工智能領域,如今,老黃帶著一系列軟硬件新品高調回歸。
萬萬沒想到,這一次,全球 GPU 霸主 NVIDIA 推出了一款基于 Arm 的數據中心 CPU!
在宣布 400 億美元收購 Arm 的 6 個月后,NVIDIA 連發三款基于 Arm IP 打造的處理器,包括全球首款專為 TB 級加速計算而設計的 CPU NVIDIA Grace、全新 BlueField-3 DPU,以及業界首款 1000TOPS 算力的自動駕駛汽車 SoC。
“我們每年都會發布激動人心的新品。三類芯片,逐年飛躍,一個架構。”黃仁勛說,數據中心路線圖包括 CPU、GPU 和 DPU 這三類芯片,而 Grace 和 BlueField 是其中必不可少的關鍵組成部分。每個芯片架構歷經兩年的打磨周期(周期內可能出現轉變),一年專注于 x86 平臺,另一年專注于 Arm 平臺。
此外,NVIDIA 還公布了與亞馬遜 AWS、Ampere Computing、聯發科和 Marvell 等基于 Arm 的 CPU 平臺的合作伙伴關系。
在軟件方面,超大規模語言模型訓練與推理問答引擎 Megatron、實時對話式 AI 平臺 Jarvis、AI 網絡安全框架 Morpheus、Omniverse 企業版、由 GPU 加速的量子電路模擬框架 CuQuantum 等一系列最新進展首次揭曉。
顯然,面向數據中心異構計算的新天地,NVIDIA 正集合軟硬件技術優勢,打出高調的組合拳。
一、3 款自研 Arm 芯:首顆數據中心 CPU 落地全球最快 AI 超算
此次發布會令人最印象深刻的,就是 NVIDIA 在助推 Arm 生態方面不遺余力,從自研 CPU、DPU、自動駕駛處理器到 GPU 的合作伙伴,從云、高性能計算、邊緣計算到 PC,無處不 Arm。
先來看下這次發布的五款硬件新品:
1、首顆數據中心 CPU:落地全球最快 AI 超算
黃仁勛宣布的第一個重磅新品,是一款專為大規模人工智能和高性能計算應用而設計的 CPU——NVIDIA Grace。
絕大多數的數據中心仍將繼續使用現有的 CPU,而 Grace 主要將用于計算領域的細分市場,預計將于 2023 年可供貨。
由于超大規模的模型很難完全放進 GPU 內存,如果存儲在系統內存,訪問速度則會大大受限,這款 CPU 的問世主要即是為了解決這一瓶頸。
NVIDIA Grace 以發明了世界上第一個編譯器、被稱為“計算機軟件工程第一夫人”的先驅計算機科學家 Grace Hopper 命名,具體有 3 點創新進步:
(1)內置下一代 Arm Neoverse 內核,每個 CPU 能在 SPECrate2017_int_base 基準測試中單位時間運行超過 300 個實例;
(2)采用第四代 NVIDIA NVLink,從 CPU 到 GPU 連接速度超過 900GB/s,達到相當于目前服務器 14 倍的帶寬;從 CPU 到 CPU 的速度超過 600GB/s。
(3)擁有最高的內存帶寬,采用的新內存 LPDDR5x 技術,帶寬是 LPDDR4 的兩倍,能源效率提高了 10 倍,能提供更多計算能力。
明年將有兩臺性能強大的 AI 超級計算機面世,都將采用 NVIDIA Grace,據稱其與 NVIDIA GPU 緊密結合,性能將比目前最先進的 NVIDIA DGX 系統(在 x86 CPU 上運行)高出 10 倍。
這兩臺 AI 超算中,瑞士國家計算中心(CSCS)正在打造一個算力可達 20Exaflops 的系統,美國洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)也將為其研究人員配備新 AI 超算。
2、Bluefield-3 DPU:220 億晶體管
在黃仁勛看來,負責在數據中心傳輸和處理數據的數據處理單元(DPU),正與 CPU、GPU 共同組成“未來計算的三大支柱”。
NVIDIA 全新 BlueField-3 DPU 包含 220 億個晶體管,采用 16 個 Arm A78 CPU 核心、18M IOPs 彈性塊存儲,加密速度是上一代的 4 倍,并完全向下兼容 BlueField-2。
BlueField-2 能夠卸載相當于 30 個 CPU 核的工作負載,而 BlueField-3 實現了 10 倍的加速計算性能提升,能夠替代 300 個 CPU 核,以 400Gbps 的速率,對網絡流量進行保護、卸載和加速。該處理器也是首款支持第五代 PCIe 總線并提供數據中心時間同步加速的 DPU。
BlueField-3 通過 NVIDIA DOCA(集數據中心于芯片的架構)軟件開發包為開發者提供一個完整、開放的軟件平臺,開發在 BlueField DPU 上開發軟件定義和硬件加速的網絡、存儲、安全和管理等應用。DOCA 已于今日發布并提供下載。
新一代 BlueField-3 DPU 預計將于 2022 年第一季度發布樣品,第四代 BlueField DPU 算力達 1000TOPS,網絡速率達 800Gbps。
3、車輪上的數據中心:業界率先達成 1000TOPS
NVIDIA DRIVE Atlan 是新一代 AI 自動駕駛汽車處理器,算力將達到 1000TOPS,約是上一代 Orin 處理器的 4 倍,超過了絕大多數現有無人駕駛出租車的智能計算能力。
這是 DRIVE 平臺首次集成 DPU,通過 Arm 核為自動駕駛汽車帶來數據中心級的網絡,致力于應用到 2025 年的車型。
該 SoC 采用下一代 GPU 的體系結構、新型 Arm CPU 內核、新深度學習和計算機視覺加速器,并內置為先進的網絡、存儲和安全服務的 BlueField DPU,網絡速度可達 400Gbps。
黃仁勛夸贊說:“Atlan 集 NVIDIA 在 AI、汽車、機器人、安全和 BlueField 安全數據中心領域的所有技術之大成,堪稱一項技術奇跡。”
4、便捷式 AI 數據中心和 DGX SuperPod 雙升級
黃仁勛還宣布升級 NVIDIA 專為工作組打造的“便攜式 AI 數據中心”NVIDIA DGX Station,以及 NVIDIA 專為密集型 AI 研發打造的 AI 數據中心產品 NVIDIA DGX SuperPod。
全新 DGX Station 320G 借助 320GB 超快速 HBM2e 連接至 4 個 NVIDIA A100 GPU,內存帶寬達到每秒 8TB。然而,僅需將其插入普通的壁裝電源插座即可使用,耗電量只有 1500W。
黃仁勛說,達到這種性能的 CPU 集群成本約為 100 萬美元,而 DGX Station 僅需 14.9 萬美元。
DGX SuperPOD 使用全新 80GB NVIDIA A100,將其 HBM2e 內存提升至 90TB,實現 2.2EB/s 的總帶寬。要實現如此的帶寬,需要 11000 臺 CPU 服務器,大約相當于有 250 個機柜的數據中心,比 SuperPOD 多 15 倍。
目前它已經升級至采用 NVIDIA BlueField-2,且 NVIDIA 如今還為該產品提供配套的 NVIDIA Base Command DGX 管理和編排工具。
5、Aerial A100:5G+AI 的新型邊緣計算平臺
黃仁勛還提到了 NVIDIA 的 AI-on-5G 計算平臺,這是一款專為邊緣設計、將 5G 和 AI 相結合的新型計算平臺。該平臺將采用 NVIDIA Aerial 軟件開發套件與 NVIDIA BlueField-2 A100,將 GPU 和 CPU 組合成“有史以來最先進的 PCIE 卡。”
富士通、谷歌云、Mavenir、Radisys 和 Wind River 等合作伙伴都在開發適用于 NVIDIA AI-on-5G 平臺的解決方案。
二、協作亞馬遜自研 CPU 支持云服務,打造 Arm+GPU 新 PC
除了推出基于 Arm 的 CPU 外,NVIDIA 還宣布一系列與 Arm 處理器設計商的合作進展,包括將為亞馬遜 AWS Graviton2 CPU 提供 GPU 加速、為科學和 AI 應用開發提供支持的全新 HPC 開發者套件、提升邊緣視頻分析和安全功能、打造新一類基于 Arm 并搭載 NVIDIA RTX GPU 的新款 PC 等。
這些舉動反映出無論是市場還是 NVIDIA 自身,對基于 Arm 的解決方案的興趣已經超出移動領域。
1、NVIDIA GPU 搭配亞馬遜自研 CPU 賦能云服務
2021 年下半年,基于亞馬遜云科學(AWS)自研服務器處理器 AWS Graviton2 的 Amazon EC2 實例將與 NVIDIA GPU 相結合,在云端部署。
這一新組合將實現降低成本、支持更豐富的游戲串流體驗、優化云上安卓游戲和人工智能推理、以更低成本提供更高的 AI 推理性能等優勢。
黃仁勛說:“我們致力于將 Arm 生態系統擴展到移動和嵌入式系統以外的市場,而今日宣布的新合作伙伴,正是我們邁出的第一步。”
2、新 HPC 開發者套件,支持科學和 AI 應用開發
為了更好地支持科學和 AI 應用開發,面向高性能計算領域,NVIDIA 推出了全新 HPC 開發者套件。
NVIDIA 全新 HPC 開發者套件為超級計算機提供了一個高性能、高能效的平臺,該平臺結合了 1 個 Ampere Altra CPU(包含 80 個 Arm Neoverse 核,運行頻率高達 3.3GHz)、雙 NVIDIA A100 GPU(每個 GPU 可提供 312TFLOPS 的 FP16 深度學習性能)、兩個用于加速網絡、存儲和安全的 NVIDIA BlueField-2 DPU。
該開發者套件包含一套 NVIDIA 編譯器、庫和工具,可用于創建 HPC 和 AI 應用,以及將其遷移到 GPU 加速的 Arm 計算系統中,將于 2021 年第三季度上市,多家頂尖研究機構已率先展開部署。
3、加速邊緣安全功能,打造由 GPU 驅動的新 PC
今天 NVIDIA 還宣布了提升邊緣視頻分析和安全功能、打造新一類基于 Arm 并搭載 NVIDIA RTX GPU 的新款 PC 等進展。
在邊緣計算領域,NVIDIA 正擴大與 Marvell 的合作,將基于 Arm 的 OCTEON DPU 與 GPU 相結合,加速 AI 工作負載,實現網絡優化和安全。
在 PC 領域,NVIDIA 與全球最大的基于 Arm 的 SoC 供應商之一聯發科合作,共同打造一個采用 Arm 核與 NVIDIA 顯卡、支持 Chromium、Linux 和 NVIDIA SDK 的參考平臺,將 GPU 的性能及先進的 AI、光線追蹤圖形等技術帶入 Arm PC 平臺。
此外,NVIDIA 也正與富士通、SiPearl 等其他合作伙伴共同致力于擴展 Arm 生態系統。
三、更多 AI 平臺落地,首秀量子電路模擬框架
NVIDIA 在去年推出了一個機架比肩 AI 數據中心的 AI 系統 DGX A100、AI 算力高達 700 PFLOPS 的集群 DGX SuperPOD、千萬億級工作組服務器 DGX Station A100。
面向 AI 應用需求,NVIDIA 已經提供 Megatron、Jarvis、Merlin、Maxine、Isaac、Metropolis、Clara 和 DRIVE、以及各種可使用 TAO 進行定制化的預訓練模型。
今天,NVIDIA 進一步強化企業計算服務,不僅推出大型語言模型訓練與推理問答引擎、宣布對話式 AI 平臺最新落地進展,還展示了其量子電路模擬框架。
1、NVIDIA EGX:擴大認證服務器生態系統
為進一步實現 AI 民主化,黃仁勛發布了來自頂尖制造商的新系列 NVIDIA 認證系統,即大容量企業級服務器,現已通過認證。
這一系統可運行 NVIDIA AI Enterprise 軟件套件,該套件得到了全球應用最廣泛的計算虛擬化平臺 ——VMware vSphere 7 的獨家認證。
NVIDIA 今日推出多款新系統,以擴大 NVIDIA 認證服務器生態系統。這些新系統配備用于主流 AI 和數據分析的 NVIDIA A30 GPU,以及用于 AI 圖形、虛擬工作站以及混合計算和圖形工作負載的 NVIDIA A10 GPU。
2、Megatron:超大型語言模型訓練與推理
黃仁勛發布了用于訓練 Transformers 的超大語言模型的 NVIDIA Megatron Triton 推理服務器。
Transformers 已幫助開發者在自然語言處理領域取得了突破性進展,能夠生成文檔摘要、將電子郵件中的短語補充完整、對測驗進行評分、生成體育賽事現場評論、甚至生成代碼。
使用 Megatron Triton 的 DGX A100 能在 1 秒內做出響應,可同時支持 16 項查詢,而雙插座 CPU 服務器支持 1 條問詢就超過了 1 分鐘。
3、Jarvis:實時對話式 AI 平臺現可使用
Jarvis 是一個基于 NVIDIA GPU 提供實時性能的靈活、多模態對話式 AI 服務應用框架,可幫助開發者輕松實現實時語音識別、轉錄、摘要、翻譯、封閉式字幕、虛擬助手、聊天機器人等功能。
現在,NVIDIA 已經是一個生產就緒、現已可用的端到端對話式 AI 模型,企業可基于自身數據和特定需求對模型做進一步的微調,并使用 NGC 實現在云或邊緣快速部署定制化語言型 AI 服務。
為幫助客戶將自身專業知識應用于 AI 領域,黃仁勛還宣布推出 NVIDIA TAO,其可以運用客戶和合作伙伴的數據,對 NVIDIA 預訓練模型進行微調和適配,同時保護數據隱私。
4、Morpheus:AI 網絡安全應用框架
為了保障現代化數據中心的安全,黃仁勛宣布推出基于 NVIDIA GPU、BlueField DPU、Net-Q 網絡遙測軟件和 EGX 的新型 AI 框架而構建的 NVIDIA Morpheus 數據中心安全平臺,能夠對完整的數據包進行實時檢測、預防安全威脅,現可搶先試用。
作為一個基于 AI 的云原生網絡安全框架,NVIDIA Morpheus 通過在邊緣和 AI 技術的結合,利用實時的遙測、策略執行及操作,可以在不犧牲成本和性能的情況下分析更多的安全數據,識別、捕捉和應對以往無法識別的威脅和異常情況,如未加密敏感數據的泄露、網絡釣魚攻擊和惡意軟件。
Morpheus 與 BlueField DPU 相結合,使網絡中的每個計算節點都成為邊緣網絡防御傳感器,企業無需復制數據,也能夠以線速分析每個數據包。相比之下,傳統的 AI 安全工具通常只能采樣 5% 左右的網絡流量數據,因此威脅檢測算法并非基于完整的模型。
同步推出的 BlueField-3 可為 NVIDIA Morpheus 提供實時的網絡可視化、網絡威脅的檢測與響應、以及監控、遙測和代理服務。開發者還能夠在現有 IP 投資的基礎上,使用深度學習模型來創建自己的 Morpheus AI 功能。
5、CuQuantum:量子電路模擬框架
為加快有賴于量子位(或量子比特,能作為單個的 0 或 1 存在,也可以同時作為二者存在)的量子計算研究,黃仁勛推出了 cuQuantum,為量子電路模擬器提供加速。
這是專為模擬量子電路而設計的加速庫,適用于張量網絡求解器和狀態向量求解器,經過優化后,可以擴展到大 GPU 顯存、多個 GPU 和多個 DGX 節點。
運行 cuQuantum 基準測試時,狀態向量模擬在雙 CPU 服務器上需要 10 天,但在 DGX A100 上只需 2 小時,DGX 上的 cuQuantum 可以高效模擬 10 倍的量子位,從而助力研究人員設計出更完善的量子計算機。
四、公布自動駕駛新平臺,擴大與沃爾沃合作
自動駕駛汽車(AV,Autonomous vehicles)是 NVIDIA 近年來極其重視的賽道之一。除了前文提及的 1000TOPS 自動駕駛處理器外,此次黃仁勛還推出了 Hyperion 8 AV 平臺,并宣布沃爾沃汽車擴大與 NVIDIA 的合作。
NVIDIA Hyperion 8 AV 平臺是一個先進的數據采集、開發和測試平臺,包含參考傳感器、自動駕駛汽車和中央計算機、3D 地面真實數據記錄儀、網絡以及所有必要的軟件。
沃爾沃汽車從 2016 年開始借助高性能且高能效的 NVIDIA DRIVE 的算力,基于 NVIDIA DRIVE Xavier,為新車型開發 AI 輔助駕駛功能,軟件則由沃爾沃汽車旗下的自動駕駛軟件開發公司 Zenseact 自主研發。
黃仁勛說,將于 2022 年投產的 NVIDIA 自動駕駛汽車計算系統級芯片 NVIDIA DRIVE Orin,旨在成為汽車的中央電腦。
而沃爾沃汽車將為新一代汽車的自動駕駛計算機配備 NVIDIA DRIVE Orin。
這意味著兩家公司的合作深入到更多軟件定義車型,首發就是將于 2022 年發布的新一代 XC90。
五、推出英偉達 Omniverse 企業版,賦能 Drive SIM 2.0
黃仁勛強調說,NVIDIA 是一家軟件平臺公司,并大力發展 NVIDIA AI 和將 3D 世界連接至共享虛擬世界的 NVIDIA Omniverse。
NVIDIA Omniverse 是一款多 GPU 可擴展的云原生平臺,支持建模、布局、著色、合成、渲染、動畫等一系列構建 3D 虛擬建模所需的功能,用于仿真、協作和自主機器訓練。
其特點還包括:具有高物理精度、能夠充分運用 RTX 實時路徑追蹤和 DLSS、可以使用 NVIDIA MDL 模擬材料、可以使用 NVIDIA PhysX 模擬物理學并且與 NVIDIA AI 完全集成。
黃仁勛提到:“Omniverse 旨在創建共享虛擬 3D 世界,就像尼爾?斯蒂芬森在 1990 年代早期的小說《雪崩》中所描述的科幻虛擬空間那樣。”
去年 12 月,NVIDIA 推出了 Omniverse 公測版本。自公測版發布以來,建筑、游戲以及大型廣告公司等合作伙伴都將 Omniverse 運用到其工作中。
從今年夏季開始,NVIDIA 將提供 Omniverse 企業授權許可。
黃仁勛還宣布 DRIVE Sim 將于今年夏季開放供業界使用。他提到 Omniverse 中的 DRIVE 數字孿生是能夠與車隊中每一位工程師和每一輛車互聯的虛擬空間。
正如 Omniverse 能夠構建汽車生產工廠的數字孿生一樣,DRIVE Sim 也可用于創建自動駕駛汽車的數字孿生,并將其用于自動駕駛汽車的開發。
此外,NVIDIA 正與寶馬合作打造一個完全采用數字化設計的未來工廠,自始至終在 Omniverse 中進行模擬,創建數字孿生,并讓機器人與人類協同工作開展運營。
結語:NVIDIA 集齊“未來計算的三大支柱”
總體來看,NVIDIA 今日公布的多項成果與進展,為基于 Arm 的解決方案帶來更多可能性,NVIDIA 這又打造硬件又優化軟件的勢頭,更加彰顯了其主導數據中心領域 AI 和 HPC 市場的決心,也為頗負盛名的 GTC 大會打出了響亮的頭炮。
此次 GTC 線上大會共超過 10 萬人注冊參會,共計將舉行 1600 多場技術演講。在接下來的 5 天內,3 位圖靈獎得主、12 位戈登 - 貝爾獎得主、10 位奧斯卡獎得主,以及來自微軟、Arm、奧迪汽車、亞馬遜、通用電氣、微軟等企業的領導人均將在此次科技盛會上發表演講。
從最新一系列努力來看,NVIDIA 身上早已貼上遠多于 GPU 巨頭的更多標簽,成為全棧計算平臺。首款數據中心 CPU 的發布,也宣告著 NVIDIA 的異構計算布局再添新的關鍵元件,數據中心產品線集齊 CPU、GPU、DPU 這“未來計算的三大支柱”。
NVIDIA 正卯足了勁兒推進將 GPU 與 Arm 系 CPU 相結合的生態發展,這一切顯然還只是開始。
- 9-12· 汽車芯片業應把握時代機遇 打造芯片生態
- 11-19· 消息稱芯片光學檢測設備商 Nextin 正與多家中國芯片廠進行供貨談判
- 11-17· 消息稱芯片光學檢測設備商 Nextin 正與多家中國芯片廠進行供貨談判
- 3-18· 芯片短缺:三星美國工廠已停產一個月,今年或暫停 Note 系列
- 3-15· 芯片產能不足影響向三星供貨,高通將優先保證高端 SoC 生產
- 2-1· 芯片級支持,谷歌 YouTube 和 Netflix 未來將支持 AV1 硬件解碼
- 2-1· 聯發科芯片巨頭官宣5nm,成功拿下小米、榮耀訂單!
- 9-28· 芯片巨頭鎧俠 Kioxia (原東芝存儲)取消 IPO 計劃
- 7-1· 芯片后端供應鏈擴大產能,應對聯發科追加訂單
- 5-21· 華為芯片20年