云南電腦|昆明電腦|電腦批發(fā)|it行業(yè)聯(lián)盟
近日,AMD發(fā)布了計(jì)算加速卡“Alveo V80”,專(zhuān)為內(nèi)存密集型工作負(fù)載提供靈活的加速,也是AMD第一款大規(guī)模市場(chǎng)化的FPGA加速卡產(chǎn)品。
它有著豐富的應(yīng)用領(lǐng)域和場(chǎng)景,比如基因組學(xué)、分子動(dòng)力學(xué)、傳感器處理等高性能計(jì)算,欺詐檢測(cè)、公共事業(yè)、醫(yī)療分析、供應(yīng)鏈分析等數(shù)據(jù)分析,風(fēng)險(xiǎn)分析、算法交易、Web3應(yīng)用等金融科技,數(shù)據(jù)包監(jiān)控、防火墻等網(wǎng)絡(luò)安全,存儲(chǔ),推薦引擎、大語(yǔ)言模型等AI計(jì)算,等等。
簡(jiǎn)單地說(shuō),它和AMD Instinct這樣的產(chǎn)品都屬于計(jì)算加速器,但不是負(fù)責(zé)在算力上進(jìn)行加速,而是專(zhuān)門(mén)用于解決大數(shù)據(jù)集計(jì)算負(fù)載中經(jīng)常存在的內(nèi)存以及網(wǎng)絡(luò)瓶頸,打通整個(gè)計(jì)算鏈條。
這也是AMD的獨(dú)特優(yōu)勢(shì)產(chǎn)品,更是其全棧計(jì)算解決方案中的重要一環(huán)。
這是傳統(tǒng)的大數(shù)據(jù)集工作負(fù)載處理流程示意圖,可以看出有兩個(gè)地方容易成為瓶頸。
一是內(nèi)存,無(wú)論是DDR4還是DDR5,帶寬其實(shí)都是有限的,無(wú)法和PCIe相媲美,經(jīng)常無(wú)法滿足CPU、FPGA等各種芯片、計(jì)算傳輸?shù)男枰?/p>
二是網(wǎng)絡(luò),傳統(tǒng)方案往往是固定網(wǎng)絡(luò)接口與帶寬,一旦需要超大規(guī)模數(shù)據(jù)傳輸,就可能滿足不了。
另外,整個(gè)工作流程也缺乏全方面的安全防護(hù)。
AMD Alveo V80加速卡就是為解決這類(lèi)問(wèn)題而來(lái)。
首先將板載的獨(dú)立內(nèi)存升級(jí)為整合HBM,其優(yōu)勢(shì)就是超高帶寬,又與主芯片緊密集成,已經(jīng)在HPC/AI加速器中廣泛應(yīng)用。
其次是支持從10G到800G的廣泛網(wǎng)絡(luò)連接,可以按需選擇、組合,滿足靈活應(yīng)變的計(jì)算。
另外就是全程都有安全連接,對(duì)于敏感應(yīng)用是非常關(guān)鍵的。
這就是AMD Alveo V80加速卡的整體設(shè)計(jì)與規(guī)格,全高、3/4長(zhǎng)度的擴(kuò)展卡形態(tài),也就是高約111毫米、長(zhǎng)約234毫米。
主芯片采用7nm工藝制造,是一顆Versal HBM XCV80自適應(yīng)SoC,集成了多達(dá)260萬(wàn)個(gè)LUT可編程邏輯單元、10848個(gè)DSP計(jì)算邏輯單元,還整合封裝了32GB HBM2E高帶寬內(nèi)存,帶寬高達(dá)820GB/s。
如果需要,還可以通過(guò)板載的DDR4 DIMM標(biāo)準(zhǔn)插槽,再擴(kuò)展最多32GB內(nèi)存。
網(wǎng)絡(luò)方面采用QSFP56光纖模塊,支持最高800G帶寬,可實(shí)時(shí)處理傳入的海量數(shù)據(jù),并支持4X200G,以及4X10G/25G/40G/50G等不同工作模式,能通過(guò)以太網(wǎng)擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn),組建計(jì)算集群。
同時(shí)內(nèi)置400G加密引擎、600G以太網(wǎng)硬塊,再加上FPGA的硬件靈活性,可以實(shí)現(xiàn)線速數(shù)據(jù)包檢測(cè),以及AI支持的異常檢測(cè),確保網(wǎng)絡(luò)安全。
卡上還設(shè)置了MCIO擴(kuò)展端口,可以直連NVMe存儲(chǔ),并完成板對(duì)板仿真開(kāi)發(fā)工作。
系統(tǒng)連接總線支持一路PCIe 4.0 x16或者兩路PCIe 5.0 x8。
整卡電氣功耗300W,熱設(shè)計(jì)功耗190W,可以采用被動(dòng)散熱,也可以根據(jù)元器件和服務(wù)器來(lái)定制熱設(shè)計(jì)功耗水平。
Versal HBM自適應(yīng)SoC芯片的整體架構(gòu)圖,可以看到兩個(gè)Cortex-A72應(yīng)用處理器核心、兩個(gè)Cortex-R5F實(shí)時(shí)處理器核心、可編程邏輯引擎、DPS引擎等核心組件,其中DSP性能比上代提升了2-3倍。
它硬化了與基礎(chǔ)設(shè)施的連接,包括DDR內(nèi)存控制器、DMA PCIe控制器、可編程片上網(wǎng)絡(luò)等,集成度更高,連接更方便。
此外就是網(wǎng)絡(luò)部分,集成多個(gè)高帶寬核心,包括一個(gè)100G以太網(wǎng)核心、一個(gè)600G以太網(wǎng)核心、一個(gè)600G Interlaken核心,以及一個(gè)400G加密引擎。
傳統(tǒng)架構(gòu)是固定的緩存層次,數(shù)據(jù)的讀取和寫(xiě)入必須非常“規(guī)矩”,一旦有不規(guī)則的訪問(wèn),就會(huì)大大降低效率。
自適應(yīng)計(jì)算新架構(gòu)則非常靈活,就是在計(jì)算附近分配內(nèi)存,可以大大降低延遲、功耗,而且可以靈活適應(yīng)自定義的數(shù)據(jù)類(lèi)型和數(shù)據(jù)遷移。
預(yù)構(gòu)建硬化的數(shù)據(jù)中心基礎(chǔ)設(shè)施連接,可以非常方便地連接板載擴(kuò)展內(nèi)存、以太網(wǎng)絡(luò)、MCIO端口,以及高性能的EPYC處理器。
相比于傳統(tǒng)的GPU加速器,Alveo V80這樣的網(wǎng)絡(luò)附接加速卡自然不是用來(lái)完全取代的,但在很多應(yīng)用中也有自己獨(dú)特的優(yōu)勢(shì)。
尤其是GPU加速卡都要與CPU連接,擴(kuò)展數(shù)量存在很大的限制,網(wǎng)絡(luò)附接加速卡就更靈活一些,包括低時(shí)延傳入網(wǎng)絡(luò)、繞開(kāi)CPU與加速器之間的PCIe連接瓶頸、無(wú)需獨(dú)立網(wǎng)卡,從而實(shí)現(xiàn)加速卡和計(jì)算密度的最大化。
同時(shí),對(duì)于傳入網(wǎng)絡(luò)數(shù)據(jù)可以靈活管理,包括按需限速、在線加密、數(shù)據(jù)包監(jiān)控等等。
這是和上一代Alveo U55C的性能對(duì)比:
內(nèi)存帶寬提升至1.8倍,邏輯單元密度提升至2倍,網(wǎng)絡(luò)帶寬提升至4倍(200G變成800G),PCIe帶寬提升至2倍(PCIe 4.0升級(jí)到PCIe 5.0)。
Alveo V80加速卡應(yīng)用案例,澳大利亞國(guó)家級(jí)研究機(jī)構(gòu)CSIRO(聯(lián)邦科學(xué)與工業(yè)研究組織)參與建設(shè)的世界最大射電天文天線陣列,通過(guò)處理無(wú)線電波,研究早期宇宙及其演化,擁有多達(dá)13.1萬(wàn)個(gè)天線,持續(xù)傳感器傳輸帶寬高達(dá)15Tbps。
該陣列目前配備420塊Alveo U55C加速卡,用于波束成形和相關(guān)器,需要占用21臺(tái)服務(wù)器和4個(gè)機(jī)架空,已經(jīng)逐漸無(wú)法滿足越發(fā)復(fù)雜的負(fù)載需求。
為此,CSIRO升級(jí)到了Alveo V80,只需要140塊加速卡、14臺(tái)服務(wù)器,分別減少了2/3、1/3,性能提升了2-3倍,但同時(shí)功耗也降低了多達(dá)55%,三年TCO成本還可降低最多達(dá)21%。
再比如具備壓縮與數(shù)據(jù)分析功能的服務(wù)器存儲(chǔ)節(jié)點(diǎn),引入Alveo V80進(jìn)行壓縮,可以減少61%的服務(wù)器空間、44%的服務(wù)器成本、55%的功耗,三年TCO總成本可以節(jié)省多達(dá)56%。
還有網(wǎng)絡(luò)安全、金融科技方面的用例,Alveo V80加速卡都可以帶來(lái)更高的價(jià)值,這里就不展開(kāi)了。
Alveo V80主要面向傳統(tǒng)的FPGA軟硬件開(kāi)發(fā)人員,可以繼續(xù)利用AMD Vivado設(shè)計(jì)套件、Alveo Versal示例設(shè)計(jì)(AVED),后者已可在GitHub上獲取。
?