97se亚洲国产综合自在线,欧美成人免费专区精品高清,人妻人人添人人爽夜夜欢视频,日本中文字幕在线观看全,98久久人妻少妇激情啪啪

新聞中心

ICCAD 演講回顧 | 大算力時代接口IP面臨新機(jī)遇

2023-11-27

大模型參數(shù)跨越千億的時代,人們對算力的需求也在一路飆漲。以O(shè)penAI GPT系列的版本演進(jìn)為例,從GPT-1(2018.06)到GPT-2(2019.02)、GPT-3(2020.05)、GPT-3.5(2022.11)、GPT-4(2023.03),參數(shù)量和語料庫持續(xù)升級。目前AI超大模型的參數(shù)已經(jīng)達(dá)到千億,甚至萬億數(shù)量級。海量數(shù)據(jù)在對訓(xùn)練場景下的算力和顯存提出高要求的同時,也對芯片接口的性能提出新的挑戰(zhàn)。因為AI算力的提升方式,除了依靠單體GPU卡的算力迭代,還需要高速的芯片互聯(lián)技術(shù)作為支撐,從而實現(xiàn)多顆GPU之間的高效聚合、提升GPU算力的可擴(kuò)展性,進(jìn)而形成強(qiáng)大的集群算力。為提升異構(gòu)并行處理超大數(shù)據(jù)量的效率,板上芯片間互聯(lián)、片內(nèi)Die間互聯(lián)總線均需升級。

 

 

近日,在ICCAD 2023大會上,上海合見工業(yè)軟件集團(tuán)子公司北京諾苪集成電路總經(jīng)理楊凱就此話題發(fā)表了演講,探討如何應(yīng)對訪存帶寬和容量的高速增長,以及在提供更高互聯(lián)帶寬、支持大規(guī)模組網(wǎng)中,接口IP廠商所能發(fā)揮的作用。

 

大算力芯片:性能和規(guī)模要求越來越高

 

半導(dǎo)體IP與EDA相同,均屬集成電路的上游核心產(chǎn)業(yè),對IP核的開發(fā)和復(fù)用極大促進(jìn)了芯片設(shè)計的快速發(fā)展。半導(dǎo)體IP研究機(jī)構(gòu)IPnest報告顯示,2022年設(shè)計IP市場規(guī)模66.7億美元,但從市場價值來看,卻撬動了5000多億美元的半導(dǎo)體產(chǎn)業(yè)不斷發(fā)展。

 

接口IP作為半導(dǎo)體IP的重要組成,近年來受HPC、異構(gòu)計算等興起的推動,市場快速發(fā)展。根據(jù)楊凱的介紹,近期大熱的大模型和AIGC也在催生接口IP的市場需求。有消息稱,ChatGPT的訓(xùn)練就使用了1萬張英偉達(dá)的高端GPU。數(shù)量龐大的GPU需要集群在一起進(jìn)行訓(xùn)練。同時,AI訓(xùn)練、推理所面對的數(shù)據(jù)量呈指數(shù)增長,使得無論單服務(wù)器中多GPU、CPU間C2C通信,還是在多服務(wù)器間組網(wǎng),數(shù)據(jù)傳輸總體都呈現(xiàn)出高帶寬、低延遲的技術(shù)需求。這對于IO吞吐的要求也會提高,對高速接口IP帶來了多方面影響。

 

正是由于接口芯片與接口IP重要性不斷提高,合見工軟對于高性能接口IP領(lǐng)域作了布局。2023年5月,上海合見工業(yè)軟件集團(tuán)有限公司完成對北京諾芮集成電路設(shè)計有限公司的收購,進(jìn)入設(shè)計IP市場,并大大加速了諾芮原有IP在頭部企業(yè)的商業(yè)拓展和新產(chǎn)品推出進(jìn)程,不到一年時間即推出首款自主知識產(chǎn)權(quán)的全國產(chǎn)PCIe Gen5完整解決方案UniVista PCIe Gen5 IP。

 

楊凱強(qiáng)調(diào),合見工軟成立以來,除數(shù)字芯片全流程EDA工具以外,在設(shè)計IP領(lǐng)域也深入布局,就是希望在接口IP方面提供優(yōu)質(zhì)高效的產(chǎn)品,幫助國內(nèi)AI芯片企業(yè),在組網(wǎng)能力、訪存能力上更進(jìn)一步,實現(xiàn)更好的性能。

 

Ethernet:低延遲性能國內(nèi)領(lǐng)先

 

Ethernet芯片有著廣泛的應(yīng)用,包括信號調(diào)制解調(diào)、數(shù)據(jù)傳輸接口的驅(qū)動和接收等,其在人工智能中也有著重要的作用。AI技術(shù)需要處理的大量數(shù)據(jù)通常來自于網(wǎng)絡(luò)或云計算中心的數(shù)據(jù)中心,這些數(shù)據(jù)需要通過高速、穩(wěn)定的網(wǎng)絡(luò)傳輸來實現(xiàn),而以太網(wǎng)是一個被廣泛應(yīng)用的網(wǎng)絡(luò)傳輸標(biāo)準(zhǔn),以太網(wǎng)物理層芯片也是保證以太網(wǎng)傳輸質(zhì)量的一個重要組成部分。

 

根據(jù)楊凱的介紹,合見工軟子公司北京諾芮從2018年開始就在設(shè)計Ethernet IP。目前公司的產(chǎn)品已經(jīng)大量應(yīng)用于數(shù)據(jù)中心當(dāng)中,國內(nèi)主流的交換機(jī)芯片、GPU芯片、OTN芯片供應(yīng)商等幾乎都有采用。合見工軟的Ethernet IP有著優(yōu)越的性能,包括集成低延遲的以太網(wǎng)控制器(<100ns@400G),支持1G至800G各種接口類型的以太網(wǎng)控制器,支持OIF定義的完整FlexE解決方案,支持1ns精度的1588時戳產(chǎn)生,提供AXI-S、General FIFO、TDM等多種用戶側(cè)接口,提供基于Descriptor的DMA功能等。

 

支持低延遲對于數(shù)據(jù)中心來說非常重要,尤其是將其使用在訪存應(yīng)用當(dāng)中時。傳統(tǒng)上,處理單元的訪存操作大多通過SRAM、DDR等,延遲都很低,幾乎是幾納秒到幾十納秒數(shù)量級。如果以太網(wǎng)、交換機(jī)的訪存延遲太高,內(nèi)部的執(zhí)行效率就會大幅下降,影響AI系統(tǒng)的性能。合見工軟以太網(wǎng)控制器的延遲在400G的速率下可以小于100納秒。

 

其他幾個方面也很有特色,比如1588的時間戳是業(yè)內(nèi)能提供的最高對時精度方案;可以提供多種用戶側(cè)的接口類型,包括AXI-S、General FIFO、TDM等多種用戶側(cè)接口;可以支持OIF定義的完整FlexE解決方案,這是一個可以把以太網(wǎng)的端口切到更小程度的解決方案。

 

隨著AI技術(shù)的不斷推廣和發(fā)展,通過以太網(wǎng)物理層芯片實現(xiàn)的高速、穩(wěn)定的數(shù)據(jù)傳輸變得更加重要。在AI模型訓(xùn)練和推理過程中,網(wǎng)絡(luò)通訊的效率和延遲都可以影響AI系統(tǒng)的性能,而以太網(wǎng)物理層芯片正是一個能夠從物理層面保證網(wǎng)絡(luò)通訊質(zhì)量的技術(shù)。

 

RDMA芯片:解決網(wǎng)絡(luò)擁塞具優(yōu)勢

 

RDMA IP是合見工軟另一個重要的系列產(chǎn)品。RDMA可以解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理的延遲,通過網(wǎng)絡(luò)把資料直接傳入計算機(jī)的存儲區(qū),不對操作系統(tǒng)造成影響。隨著計算機(jī)視覺、自然語言處理、自動駕駛等場景人工智能應(yīng)用的落地和快速增長,應(yīng)用對海量算力的需求以指數(shù)級別增長,這對基礎(chǔ)設(shè)施提出了大規(guī)模、分布式、高性能的挑戰(zhàn)。通過RDMA消除多GPU跨節(jié)點通信的網(wǎng)絡(luò)瓶頸,顯著降低了訓(xùn)練任務(wù)整個周期中的通信耗時占比,提高了GPU集群計算資源利用率和訓(xùn)練效率,也為集群橫向擴(kuò)展到更大規(guī)模時的線性加速比提供了保證。

 

合見工軟根據(jù)用戶需要,推出完整的RDMA解決方案。除了支持現(xiàn)在標(biāo)準(zhǔn)的RDMA RoCeV2解決方案之外,還形成一些自身特色。比如在解決誤碼方面就形成了差異化優(yōu)勢,現(xiàn)在的網(wǎng)絡(luò)在連接時往往會產(chǎn)生誤碼,一旦出現(xiàn)誤碼就會產(chǎn)生錯誤重傳,而重傳則會降低整個鏈路的效率,甚至形成擁塞的場景。

 

之所以英偉達(dá)的NVLink協(xié)議具有較高的傳輸效率,重要原因之一是它在解決擁塞的時候有一套完整的方案。而RDMA協(xié)議的RoCeV2方案在解決擁塞問題上能力較弱。針對這個問題,合見工軟提出了一套針對AI應(yīng)用,支持無損傳輸?shù)腖1 Retry/L2 Retry功能解決方案,通過這套解決方案可以提供一套無損的網(wǎng)絡(luò)連接給到AI芯片去組網(wǎng)。大模型的訓(xùn)練需要用到上千張計算卡,難免會出現(xiàn)丟包現(xiàn)象。一旦出現(xiàn)丟包,整個系統(tǒng)的處理數(shù)據(jù)效率就會受到極大影響。如果有無損網(wǎng)絡(luò)的支加持,整個模型的訓(xùn)練效率將會大幅提高。

 

PCIe與Chiplet:IP產(chǎn)品各具特色

 

楊凱還介紹了新推出的PCIe&CXL接口IP解決方案。在多GPU系統(tǒng)內(nèi)部,GPU間通信的帶寬通常在數(shù)百GB/s以上,PCIe總線的數(shù)據(jù)傳輸速率容易成為瓶頸。合見工軟推出的全國產(chǎn)解決方案,設(shè)計了一個支持CXL和PCIe協(xié)議的Combo架構(gòu),支持CXL2.0的協(xié)議棧;PIPE接口可支持多版本協(xié)議,包括v4.4,v5.2等;提供UCIeV1.1 FDI Protocol Interface;支持標(biāo)準(zhǔn)的TLP接口或者AXI接口等。

 

目前,CXL技術(shù)的應(yīng)用場景非常廣泛,包括數(shù)據(jù)中心、人工智能和處理器互聯(lián)等領(lǐng)域。通過合見工軟相關(guān)產(chǎn)品的助力,芯片廠商將在處理器互聯(lián)方面,提升不同處理器之間的互聯(lián)能力,提高系統(tǒng)的整體性能和靈活性。

 

Chiplet同樣是當(dāng)前業(yè)界熱點。隨著Chiplet市場的升溫,把芯片切分成不同的小芯片并互聯(lián),推動了相關(guān)接口IP市場的新需求。特別是在布局Chiplet的Die to Die接口方面,通過Die to Die互聯(lián)和Fabric互聯(lián)網(wǎng)絡(luò),能夠?qū)⒏嗨懔卧呙芏?、高效率、低功耗地連接在一起,實現(xiàn)超大規(guī)模計算。

 

楊凱表示,目前合見工軟的Chiplet IP,已經(jīng)有多家國內(nèi)用戶在使用或者評估當(dāng)中。之所以能夠得到用戶的青睞,得益于良好的適用性和差異化優(yōu)勢。合見工軟的方案創(chuàng)新性地將內(nèi)部劃分成算力Die和I/O Die兩部分,I/O Die集成以太網(wǎng)、PCIe,DDR等高速接口的協(xié)議棧,通過低功耗的UCIe接口與算力Die進(jìn)行超低延遲的互聯(lián)。而算力Die則是一個相對純粹的邏輯Die,可以在更先進(jìn)工藝上獲得更好的算力。同時,合見工軟還通過HBM3子系統(tǒng)設(shè)計和相關(guān)封裝設(shè)計,結(jié)合Silicon Interposer,封裝廠和HBM3顆粒廠商,為客戶提供端到端的HBM3整合方案。

 

通過將CPU、GPU、NPU高速連接在同一個系統(tǒng)中,實現(xiàn)芯片級異構(gòu),Chiplet可以極大提高異構(gòu)核之間的傳輸速率,滿足大模型參數(shù)需求。相關(guān)接口IP也展現(xiàn)出越來越強(qiáng)的市場發(fā)展?jié)摿Α?/p>

 

關(guān)于合見工軟

上海合見工業(yè)軟件集團(tuán)有限公司(簡稱“合見工軟”)作為自主創(chuàng)新的高性能工業(yè)軟件及解決方案提供商,以EDA(電子設(shè)計自動化,Electronic Design Automation)領(lǐng)域為首先突破方向,致力于幫助半導(dǎo)體芯片企業(yè)解決在創(chuàng)新與發(fā)展過程中所面臨的嚴(yán)峻挑戰(zhàn)和關(guān)鍵問題,并成為他們值得信賴的合作伙伴。

了解更多詳情,請訪問www.ecbaby.cn。

媒體咨詢

了解更多信息,請聯(lián)系: