成年视频人免费网站动漫,色天天综合色天天天天看大片,........天堂网www在线

大模型參數(shù)跨越千億的時代，人們對算力的需求也在一路飆漲。以O(shè)penAI GPT系列的版本演進(jìn)為例，從GPT-1（2018.06）到GPT-2（2019.02）、GPT-3（2020.05）、GPT-3.5（2022.11）、GPT-4（2023.03），參數(shù)量和語料庫持續(xù)升級。目前AI超大模型的參數(shù)已經(jīng)達(dá)到千億，甚至萬億數(shù)量級。海量數(shù)據(jù)在對訓(xùn)練場景下的算力和顯存提出高要求的同時，也對芯片接口的性能提出新的挑戰(zhàn)。因為AI算力的提升方式，除了依靠單體GPU卡的算力迭代，還需要高速的芯片互聯(lián)技術(shù)作為支撐，從而實現(xiàn)多顆GPU之間的高效聚合、提升GPU算力的可擴(kuò)展性，進(jìn)而形成強大的集群算力。為提升異構(gòu)并行處理超大數(shù)據(jù)量的效率，板上芯片間互聯(lián)、片內(nèi)Die間互聯(lián)總線均需升級。

近日，在ICCAD 2023大會上，上海合見工業(yè)軟件集團(tuán)子公司北京諾苪集成電路總經(jīng)理楊凱就此話題發(fā)表了演講，探討如何應(yīng)對訪存帶寬和容量的高速增長，以及在提供更高互聯(lián)帶寬、支持大規(guī)模組網(wǎng)中，接口IP廠商所能發(fā)揮的作用。

大算力芯片：性能和規(guī)模要求越來越高

半導(dǎo)體IP與EDA相同，均屬集成電路的上游核心產(chǎn)業(yè)，對IP核的開發(fā)和復(fù)用極大促進(jìn)了芯片設(shè)計的快速發(fā)展。半導(dǎo)體IP研究機構(gòu)IPnest報告顯示，2022年設(shè)計IP市場規(guī)模66.7億美元，但從市場價值來看，卻撬動了5000多億美元的半導(dǎo)體產(chǎn)業(yè)不斷發(fā)展。

接口IP作為半導(dǎo)體IP的重要組成，近年來受HPC、異構(gòu)計算等興起的推動，市場快速發(fā)展。根據(jù)楊凱的介紹，近期大熱的大模型和AIGC也在催生接口IP的市場需求。有消息稱，ChatGPT的訓(xùn)練就使用了1萬張英偉達(dá)的高端GPU。數(shù)量龐大的GPU需要集群在一起進(jìn)行訓(xùn)練。同時，AI訓(xùn)練、推理所面對的數(shù)據(jù)量呈指數(shù)增長，使得無論單服務(wù)器中多GPU、CPU間C2C通信，還是在多服務(wù)器間組網(wǎng)，數(shù)據(jù)傳輸總體都呈現(xiàn)出高帶寬、低延遲的技術(shù)需求。這對于IO吞吐的要求也會提高，對高速接口IP帶來了多方面影響。

正是由于接口芯片與接口IP重要性不斷提高，合見工軟對于高性能接口IP領(lǐng)域作了布局。2023年5月，上海合見工業(yè)軟件集團(tuán)有限公司完成對北京諾芮集成電路設(shè)計有限公司的收購，進(jìn)入設(shè)計IP市場，并大大加速了諾芮原有IP在頭部企業(yè)的商業(yè)拓展和新產(chǎn)品推出進(jìn)程，不到一年時間即推出首款自主知識產(chǎn)權(quán)的全國產(chǎn)PCIe Gen5完整解決方案UniVista PCIe Gen5 IP。

楊凱強調(diào)，合見工軟成立以來，除數(shù)字芯片全流程EDA工具以外，在設(shè)計IP領(lǐng)域也深入布局，就是希望在接口IP方面提供優(yōu)質(zhì)高效的產(chǎn)品，幫助國內(nèi)AI芯片企業(yè)，在組網(wǎng)能力、訪存能力上更進(jìn)一步，實現(xiàn)更好的性能。

Ethernet：低延遲性能國內(nèi)領(lǐng)先

Ethernet芯片有著廣泛的應(yīng)用，包括信號調(diào)制解調(diào)、數(shù)據(jù)傳輸接口的驅(qū)動和接收等，其在人工智能中也有著重要的作用。AI技術(shù)需要處理的大量數(shù)據(jù)通常來自于網(wǎng)絡(luò)或云計算中心的數(shù)據(jù)中心，這些數(shù)據(jù)需要通過高速、穩(wěn)定的網(wǎng)絡(luò)傳輸來實現(xiàn)，而以太網(wǎng)是一個被廣泛應(yīng)用的網(wǎng)絡(luò)傳輸標(biāo)準(zhǔn)，以太網(wǎng)物理層芯片也是保證以太網(wǎng)傳輸質(zhì)量的一個重要組成部分。

根據(jù)楊凱的介紹，合見工軟子公司北京諾芮從2018年開始就在設(shè)計Ethernet IP。目前公司的產(chǎn)品已經(jīng)大量應(yīng)用于數(shù)據(jù)中心當(dāng)中，國內(nèi)主流的交換機芯片、GPU芯片、OTN芯片供應(yīng)商等幾乎都有采用。合見工軟的Ethernet IP有著優(yōu)越的性能，包括集成低延遲的以太網(wǎng)控制器(<100ns@400G)，支持1G至800G各種接口類型的以太網(wǎng)控制器，支持OIF定義的完整FlexE解決方案，支持1ns精度的1588時戳產(chǎn)生，提供AXI-S、General FIFO、TDM等多種用戶側(cè)接口，提供基于Descriptor的DMA功能等。

支持低延遲對于數(shù)據(jù)中心來說非常重要，尤其是將其使用在訪存應(yīng)用當(dāng)中時。傳統(tǒng)上，處理單元的訪存操作大多通過SRAM、DDR等，延遲都很低，幾乎是幾納秒到幾十納秒數(shù)量級。如果以太網(wǎng)、交換機的訪存延遲太高，內(nèi)部的執(zhí)行效率就會大幅下降，影響AI系統(tǒng)的性能。合見工軟以太網(wǎng)控制器的延遲在400G的速率下可以小于100納秒。

其他幾個方面也很有特色，比如1588的時間戳是業(yè)內(nèi)能提供的最高對時精度方案；可以提供多種用戶側(cè)的接口類型，包括AXI-S、General FIFO、TDM等多種用戶側(cè)接口；可以支持OIF定義的完整FlexE解決方案，這是一個可以把以太網(wǎng)的端口切到更小程度的解決方案。

隨著AI技術(shù)的不斷推廣和發(fā)展，通過以太網(wǎng)物理層芯片實現(xiàn)的高速、穩(wěn)定的數(shù)據(jù)傳輸變得更加重要。在AI模型訓(xùn)練和推理過程中，網(wǎng)絡(luò)通訊的效率和延遲都可以影響AI系統(tǒng)的性能，而以太網(wǎng)物理層芯片正是一個能夠從物理層面保證網(wǎng)絡(luò)通訊質(zhì)量的技術(shù)。

RDMA芯片：解決網(wǎng)絡(luò)擁塞具優(yōu)勢

RDMA IP是合見工軟另一個重要的系列產(chǎn)品。RDMA可以解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理的延遲，通過網(wǎng)絡(luò)把資料直接傳入計算機的存儲區(qū)，不對操作系統(tǒng)造成影響。隨著計算機視覺、自然語言處理、自動駕駛等場景人工智能應(yīng)用的落地和快速增長，應(yīng)用對海量算力的需求以指數(shù)級別增長，這對基礎(chǔ)設(shè)施提出了大規(guī)模、分布式、高性能的挑戰(zhàn)。通過RDMA消除多GPU跨節(jié)點通信的網(wǎng)絡(luò)瓶頸，顯著降低了訓(xùn)練任務(wù)整個周期中的通信耗時占比，提高了GPU集群計算資源利用率和訓(xùn)練效率，也為集群橫向擴(kuò)展到更大規(guī)模時的線性加速比提供了保證。

合見工軟根據(jù)用戶需要，推出完整的RDMA解決方案。除了支持現(xiàn)在標(biāo)準(zhǔn)的RDMA RoCeV2解決方案之外，還形成一些自身特色。比如在解決誤碼方面就形成了差異化優(yōu)勢，現(xiàn)在的網(wǎng)絡(luò)在連接時往往會產(chǎn)生誤碼，一旦出現(xiàn)誤碼就會產(chǎn)生錯誤重傳，而重傳則會降低整個鏈路的效率，甚至形成擁塞的場景。

之所以英偉達(dá)的NVLink協(xié)議具有較高的傳輸效率，重要原因之一是它在解決擁塞的時候有一套完整的方案。而RDMA協(xié)議的RoCeV2方案在解決擁塞問題上能力較弱。針對這個問題，合見工軟提出了一套針對AI應(yīng)用，支持無損傳輸?shù)腖1 Retry/L2 Retry功能解決方案，通過這套解決方案可以提供一套無損的網(wǎng)絡(luò)連接給到AI芯片去組網(wǎng)。大模型的訓(xùn)練需要用到上千張計算卡，難免會出現(xiàn)丟包現(xiàn)象。一旦出現(xiàn)丟包，整個系統(tǒng)的處理數(shù)據(jù)效率就會受到極大影響。如果有無損網(wǎng)絡(luò)的支加持，整個模型的訓(xùn)練效率將會大幅提高。

PCIe與Chiplet：IP產(chǎn)品各具特色

楊凱還介紹了新推出的PCIe&CXL接口IP解決方案。在多GPU系統(tǒng)內(nèi)部，GPU間通信的帶寬通常在數(shù)百GB/s以上，PCIe總線的數(shù)據(jù)傳輸速率容易成為瓶頸。合見工軟推出的全國產(chǎn)解決方案，設(shè)計了一個支持CXL和PCIe協(xié)議的Combo架構(gòu)，支持CXL2.0的協(xié)議棧；PIPE接口可支持多版本協(xié)議，包括v4.4，v5.2等；提供UCIeV1.1 FDI Protocol Interface；支持標(biāo)準(zhǔn)的TLP接口或者AXI接口等。

目前，CXL技術(shù)的應(yīng)用場景非常廣泛，包括數(shù)據(jù)中心、人工智能和處理器互聯(lián)等領(lǐng)域。通過合見工軟相關(guān)產(chǎn)品的助力，芯片廠商將在處理器互聯(lián)方面，提升不同處理器之間的互聯(lián)能力，提高系統(tǒng)的整體性能和靈活性。

Chiplet同樣是當(dāng)前業(yè)界熱點。隨著Chiplet市場的升溫，把芯片切分成不同的小芯片并互聯(lián)，推動了相關(guān)接口IP市場的新需求。特別是在布局Chiplet的Die to Die接口方面，通過Die to Die互聯(lián)和Fabric互聯(lián)網(wǎng)絡(luò)，能夠?qū)⒏嗨懔卧呙芏取⒏咝?、低功耗地連接在一起，實現(xiàn)超大規(guī)模計算。

楊凱表示，目前合見工軟的Chiplet IP，已經(jīng)有多家國內(nèi)用戶在使用或者評估當(dāng)中。之所以能夠得到用戶的青睞，得益于良好的適用性和差異化優(yōu)勢。合見工軟的方案創(chuàng)新性地將內(nèi)部劃分成算力Die和I/O Die兩部分，I/O Die集成以太網(wǎng)、PCIe，DDR等高速接口的協(xié)議棧，通過低功耗的UCIe接口與算力Die進(jìn)行超低延遲的互聯(lián)。而算力Die則是一個相對純粹的邏輯Die，可以在更先進(jìn)工藝上獲得更好的算力。同時，合見工軟還通過HBM3子系統(tǒng)設(shè)計和相關(guān)封裝設(shè)計，結(jié)合Silicon Interposer，封裝廠和HBM3顆粒廠商，為客戶提供端到端的HBM3整合方案。

通過將CPU、GPU、NPU高速連接在同一個系統(tǒng)中，實現(xiàn)芯片級異構(gòu)，Chiplet可以極大提高異構(gòu)核之間的傳輸速率，滿足大模型參數(shù)需求。相關(guān)接口IP也展現(xiàn)出越來越強的市場發(fā)展?jié)摿Α?/p>

關(guān)于合見工軟

上海合見工業(yè)軟件集團(tuán)有限公司（簡稱“合見工軟”）作為自主創(chuàng)新的高性能工業(yè)軟件及解決方案提供商，以EDA（電子設(shè)計自動化，Electronic Design Automation）領(lǐng)域為首先突破方向，致力于幫助半導(dǎo)體芯片企業(yè)解決在創(chuàng)新與發(fā)展過程中所面臨的嚴(yán)峻挑戰(zhàn)和關(guān)鍵問題，并成為他們值得信賴的合作伙伴。

了解更多詳情，請訪問www.ecbaby.cn。

97se亚洲国产综合自在线,欧美成人免费专区精品高清,人妻人人添人人爽夜夜欢视频,日本中文字幕在线观看全,98久久人妻少妇激情啪啪