9月8日消息,近日,中科曙光正式發(fā)布了國(guó)內(nèi)首個(gè)基于AI計(jì)算開放架構(gòu)設(shè)計(jì)的曙光AI超集群系統(tǒng)。這一系統(tǒng)以GPU為核心,實(shí)現(xiàn)了算力、存儲(chǔ)、網(wǎng)絡(luò)、供電、冷卻、管理與軟件的一體化緊耦合設(shè)計(jì),旨在為萬(wàn)億參數(shù)大模型訓(xùn)練、行業(yè)模型微調(diào)、多模態(tài)開發(fā)及AI4S等場(chǎng)景提供底層算力支持。其最大亮點(diǎn)在于支持百萬(wàn)卡級(jí)別的集群擴(kuò)展能力,并強(qiáng)調(diào)硬件與軟件生態(tài)的開放性,引發(fā)行業(yè)對(duì)算力壟斷格局可能被打破的討論。
從技術(shù)架構(gòu)來(lái)看,曙光AI超集群表現(xiàn)出顯著性能優(yōu)勢(shì)。單機(jī)柜支持96張GPU卡,總算力達(dá)百P級(jí),內(nèi)存帶寬超過(guò)180TB/s,支持多精度與混合精度運(yùn)算。在實(shí)際應(yīng)用中,千卡集群的大模型訓(xùn)練推理性能達(dá)業(yè)界主流水平的2.3倍,開發(fā)效率提升4倍,人天投入減少70%。其通過(guò)存算傳協(xié)同技術(shù)將GPU計(jì)算效率提升55%,并采用冷板液冷與394項(xiàng)節(jié)能設(shè)計(jì),使PUE低于1.12,在能效方面也處于行業(yè)領(lǐng)先水平。
更重要的是,該系統(tǒng)在可靠性與開放性上實(shí)現(xiàn)雙重突破。121項(xiàng)可靠性設(shè)計(jì)使平均無(wú)故障時(shí)間提高2.1倍,平均故障修復(fù)時(shí)間降低47%,支持超30天長(zhǎng)穩(wěn)運(yùn)行與百萬(wàn)級(jí)部件故障的秒級(jí)隔離。而開放架構(gòu)則支持多品牌AI加速卡,兼容CUDA等主流軟件生態(tài),不僅降低用戶的硬件采購(gòu)與軟件開發(fā)成本,也有助于保護(hù)已有投資,避免被單一技術(shù)路線綁定。
從行業(yè)現(xiàn)狀來(lái)看,全球AI算力市場(chǎng)目前仍由少數(shù)企業(yè)主導(dǎo),尤其在高端加速卡與底層軟件生態(tài)方面存在較高的技術(shù)壁壘和商業(yè)壟斷。曙光AI超集群所倡導(dǎo)的開放路徑,在一定程度上可促進(jìn)硬件異構(gòu)兼容與軟件生態(tài)互通,為更多企業(yè)提供替代方案,有助于構(gòu)建多元化的算力供應(yīng)體系。
然而,能否真正“打破壟斷”,仍需客觀看待其面臨的挑戰(zhàn)。一方面,現(xiàn)有主流生態(tài)已形成較強(qiáng)的用戶黏性與開發(fā)生態(tài),新架構(gòu)需在工具鏈、性能調(diào)優(yōu)、社區(qū)支持等方面持續(xù)投入;另一方面,開放架構(gòu)雖然降低準(zhǔn)入門檻,但如何在規(guī)模部署中保持穩(wěn)定性與兼容性,仍需經(jīng)過(guò)大規(guī)模應(yīng)用驗(yàn)證。
總體而言,曙光AI超集群的發(fā)布是中國(guó)在高端AI算力基礎(chǔ)設(shè)施領(lǐng)域的一次重要進(jìn)展,其開放架構(gòu)理念為行業(yè)提供了新的發(fā)展思路。但從技術(shù)到市場(chǎng)、從生態(tài)到服務(wù),能否真正改變現(xiàn)有算力格局,仍需產(chǎn)業(yè)各方共同推動(dòng)與時(shí)間檢驗(yàn)。在AI競(jìng)爭(zhēng)日益激烈的全球背景下,開放合作與自主創(chuàng)新并重,或許是構(gòu)建可持續(xù)算力未來(lái)的更優(yōu)路徑。