但首先,必須解決效用問(wèn)題。電力是否被浪費(fèi)了?“我們將電力用于有價(jià)值的用途,”Ansys(現(xiàn)為新思科技旗下公司)產(chǎn)品營(yíng)銷總監(jiān) Marc Swinnen 說(shuō)道?!八鼪](méi)有被浪費(fèi)。它是電力的工業(yè)應(yīng)用,它只是另一個(gè)行業(yè) —— 就像鋼鐵和銅一樣?!?/p>
在很多情況下,這些電力可以被顯著的節(jié)約所抵消?!稗r(nóng)民使用人工智能來(lái)控制自動(dòng)駕駛拖拉機(jī)進(jìn)行耕作,”Microchip 高級(jí)產(chǎn)品營(yíng)銷經(jīng)理 Diptesh Nandi 說(shuō)道。 “他們?cè)趪姙⑥r(nóng)藥和肥料時(shí)使用人工智能進(jìn)行推理。這不僅節(jié)省了時(shí)間,還減少了化學(xué)品的使用量。生產(chǎn)這些化學(xué)品需要電力,因此使用人工智能可以節(jié)省電力。我們已經(jīng)看到人工智能驅(qū)動(dòng)的邊緣設(shè)備蓬勃發(fā)展,尤其是在農(nóng)業(yè)領(lǐng)域。”
在今年的設(shè)計(jì)自動(dòng)化大會(huì)上,一些學(xué)者聲稱,在降低功耗方面,一些簡(jiǎn)單的改進(jìn)已經(jīng)被實(shí)現(xiàn)了?!拔也煌膺@種說(shuō)法,” 新思科技系統(tǒng)設(shè)計(jì)事業(yè)部系統(tǒng)解決方案戰(zhàn)略項(xiàng)目執(zhí)行總監(jiān) Frank Schirrmeister 說(shuō)道?!拔覀冞€遠(yuǎn)沒(méi)有達(dá)到優(yōu)化所有目標(biāo)。此外,應(yīng)用需求增長(zhǎng)如此之快,以至于很難跟上功耗的步伐。問(wèn)題可能是:‘如何實(shí)現(xiàn)最低功耗?’片上網(wǎng)絡(luò)(NoC)的影響、芯片分區(qū)的影響、特定工作負(fù)載架構(gòu)的影響,以及對(duì)更高性能的渴望,這是一個(gè)與功耗的權(quán)衡?!?/p>
有些人將計(jì)算機(jī)的功耗與自然功耗進(jìn)行比較。 “如果你觀察像玄鳳鸚鵡這樣的生物,想想它大腦里 2 瓦的功率能做什么,它就能飛,”Cadence 計(jì)算解決方案事業(yè)部產(chǎn)品營(yíng)銷總監(jiān) Jason Lawley 說(shuō)道?!八梢阅7挛淖?,可以對(duì)周圍環(huán)境進(jìn)行復(fù)雜的視覺(jué)理解,進(jìn)行 3D 計(jì)算,還可以在樹(shù)林間飛翔。從這個(gè)角度來(lái)看,很多事情都是可能的。問(wèn)題只是我們多久才能趕上它們。我認(rèn)為人工智能不會(huì)永遠(yuǎn)沿著同一條道路發(fā)展。會(huì)有其他創(chuàng)新和發(fā)明讓我們繼續(xù)前進(jìn),比如神經(jīng)形態(tài)計(jì)算?!?/p>
許多頭條數(shù)據(jù)都與數(shù)據(jù)中心的訓(xùn)練有關(guān),但從長(zhǎng)遠(yuǎn)來(lái)看,這可能是錯(cuò)誤的重點(diǎn)?!皞鹘y(tǒng)上,訓(xùn)練占據(jù)了我們計(jì)算需求的主導(dǎo)地位,因?yàn)樗枰罅康臄?shù)據(jù)集和更長(zhǎng)的周期,”Normal Computing 的高級(jí)人工智能工程師 Doyun Kim 說(shuō)道。“如今,我們正見(jiàn)證推理時(shí)計(jì)算技術(shù)的根本性轉(zhuǎn)變。模型執(zhí)行多步推理,包括思維鏈、思維樹(shù)和代理工作流,每次查詢都會(huì)觸發(fā)數(shù)十次推理操作,其功耗如今已可與訓(xùn)練強(qiáng)度相媲美。對(duì)于芯片設(shè)計(jì)人員和數(shù)據(jù)中心運(yùn)營(yíng)商而言,這代表著一次重大轉(zhuǎn)變。推理正成為首要的功耗考慮因素。但我們?nèi)绾螒?yīng)對(duì)這一功耗挑戰(zhàn)?
這可能會(huì)迫使設(shè)計(jì)團(tuán)隊(duì)更加節(jié)約用電。“邊緣 AI 的功耗將會(huì)增加,但它將更多地由電池供電,”Cadence 的 Jason Lawley 說(shuō)道?!八鼘⒏臃稚⒌厝谌胛覀兊娜粘I钪小O鄬?duì)而言,我們能夠投入到這些電池中的電量與數(shù)據(jù)中心本身的功耗相比微不足道,而用戶將要求更長(zhǎng)的電池續(xù)航時(shí)間?!?/p>
邊緣AI更具價(jià)值
如果我們假設(shè) AI 能夠提供價(jià)值,那么我們可以看看等式的另一面。 “現(xiàn)有的電網(wǎng)并非為人工智能而建,無(wú)法應(yīng)對(duì),”Ansys(現(xiàn)已被新思科技收購(gòu))總監(jiān) Rich Goldman 表示?!吧?jí)基礎(chǔ)設(shè)施將耗費(fèi)大量時(shí)間,成本也非常高昂。我們必須考慮本地能源生產(chǎn),而不是試圖將能源從生產(chǎn)地輸送到需求地。小型核反應(yīng)堆的時(shí)代即將到來(lái)?!?/p>
還有其他非碳排放的方式來(lái)生產(chǎn)所需的電力?!昂锰幨牵瑪?shù)據(jù)中心可以建在任何有電的地方,”Ansys 的 Marc Swinnen 補(bǔ)充道。“想想撒哈拉沙漠。那里土地充足,陽(yáng)光充足,你可以建造太陽(yáng)能發(fā)電場(chǎng)。人工智能的魅力在于,你只需在那里鋪設(shè)一條光纜,就可以將所有數(shù)據(jù)輸入和輸出,而無(wú)需大量的基礎(chǔ)設(shè)施。你不需要港口和道路?!?/p>
雖然這解決了數(shù)據(jù)中心的問(wèn)題,但也必須考慮邊緣計(jì)算。 Normal Computing 高級(jí) AI 工程師 Maxim Khomiakov 表示:“在運(yùn)行 LLM 時(shí),設(shè)備上的邊緣 AI 執(zhí)行仍然是一個(gè)極其耗能的過(guò)程。轉(zhuǎn)向模型高效地獲取輸出是一項(xiàng)巨大的挑戰(zhàn)。暴力破解解決方案非常耗能。一種已知的技術(shù)是生成許多輸出軌跡,并同時(shí)對(duì)有用的軌跡進(jìn)行子集化,從而優(yōu)化提示和答案。從長(zhǎng)遠(yuǎn)來(lái)看,未來(lái)的道路是構(gòu)建針對(duì) LLM 和推理密集型工作負(fù)載優(yōu)化的 ASIC 芯片。推理需求正在飆升,這正在趕上訓(xùn)練成本。
邊緣自主性正在不斷發(fā)展?!笆褂眠吘?AI 的客戶的主要要求是降低延遲,”Microchip 的 Diptesh Nandi 說(shuō)道?!皩?shù)據(jù)發(fā)送到數(shù)據(jù)中心并獲取響應(yīng)需要耗費(fèi)太多時(shí)間和功耗。一種解決方案是在將其發(fā)送到數(shù)據(jù)中心之前在邊緣執(zhí)行一些計(jì)算。例如,如果您在高速公路上監(jiān)控車牌,75% 的工作負(fù)載是檢測(cè)車牌的位置并沿道路跟蹤它。一旦您能夠鎖定該位置,就可以將數(shù)據(jù)發(fā)送回云端進(jìn)行字符識(shí)別。”
模型演進(jìn)
模型規(guī)模持續(xù)擴(kuò)大?!斑@些大型語(yǔ)言模型的變化速度持續(xù)加快,這直接增加了訓(xùn)練的消耗率,”Jason Lawley 說(shuō)道?!坝^察它們?cè)诤螘r(shí)達(dá)到收益遞減的臨界點(diǎn)將會(huì)很有趣,但目前看來(lái)它們還遠(yuǎn)未達(dá)到這個(gè)臨界點(diǎn)。它們持續(xù)輸入更多數(shù)據(jù),并取得了更好的結(jié)果。它們對(duì)初始數(shù)據(jù)集采用了不同的改進(jìn)技術(shù),并且進(jìn)行了二次訓(xùn)練和其他形式的訓(xùn)練,最終將這些大型語(yǔ)言模型融入其中。”
目前的目標(biāo)似乎是創(chuàng)建更大、更統(tǒng)一的模型?!笆紫瓤梢詢?yōu)化的是模型本身,”Synopsys 的 Frank Schirrmeister 說(shuō)道?!巴ㄟ^(guò)使模型更貼合其需求,可以獲得很多好處。你可以使這些模型更加貼合應(yīng)用程序,從而能夠限制它們。在其上運(yùn)行的、消耗所有能量的應(yīng)用程序正在變得更加優(yōu)化,不再局限于泛化?!?/p>
這可能會(huì)讓事情朝著不同的方向發(fā)展。“正如硅片行業(yè)引入多電壓域、時(shí)鐘門(mén)控和電源門(mén)控來(lái)節(jié)省功耗一樣,我們可以將類似的概念應(yīng)用于 AI 系統(tǒng),”Normal 的 Doyun Kim 說(shuō)道?!熬拖癖苊馔瑫r(shí)運(yùn)行整個(gè)模型的混合專家 (MoE) 架構(gòu)一樣,我們可以使 AI 系統(tǒng)更加模塊化。通過(guò)實(shí)時(shí)預(yù)測(cè)需要哪些模塊并動(dòng)態(tài)地僅激活必要的組件 —— 類似于工作負(fù)載預(yù)測(cè) —— 我們可以通過(guò)智能系統(tǒng)級(jí)電源管理實(shí)現(xiàn)顯著的節(jié)能。”
一些優(yōu)化需要協(xié)同設(shè)計(jì)。“軟件堆棧有很多改進(jìn)的機(jī)會(huì),例如運(yùn)算符融合、布局轉(zhuǎn)換和編譯器感知調(diào)度,”Expedera 軟件工程總監(jiān) Prem Theivendran 說(shuō)道。“這些可以釋放潛在的硬件效率,但前提是硬件能夠暴露這些鉤子。這需要硬件功能和軟件優(yōu)化之間的密切協(xié)調(diào)。當(dāng)模型、編譯器和硬件協(xié)同優(yōu)化時(shí),即使在已經(jīng)高效的加速器上,也能獲得顯著的收益?!?/p>
邊緣計(jì)算擁有更多機(jī)遇。“量化是最重要的關(guān)鍵之一,”Jason Lawley 說(shuō)道?!拔覀兛吹饺藗冋诔鴥蓚€(gè)方向發(fā)展。一是縮小規(guī)模。雖然目前許多人都在使用 Int8,但 Int4,有時(shí)甚至是 Int1 也在考慮之中。Int1 可以減少存儲(chǔ)空間、帶寬和計(jì)算量,而這三個(gè)方面是我們功耗的主要來(lái)源。我們看到越來(lái)越多關(guān)于混合量化模式的研究,其中一些層可能以 FP16 運(yùn)行,因?yàn)樗鼈兎浅V匾?,而其他層則以 Int4 運(yùn)行。我們也看到人們從整數(shù)回歸浮點(diǎn),甚至使用 FP16 和 FP8,因?yàn)樗麄儼l(fā)現(xiàn),在使用 8 位或 16 位非線性的模型中,浮點(diǎn)數(shù)能獲得更好的結(jié)果。使用浮點(diǎn)表示可以獲得更精細(xì)的粒度?!?/p>
設(shè)計(jì)更優(yōu)的硬件
主要有兩種方法。第一種是設(shè)計(jì)更適合執(zhí)行 AI 工作負(fù)載的架構(gòu),第二種是提高現(xiàn)有架構(gòu)的效率。“工程設(shè)計(jì)始終是一個(gè)抽象的過(guò)程,從這個(gè)角度來(lái)看,這是一種權(quán)衡,因?yàn)槟阌肋h(yuǎn)無(wú)法真正在整個(gè)設(shè)計(jì)層次上實(shí)現(xiàn)全面優(yōu)化,”Fraunhofer IIS 自適應(yīng)系統(tǒng)工程部門(mén)高級(jí)混合信號(hào)自動(dòng)化團(tuán)隊(duì)經(jīng)理 Benjamin Prautsch 說(shuō)道?!澳銜?huì)嘗試盡可能地抽象,以便在更短的時(shí)間內(nèi)創(chuàng)造更多價(jià)值。但這是以次優(yōu)設(shè)計(jì)為代價(jià)的,至少對(duì)于特定用途而言是這樣。我們永遠(yuǎn)無(wú)法真正找到最優(yōu)方案。當(dāng)然,我們希望進(jìn)行優(yōu)化,這需要對(duì)整個(gè)堆棧進(jìn)行優(yōu)化,沿著價(jià)值鏈從上到下。我們可能需要兼具整體視角和能夠優(yōu)化關(guān)鍵問(wèn)題的優(yōu)秀工具。最大的問(wèn)題是人工智能發(fā)展如此迅速,這與制造時(shí)間表并不兼容。
在工藝的每個(gè)步驟中都可以節(jié)省功耗,但功耗也可能被浪費(fèi)?!半m然降低功耗看似簡(jiǎn)單 —— 最小化 P=fCv2 中的各項(xiàng) —— 但由于功耗、性能和面積 (PPA) 之間的內(nèi)在權(quán)衡,這使其變得復(fù)雜,”Cadence 數(shù)字與簽核事業(yè)部產(chǎn)品管理總監(jiān) Jeff Roane 表示?!坝捎陔y以測(cè)量和優(yōu)化的故障功耗,這些復(fù)雜性在 AI 芯片數(shù)學(xué)函數(shù)中成倍增加。因此,必須在每一個(gè)設(shè)計(jì)抽象層級(jí)進(jìn)行以準(zhǔn)確分析為驅(qū)動(dòng)的有效優(yōu)化,其中架構(gòu)級(jí)優(yōu)化可實(shí)現(xiàn)最大程度的降幅,最高可達(dá) 50%;RT 級(jí)優(yōu)化可實(shí)現(xiàn)最高 20% 的降幅;門(mén)控物理良率最高可達(dá) 10%?!?/p>
在每個(gè)設(shè)計(jì)步驟中,了解工作負(fù)載都至關(guān)重要?!肮闹饕蓜?dòng)態(tài)功耗決定,而動(dòng)態(tài)功耗高度依賴于矢量,” 新思科技研究員 Godwin Maben 表示?!疤囟ㄓ?AI 的工作負(fù)載定義非常明確,因此生成工作負(fù)載并非問(wèn)題。功耗主要取決于從計(jì)算到內(nèi)存再到計(jì)算的數(shù)據(jù)傳輸。擁有一個(gè)節(jié)能的總線架構(gòu)至關(guān)重要,甚至像壓縮進(jìn)出內(nèi)存的數(shù)據(jù)這樣的架構(gòu)決策也至關(guān)重要。功耗降低是可擴(kuò)展的。由于同一計(jì)算單元的實(shí)例會(huì)重復(fù)數(shù)千次,因此優(yōu)化一個(gè)單元將顯著降低整體功耗?!?/p>
在所有討論中,數(shù)據(jù)移動(dòng)都是功耗關(guān)注點(diǎn)的首要問(wèn)題?!癆I 工作負(fù)載涉及在計(jì)算單元、內(nèi)存和加速器之間傳輸大量數(shù)據(jù),”Arteris 產(chǎn)品管理和營(yíng)銷副總裁 Andy Nightingale 表示。“為了降低每次推理的功耗,需要考慮本地化通信。與長(zhǎng)距離傳輸相比,平鋪或空間聚類技術(shù)更受歡迎。我們預(yù)見(jiàn)到,未來(lái)巧妙的互連設(shè)計(jì)將成為 SoC 架構(gòu)師扭轉(zhuǎn) AI 功耗曲線的最重要杠桿?!?/p>
處理器的其他部分對(duì)工作負(fù)載的依賴程度較低?!盎仡欉^(guò)去,矩陣乘法一直是貫穿整個(gè) AI 領(lǐng)域始終不變的要素,”Jason Lawley 說(shuō)道?!斑@部分其實(shí)并沒(méi)有改變。量化變了,激活函數(shù)變了,帶寬變了,人們排列不同層的方式也變了。但矩陣乘法的功能始終不變。我們確保擁有非常強(qiáng)大的矩陣乘法解決方案,同時(shí)在激活函數(shù)等方面也擁有更高的可編程性?!?/p>
更重要的架構(gòu)變革研究仍在繼續(xù)?!瓣P(guān)于內(nèi)存計(jì)算的討論尚未結(jié)束,”Frank Schirrmeister 說(shuō)道?!八兄谔岣咝阅芎凸?,因?yàn)槟銦o(wú)需跨邊界傳輸數(shù)據(jù)。你無(wú)需移動(dòng)數(shù)據(jù)即可執(zhí)行計(jì)算。這些都是尚未得到充分利用的領(lǐng)域。其他人正在認(rèn)真考慮神經(jīng)形態(tài)計(jì)算。我不認(rèn)為我們會(huì)被馮?諾依曼束縛。只是太多的遺留問(wèn)題依賴于它。你能用不同的方法嗎,尤其是在人工智能加速的背景下?當(dāng)然可以。市面上有很多方法。有什么方法能堅(jiān)持下去嗎?可能是為了滿足那些特定的需求,比如降低能耗和功耗。”
為了更接近大腦的運(yùn)作方式,必須考慮模擬技術(shù)。“有一些非常有趣的模擬初創(chuàng)公司,已經(jīng)取得了巨大的成果,”Jason Lawley 說(shuō)?!安恍业氖牵麄儫o(wú)法擴(kuò)展到所需的所有算子范圍。對(duì)于模擬加速器擅長(zhǎng)的事情,它們確實(shí)做得很好,而且功耗極低。但很多時(shí)候,它們不得不回歸數(shù)字技術(shù)。模擬技術(shù)是一個(gè)復(fù)雜的制造過(guò)程。為了達(dá)到必要的控制水平,你需要確保所有電流、電阻和線路連接都正確。這是一個(gè)更難解決的問(wèn)題。也許未來(lái)會(huì)解決這個(gè)問(wèn)題,但各大公司長(zhǎng)期以來(lái)一直在努力解決這個(gè)問(wèn)題。
EDA 的作用
EDA 主要通過(guò)兩種方式幫助降低 AI 功耗。首先是提供決策所需的信息。其次是提供工具,以實(shí)現(xiàn)高效的實(shí)施和優(yōu)化。Expedera 的 Prem Theivendran 表示:“EDA 可以將過(guò)去的猜測(cè)轉(zhuǎn)化為數(shù)據(jù)驅(qū)動(dòng)的設(shè)計(jì),從而塑造 AI 架構(gòu)。通過(guò)設(shè)計(jì)空間探索、工作負(fù)載分析和 AI 輔助調(diào)優(yōu),EDA 可以幫助架構(gòu)師構(gòu)建不僅功能齊全,而且針對(duì)實(shí)際 AI 工作負(fù)載進(jìn)行優(yōu)化的硬件?!?/p>
左移的真正程度在系統(tǒng)層面上變得顯而易見(jiàn)。“我們已經(jīng)到了不能只考慮芯片級(jí)優(yōu)化的階段 —— 我們需要考慮從封裝到電路板再到機(jī)架級(jí)的整個(gè)堆棧,”Doyun Kim 說(shuō)道?!坝绕渲匾氖枪ぷ髫?fù)載感知的系統(tǒng)設(shè)計(jì)。不同的 AI 工作負(fù)載 —— 無(wú)論是訓(xùn)練、推理,還是這些新的推理時(shí)計(jì)算模式 —— 都具有截然不同的功耗和散熱特性。EDA 工具需要不斷發(fā)展,以幫助我們根據(jù)實(shí)際工作負(fù)載特性分析和優(yōu)化這些全系統(tǒng)交互。只有這樣,我們才能設(shè)計(jì)出真正最大化硅片利用率的系統(tǒng),而不是在大多數(shù)時(shí)間里受到散熱限制?!?/p>
硬件架構(gòu)的快速迭代讓我們可以考慮更多選項(xiàng)。“EDA 需要融入高級(jí)的、物理感知的規(guī)劃工具,”Arteris 的 Andy Nightingale 說(shuō)道。“自動(dòng)化必須能夠快速迭代拓?fù)浜筒季?,模擬功耗和性能之間的權(quán)衡?;?AI 的設(shè)計(jì)空間探索還可以幫助實(shí)現(xiàn)最佳分區(qū)、布線和資源布局。”
工作負(fù)載、架構(gòu)、事務(wù)與內(nèi)存存儲(chǔ)之間交互的復(fù)雜性不斷增加。“它們變得過(guò)于復(fù)雜,人們根本無(wú)法預(yù)測(cè),”Frank Schirrmeister 說(shuō)道?!霸谀承┙M件中,電子表格仍然可以幫助您識(shí)別緩存對(duì)跨越芯片或芯片集邊界的流量的影響,這可能會(huì)消耗更多電量。您仍然可以進(jìn)行粗略的計(jì)算并使用隨機(jī)模型。但這些交互過(guò)于復(fù)雜,以至于人們要求在目標(biāo)架構(gòu)上運(yùn)行 AI 工作負(fù)載,以便您確信自己在性能方面做得正確。”
人類創(chuàng)新仍有很大的空間。“這是一個(gè)復(fù)雜性的問(wèn)題,它本質(zhì)上過(guò)于復(fù)雜,這表明在設(shè)計(jì)過(guò)程中可能會(huì)出現(xiàn)大量的浪費(fèi),”Fraunhofer 的 Benjamin Prautsch 說(shuō)道。“在將問(wèn)題分解為解決方案時(shí),這種情況并不少見(jiàn)。這始終是一個(gè)權(quán)衡,而且總是帶有偏見(jiàn)的。利益相關(guān)者之間的良好溝通至關(guān)重要,這樣才能快速排除各種選項(xiàng),并迅速縮小最合理的選擇范圍,但這并不一定意味著最佳解決方案已經(jīng)擺在桌面上?!?/p>
結(jié)論
人工智能的功耗問(wèn)題開(kāi)始敲響警鐘,這是有充分理由的。但這與其他行業(yè)的興起并無(wú)二致。關(guān)鍵在于我們?nèi)绾螒?yīng)對(duì)。我們是應(yīng)該創(chuàng)造更多清潔能源,還是應(yīng)該以某種方式降低功耗?我們能否通過(guò)在半導(dǎo)體的舒適區(qū)之外進(jìn)行設(shè)計(jì)來(lái)做得更好,還是這會(huì)限制其帶來(lái)效益的速度?有人能完全理解他們所做決策的含義嗎?
解決方案需要眾多利益相關(guān)者的共同努力,這在過(guò)去一直很困難。如今,軟件開(kāi)發(fā)的速度遠(yuǎn)遠(yuǎn)超過(guò)了硬件的響應(yīng)速度,一些人希望人工智能能夠加快這一速度。“人工智能的終極目標(biāo)是完全設(shè)計(jì)出能夠提高人工智能自身效率的芯片,”Normal 的 Maxim Khomiakov 說(shuō)道。