您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 探討人工智能發(fā)展和國產(chǎn)FPAI芯片研究方向

探討人工智能發(fā)展和國產(chǎn)FPAI芯片研究方向

時間：2023-10-26 15:21:14來源：國產(chǎn)FPGA之家

導(dǎo)語：?要說2023年最牛技術(shù)，ChatGPT說第二估計也沒人敢說第一，它的橫空出世將整個人工智能技術(shù)推向了一個新的高度，NVidia也因此賺的那是一個盆滿鍋滿，今天小編就給各位老鐵簡單捋捋人工智能的發(fā)展和國產(chǎn)最新FPAI芯片研究方向。

　　1ChatGPT和后摩爾時代

2023年，人工智能領(lǐng)域發(fā)生了一件里程碑式的事件：OpenAI發(fā)布了基于大型語言模型的聊天機器人ChatGPT，這是一個可以響應(yīng)人類指令的聊天機器人，可以完成從寫文章、做數(shù)學(xué)題到調(diào)試代碼的各種任務(wù)。ChatGPT的發(fā)布刷新了人們對AI的認(rèn)知，標(biāo)志著生成式人工智能的商業(yè)化啟動，它不僅改變了AI研究和技術(shù)開發(fā)的方式，還對社會產(chǎn)生了深遠(yuǎn)影響。然而，人工智能并不是一項新興的技術(shù)，而是起源于20世紀(jì)60年代，經(jīng)過半個多世紀(jì)的發(fā)展，經(jīng)歷了符號主義、連接主義和行為主體三次浪潮的相互交織，現(xiàn)階段大家普遍認(rèn)為，人工智能 = 深度學(xué)習(xí) + 大規(guī)模計算 + 大數(shù)據(jù)。深度學(xué)習(xí)是一種特殊的機器學(xué)習(xí)，它需要以大量的數(shù)據(jù)為基礎(chǔ)，通過“訓(xùn)練”得到各種參數(shù)（模型），然后使用訓(xùn)練得到的模型進行推理，得到最終的結(jié)果。因此，模型的參數(shù)越多，訓(xùn)練和推理所需要的算力就越大。隨著深度學(xué)習(xí)的發(fā)展，AI領(lǐng)域?qū)λ懔Φ男枨笠悦磕瓿^10倍的速度增長，以ChatGPT為例，其初版基于的大模型GPT-3是一個有著1750億個參數(shù)的巨型模型，而最新版基于的GPT-4，其參數(shù)量竟然達(dá)到了喪心病狂的1.76萬億（網(wǎng)傳）。

　　人工智能的實現(xiàn)需要算力，而算力的的實現(xiàn)則需要芯片的支撐，這是人工智能進行發(fā)展并實現(xiàn)產(chǎn)業(yè)化的關(guān)鍵。仍以GPT-3為例，1750億參數(shù)，1000億詞匯語料庫，需要1000塊英偉達(dá)A100 GPU訓(xùn)練一個月。2023年，在芯片領(lǐng)域同樣發(fā)生了一件大事，3月24日，摩爾定律的提出者，戈登·摩爾先生與世長辭，享年94歲。摩爾曾在1965年對集成電路的發(fā)展做出了著名的預(yù)測：集成電路上可以容納的晶體管數(shù)目大約每經(jīng)18到24個月便會增加一倍，即處理器的性能大約每兩年翻一倍，同時價格降為原來的一半，這便是大名鼎鼎的摩爾定律。

　　雖然摩爾定律并不是正式定義的科學(xué)定律，而是摩爾對他所觀察到的趨勢的歸納總結(jié)，但是在提出后的半個世紀(jì)中，成功預(yù)測了集成電路的發(fā)展趨勢。以英特爾為例，從1971年到2008年，在過去的幾十年里，英特爾微處理器芯片上最大晶體管的數(shù)量每兩年翻一番，而且特征尺寸以每年15%的速度縮減，每5年縮減一半。受益于特征尺寸的縮減，即使保持硬件架構(gòu)不變，時鐘頻率也能獲得大幅度的提升。仍以英特爾為例，從1990年到2002年，其微處理器的時鐘頻率不到兩年就翻一番，當(dāng)然這其中也包含架構(gòu)升級帶來的提升。

　　如果照這個趨勢發(fā)展下去，那么2008年時，處理器的時鐘頻率就會提升到30GHz，然而實際上，2002年后，英特爾處理器時鐘頻率的增長就逐步放緩，并且在2005年達(dá)到頂峰。2004年11月，英特爾宣布取消時鐘頻率4GHz奔騰處理器的計劃，轉(zhuǎn)而研究多核架構(gòu)。是的，雖然半個多世紀(jì)以來，摩爾定律為集成電路的發(fā)展描繪了美好的藍(lán)圖，但是由于物理效應(yīng)、功耗等多方面的限制，摩爾定律不可能一直延續(xù)下去。物理效應(yīng)方面，隨著工藝節(jié)點不斷縮小，晶體管的尺寸已經(jīng)接近原子尺度，一些量子效應(yīng)和噪聲效應(yīng)會影響晶體管的正常工作。例如，當(dāng)閘極長度足夠短時，就會發(fā)生量子隧穿效應(yīng)，導(dǎo)致漏電流增加，同時也會增加功耗和溫度。

　　另外，由于晶體管中原子的數(shù)量越來越少，雜質(zhì)漲落、界面粗糙度、晶格不匹配等因素也會造成晶體管之間的性能差異。功耗方面，隨著集成度的提高，芯片上的晶體管數(shù)量和時鐘頻率也相應(yīng)增加，這會導(dǎo)致芯片的功耗和散熱問題變得更加嚴(yán)重。功耗主要包括靜態(tài)功耗和動態(tài)功耗兩部分。

　　靜態(tài)功耗是指晶體管在關(guān)閉狀態(tài)下仍然存在的漏電流所消耗的功率，它與量子隧穿效應(yīng)有關(guān)。動態(tài)功耗是指晶體管在開關(guān)狀態(tài)下由于電容充放電所消耗的功率，它與時鐘頻率和電壓有關(guān)。除此之外，經(jīng)濟效益也是需要考慮的一個方面，隨著工藝節(jié)點的進步，制造芯片所需的設(shè)備、材料和人力成本也不斷增加，這會影響芯片的價格和市場競爭力。

　　早在摩爾先生去世之前十幾年，業(yè)界就認(rèn)識到摩爾定律的發(fā)展逐漸放緩甚至將要被打破，于是提出后摩爾時代這個概念，力求以后的集成電路發(fā)展尋找新的技術(shù)路線。目前，業(yè)界提出了延續(xù)摩爾（More Moore）、擴展摩爾（More than Moore）、超越摩爾（Beyond Moore）和豐富摩爾（Much Moore）等四種主要的發(fā)展方向。由于芯片的時鐘頻率不能繼續(xù)提升，因此處理器的設(shè)計從單核超頻逐漸向多核并行轉(zhuǎn)變，通過提供多個相同的核心，將計算任務(wù)分解到不同的核心上同時計算，從而提高處理性能。然而，隨著處理器面臨的場景和處理的任務(wù)越來越復(fù)雜，不同的任務(wù)可能具有不同的性能和能效限制。

　　沒有任何處理器架構(gòu)適合所有的場景，因此，多核處理器的設(shè)計從多核同構(gòu)逐漸向多核異構(gòu)轉(zhuǎn)變，即處理器中的核心具有不同的架構(gòu)，比如一些是高性能的、一些是低功耗的，或者一些是通用的、一些是專用的。

　　2后摩爾時代下的AI芯片

　　如前所述，以ChatGPT為代表的AI應(yīng)用需要極大的算力作為支撐，而算力作為人工智能的三大要素之一，需要AI芯片的支撐。雖然，從廣義上來說，所有面向AI應(yīng)用的芯片都可以稱為AI芯片，但是人們普遍認(rèn)為，AI芯片是針對AI算法做了特殊加速設(shè)計的芯片。由于深度學(xué)習(xí)需要很高的并行計算能力，而CPU的架構(gòu)往往無法充分滿足人工智能高性能并行計算需求，因此需要發(fā)展適合AI算法的專屬芯片。

　　目前常見的AI加速芯片按照技術(shù)路線可以分為GPU、FPGA和ASIC三類：1）GPU：由數(shù)以千計的更小、更高效的核心組成大規(guī)模并行計算架構(gòu)，適合用于大量并行計算。2）FPGA：一種半定制芯片，靈活性強集成度高，但運算量小且量產(chǎn)成本高，適用于算法更新頻繁的專用領(lǐng)域3）ASIC：領(lǐng)域?qū)Ｓ眯酒瑢Ｓ眯苑浅?，開發(fā)周期較長且難度極高，適合市場需求量大的專用領(lǐng)域。下表更詳細(xì)的對比了三者的優(yōu)缺點：

　　雖然說CPU不能滿足AI算法的性能要求，因此不能作為AI專用芯片，但是實際上真正的AI應(yīng)用場景都需要CPU的參與才能完成。這是因為CPU具有其他AI專用芯片所不具備的通用處理能力，而在AI應(yīng)用中，數(shù)據(jù)的前處理、計算過程的流程控制以及計算結(jié)果的后處理等等，都需要CPU的通用處理能力才能完成。如前所述，在后摩爾時代，處理器的設(shè)計多以多核異構(gòu)為主，各個處理單元充分發(fā)揮自己所長，大家相互配合從而高效地完成計算。而AI處理器作為后摩爾時代芯片設(shè)計中的代表，自然也需要采用這種異構(gòu)多核的設(shè)計方式。當(dāng)然，不同的AI處理器面向的場景不同，具體的異構(gòu)設(shè)計也不相同。

　　以邊緣端的AI處理器為例，其面向的場景需要低功耗、高性能以及數(shù)據(jù)處理的實時性，因此可以采用傳統(tǒng)的SoC設(shè)計外加專用的AI處理器（ASIC），其中SoC中的CPU和外設(shè)分別提供了通用處理和IO交互等能力，而專用AI處理器則為AI算法進行加速，二者結(jié)合兼顧了在AI計算場景中的高性能和低功耗。然而，美中不足的是，AI專用處理器雖然性能高，但是靈活性不足，其所支持的算法在設(shè)計完成時便已確定，后期無法靈活的添加；而AI算法的發(fā)展日新月異，新算子層出不窮，只靠AI處理器恐怕難以招架。

　　如果能夠在這套系統(tǒng)中再添加一片F(xiàn)PGA，那么靈活性則會極大的提高。如果遇到不支持的算法或者不能滿足的（IO）性能需求，只需要通過FPGA的可編程邏輯進行現(xiàn)場定制開發(fā)，就能輕易的支持。3FPAI = FPGA + SOC + AI如上所述，對于邊緣端的AI處理器，采用FPFA、SoC和專用AI處理器相結(jié)合的設(shè)計，便能兼顧通用性、靈活性和能效，我們不妨將以上架構(gòu)命名為FPAI，即 FPAI = FPGA + SoC + AI。以上架構(gòu)雖然好，但是由于涉及到FPGA的集成，因此實際設(shè)計和生產(chǎn)的難度都比較大。萬幸的是，某國內(nèi)廠商敢為人先，已經(jīng)率先推出了采用FPAI架構(gòu)的AI處理器。該芯片的架構(gòu)如下圖所示：

　　該芯片主要包含了以下三部分：

　　1）處理器系統(tǒng)：對應(yīng)FPAI架構(gòu)中的SoC，主要包含多核CPU/GPU/VPU等處理器、總線、存儲單元、一些通用接口和其他功能

　　2）AI引擎：對應(yīng)FPAI架構(gòu)中的AI專用處理器，包含矩陣處理引擎（MPE）、向量處理引擎（VPE）、片上存儲和一些其他計算引擎。其中MPE主要用于乘累加的計算，其主要計算單元是一個32×32的MAC陣列；VPE主要用于向量的線性計算以及激活和池化等操作；片上存儲用于緩存中間數(shù)據(jù)，緩解帶寬壓力。3）可編程邏輯：對應(yīng)FPAI架構(gòu)中的FPGA，包含可編程邏輯資源（BRAM， LUT， DSP），高速接口（GTH， ETH， PCIE）和DDR等。

　　該AI處理器支持INT8和INT16兩種計算精度，分別提供27.5TOPS和6.9TOPS的算力。運行Yolov5s網(wǎng)絡(luò)，耗時6.28ms，浮點精度為0.568，量化后的INT8精度為0.547，INT16精度為0.561。

　　處理器的多核異構(gòu)設(shè)計會給編程帶來很大的復(fù)雜度，因此一款好的AI處理器不僅要有好的性能和能效，還要提供好用的編譯器來將上層AI應(yīng)用便捷地部署到AI處理器上加速運行。上述FPAI架構(gòu)的處理器就提供了功能強大且靈活的AI編譯器“Icraft”，其整體架構(gòu)如下：

　　Icraft主要有以下組件：

　　1）前端解析：將AI框架中的模型解析到Icraft的中間層，支持的前端框架：Pytorch、Tensorflow、ONNX、Caffe、Darknet

　　2）量化&優(yōu)化：對框架中解析出來的中間層網(wǎng)絡(luò)進行量化和一系列優(yōu)化，一步步適配到AI處理器3）指令生成：將算子轉(zhuǎn)換成AI引擎的指令序列4）仿真&運行：對中間層網(wǎng)絡(luò)進行仿真，或者將編譯好的網(wǎng)絡(luò)部署到AI處理器上運行5）分析評估：對網(wǎng)絡(luò)的運行速度、效率等情況進行分析評估，為性能優(yōu)化提供參考。Icraft對于FPAI架構(gòu)中的FPGA部分提供了強有力的支持，用戶可以在FPGA編程定制自己所需要的加速邏輯，并通過Icraft的自定義算子接口加入到編譯流程中，這樣用戶可以選擇將任何算子通過FPGA編程進行加速，從而靈活的滿足不同場景的需求。由于篇幅限制，具體的自定義算子流程后面將專門撰文講述。

　　戰(zhàn)術(shù)總結(jié)

　　今天主要給大家講述了在后摩爾時代，處理器異構(gòu)多核設(shè)計的重要性。同時，針對邊緣端AI處理器的設(shè)計介紹了FPAI （FPGA + SOC + AI）架構(gòu)的優(yōu)勢，并且具體介紹了一款已經(jīng)上市的FPAI架構(gòu)的加速器的硬件和軟件設(shè)計。各位老鐵，如果對這款FPAI芯片感興趣的話，歡迎私信一起交流，小編我會第一時間邀請技術(shù)大拿答疑解惑！

標(biāo)簽：人工智能芯片

分享到：

上一篇：“摻硅補鋰”電池技術(shù)，如何...

下一篇：動力電池制造過程的卷繞工藝...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(y3602.cn)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點