自ChatGPT爆火之后,AI大模型的研發(fā)層出不窮,而在這場“百模大戰(zhàn)”激戰(zhàn)正酣之際,美國芯片公司NVIDIA(英偉達(dá))卻憑借其GPU在大模型計算中的出色發(fā)揮賺得盆滿缽滿。
而就在近日,科大訊飛創(chuàng)始人、董事長劉慶峰表示:“華為的 GPU(圖形處理器) 能力現(xiàn)在已經(jīng)跟英偉達(dá) A100 一樣了,現(xiàn)在已經(jīng)做到對標(biāo)英偉達(dá)的 A100。”
華為方面對此并沒有回應(yīng),不過,多位業(yè)內(nèi)人士對《中國經(jīng)營報》記者表示,目前,國內(nèi)在AI芯片領(lǐng)域已經(jīng)取得了一定的成就,但要與英偉達(dá)A100相媲美,還存在一些挑戰(zhàn)。
GPU被掣肘
英偉達(dá)在去年收到美國政府的通知,通知稱:“若對中國(含中國香港)和俄羅斯的客戶出口兩款高端GPU芯片——A100和H100,需要新的出口許可。”不僅如此,該許可證要求還包括未來所有的英偉達(dá)高端集成電路,只要其峰值性能和芯片間I/O性能均大于或等于A100的閾值,以及包括這些高端電路的任何系統(tǒng),都被納入許可證限制范圍。
不過,英偉達(dá)針對中國客戶推出了替代型號A800,與原有的A100系列計算卡相比,A800系列的規(guī)格基本相同,比較大的區(qū)別在于NVLink互連總線的連接速率,A100系列為600GB/s,A800系列則被限制在了400GB/s,綜合使用效率只有A100的70%左右。
但即使這樣,原本7.4萬元左右一枚的A800,現(xiàn)在也漲到10萬元以上,并且“一卡難求”。
劉慶峰指出,盡管中國開發(fā)的AI算法非常強大,但國內(nèi)硬件的計算能力傳統(tǒng)上落后于英偉達(dá)。他提到了中國企業(yè)在訓(xùn)練AI大模型方面面臨的挑戰(zhàn),這主要是在英偉達(dá)的硬件上完成的,企業(yè)內(nèi)部只能做出微小的調(diào)優(yōu)和訓(xùn)練。由于美國對中國超級計算機行業(yè)的限制,對英偉達(dá)硬件的依賴成為中國人工智能企業(yè)的一個主要限制。
近日,科大訊飛與華為共同發(fā)布用于構(gòu)建專屬大模型的軟硬件一體化設(shè)備“星火一體機”讓國內(nèi)的大模型廠商再燃希望。劉慶峰表示,華為在GPU領(lǐng)域取得了重大進展,實現(xiàn)了與英偉達(dá)A100 GPU相當(dāng)?shù)哪芰托阅堋?/p>
對此,華為方面并未作出回應(yīng)。不過,記者注意到,華為并不研發(fā)GPU產(chǎn)品,其旗下共有昇騰310、昇騰910兩款A(yù)I處理器加速器。
深度研究院院長張孝榮對記者表示,目前國內(nèi)尚未有媲美英偉達(dá)A100的能力。英偉達(dá)A100是2020年一款高性能計算芯片,2023年最新GPU是H100,具有更強大的AI推理能力和超高的浮點計算性能。雖然國內(nèi)廠商的GPU能力已經(jīng)有所提升,但目前還遠(yuǎn)遠(yuǎn)沒有達(dá)到與英偉達(dá)A100相媲美的水平。
不過,在天使投資人、資深人工智能專家郭濤看來,近幾年來,我國芯片產(chǎn)業(yè)高速發(fā)展,在一批關(guān)鍵核心技術(shù)取得新突破,目前已經(jīng)具備生產(chǎn)媲美英偉達(dá)A100芯片的能力,但若想實現(xiàn)大規(guī)模出貨仍然面臨很多挑戰(zhàn)。
全聯(lián)并購公會信用管理委員會專家安光勇也認(rèn)為,目前,國內(nèi)在AI芯片領(lǐng)域已經(jīng)取得了一定的成就,但要與英偉達(dá)A100相媲美,還存在一些挑戰(zhàn)。英偉達(dá)A100是一款面向高性能計算和人工智能任務(wù)的GPU,具備出色的計算和訓(xùn)練能力,但要達(dá)到A100的水平仍需要時間。
彎道超車
“中國有很多GPU的初創(chuàng)公司,不要低估中國在芯片領(lǐng)域的追趕能力?!庇ミ_(dá)CEO黃仁勛曾表示。
雖然距離國內(nèi)廠商趕超英偉達(dá)尚有較大的距離,但AI芯片并非只有GPU。
AI場景需要多核、高并發(fā)、高帶寬的AI芯片。AI芯片,也被稱為AI加速器或計算卡,即專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊。當(dāng)前,AI芯片主要分為GPU 、FPGA(現(xiàn)場可編程門陣列),及以TPU、VPU為代表的ASIC(特定應(yīng)用集成電路)芯片。
FPGA屬于具備可編程硬件結(jié)構(gòu)的集成電路,其可編程性和靈活性可快速適應(yīng)不同AI算法要求,但也存在高功耗的問題。ASIC屬于專用芯片,通過算法固化實現(xiàn)更高的算法利用率和能耗比,但開發(fā)周期較長、靈活性較弱。
郭濤表示,中國在AI芯片領(lǐng)域的研發(fā)和生產(chǎn)方面已經(jīng)取得了一些重要成果,除GPU芯片外,未來有望在CPU(中央處理器)、FPGA芯片、ASIC芯片等多個方面實現(xiàn)彎道超車。
張孝榮也認(rèn)為,除了GPU之外,國內(nèi)廠商還可以研發(fā)其他類型的加速器,如FPGA、DSP等。這些加速器可以針對特定的AI計算任務(wù)進行優(yōu)化,提高計算效率和性能。除此之外,還可以通過優(yōu)化算法和模型設(shè)計,減少對計算資源的依賴,提高計算效率。例如,剪枝、量化等技術(shù)可以減少模型的參數(shù)量和計算量。將AI計算能力下沉到設(shè)備端,減少對云端計算資源的依賴。通過在設(shè)備端進行本地計算,可以提高響應(yīng)速度和數(shù)據(jù)隱私保護??傊?,國內(nèi)可以通過不斷創(chuàng)新和技術(shù)積累,在AI芯片領(lǐng)域有所創(chuàng)新,不要著眼于不切實際的彎道超車,而要以滿足實際需求為主,逐漸縮短GPU領(lǐng)域的差距。
安光勇表示,國內(nèi)致力于發(fā)展本土芯片產(chǎn)業(yè),通過政策和資金支持,促進產(chǎn)業(yè)生態(tài)的形成,這將有助于國內(nèi)企業(yè)在芯片領(lǐng)域進行合作和創(chuàng)新。不僅如此,中國在人工智能算法和應(yīng)用方面也有很強的優(yōu)勢。即使在芯片技術(shù)上難以迅速迎頭趕上,通過優(yōu)化算法和軟件,仍可以在性能和效率上取得優(yōu)勢。
實際上,國內(nèi)的廠商也在不斷實現(xiàn)突破?!爱?dāng)前中國大模型中有一半是由華為昇騰AI來支撐的?!苯衲?月,華為輪值董事長胡厚崑對外透露。華為昇騰計算業(yè)務(wù)總裁張迪煊也透露,截至目前,昇騰已認(rèn)證了30多家硬件伙伴、1200多家軟件伙伴,聯(lián)合孵化了2500多個AI場景方案。在中國,平均每兩家AI企業(yè)就有一家選擇昇騰。
作為“科創(chuàng)板AI芯片第一股”的寒武紀(jì)此前在互動平臺回復(fù),公司設(shè)計、研發(fā)的智能芯片不屬于GPU,是面向人工智能領(lǐng)域?qū)iT設(shè)計的芯片。智能芯片的性能和能效優(yōu)勢主要集中于智能應(yīng)用,在人工智能領(lǐng)域可以替代GPU芯片,但不適用于人工智能之外的其他領(lǐng)域。
而在“傳統(tǒng)”的GPU領(lǐng)域,國內(nèi)廠商也有所建樹。摩爾線程全功能GPU顯卡可以完成AI模型的訓(xùn)練、推理、精調(diào)全流程,目前可以進行ChatGLM和GLM系列模型的推理,并且支持超大大模型的分布式推理和offload推理。