隨著ChatGPT、百度文心一言等一系列大模型密集上線,AI大模型當(dāng)下已經(jīng)遍地開花。本周四,谷歌發(fā)布AI語言模型PaLM 2與OpenAI旗下GPT-4等系統(tǒng)展開競爭,國內(nèi)云從科技、引力傳媒等多家A股上市公司亦宣布AI大模型產(chǎn)品最新進展。在“AI百模大戰(zhàn)”背后,隨之帶動的算力需求開始呈“爆炸式”增長,一場“算力儲備戰(zhàn)”已暗潮洶涌,全球算力市場持續(xù)火熱。
據(jù)悉,AI由數(shù)據(jù)、算法(即模型)和算力驅(qū)動,其中任意一方的發(fā)展會推動其他方面需求的增長。有分析認(rèn)為,當(dāng)下行業(yè)內(nèi)雖然擁有更多的數(shù)據(jù)以及做了更多的AI模型研究,但算力的擴展速度卻沒有跟上。今年4月,OpenAI就因需求量過大而停止了ChatGPT Plus的銷售。對此,東方證券研報認(rèn)為,主要系計算資源供不應(yīng)求。
根據(jù)數(shù)據(jù)預(yù)測,AI時代算力的增長已遠(yuǎn)遠(yuǎn)超過了摩爾定律每18個月翻番的速率,預(yù)計到2030年全球超算算力將達(dá)到0.2ZFLOPS,平均年增速超過34%。華為更是預(yù)測,未來10年人工智能算力需求將會增長500倍以上。那么,身處“智能革命”起點的當(dāng)下,什么才是AI算力的最優(yōu)解?國內(nèi)“算力軍備競賽”又走到哪一步了?
短期堆起的GPU競爭高地:以量取勝筑起大模型算力門檻低配版英偉達(dá)GPU國內(nèi)炒至10萬元
眾所周知,芯片能力直接影響著高算力訓(xùn)練效果和速度,相較于基于CPU芯片的通用算力,AI所需的智能算力則主要基于GPU、GPGPU及AISC等AI芯片所提供算力,用于人工智能的訓(xùn)練和推理。其中,GPU是一種專門用于處理圖形、視頻、游戲等高性能計算的硬件設(shè)備,憑借相較于其他硬件在算力方面的較大優(yōu)勢脫穎而出,同時隨著英偉達(dá)A100、H100等型號產(chǎn)品的發(fā)布,前款產(chǎn)品在AI推理時吞吐量是CPU的249倍。GPU已成為當(dāng)前AI算力的核心硬件。
中金公司研報表示,多GPU互聯(lián)能力加強可以提高并行計算能力,因而算力提升對GPU數(shù)量的要求日益提高。隨著單GPU的計算能力越來越難以應(yīng)對深度學(xué)習(xí)對算力的需求,英偉達(dá)已經(jīng)開始用多個GPU去解決問題。對此,業(yè)內(nèi)分析認(rèn)為,高端GPU的數(shù)量基本決定了一個廠商能夠練多大的模型,后期將成為業(yè)內(nèi)判斷企業(yè)大模型能力的重要指標(biāo)。
據(jù)TrendForce數(shù)據(jù)顯示,如果以英偉達(dá) A100 顯卡的處理能力計算,GPT-3.5大模型需要2萬塊GPU來處理訓(xùn)練數(shù)據(jù)。亦有業(yè)內(nèi)公認(rèn)看法,做好AI大模型的算力門檻是1萬枚A100芯片。
目前,全球GPU市場主要由英偉達(dá)、英特爾和AMD三家巨頭壟斷,去年Q4獨立GPU份額分別為85%、6%、9%。其中,人工智能、云端計算和獨立GPU主要為英偉達(dá)主導(dǎo),A100和H100最高浮點算力分別實現(xiàn)19.5 TFLOPS 和67 TFLOPS。
相較于此,我國國產(chǎn)GPU尚處萌芽期,與國際廠商差距更大。但隨著高端GPU的出口限令,針對中國市場推出的特供版A800也已漲10萬元的高價,國內(nèi)GPU市場需求緊迫。在此情形下國產(chǎn)化迫在眉睫,國產(chǎn)GPU廠商近幾年也不斷涌現(xiàn),目前國內(nèi)自研GPU的領(lǐng)軍企業(yè)主要是寒武紀(jì)、景嘉微、華為昇騰等。其中,景嘉微是國內(nèi)首家成功研制國產(chǎn)GPU芯片并實現(xiàn)大規(guī)模工程應(yīng)用的企業(yè)。行業(yè)內(nèi)專家稱,主打產(chǎn)品JH920的性能與英偉達(dá)2016年發(fā)布的GTX 1050相仿,在中高端領(lǐng)域及硬核的算力需求仍存在較長的追趕道路。
對于整個算力市場,業(yè)內(nèi)人士認(rèn)為,目前燒GPU是最為現(xiàn)實的方案,尤其從國內(nèi)GPU廠商的角度來看,國產(chǎn)GPU高端化薄弱,只有使更多低端的GPU去追趕和堆疊,通過優(yōu)化和協(xié)調(diào)來協(xié)同作用,再去組合模擬優(yōu)化的路徑。
下場突圍的存算一體:打破“內(nèi)存墻”極限難題全球玩家站上同一起跑線
不過,雖然GPU是目前最成熟的AI算力方案,但長時間來看,在算力昂貴和受限的制約下燒GPU并非長久之策。
在馮·諾伊曼結(jié)構(gòu)計算機中計算和存儲分離,存和算之間性能失配常常導(dǎo)致訪存帶寬低、時延長、功耗高等問題,運算效率被大打折扣,即面臨著“內(nèi)存墻”的制約問題。通俗來看,方正證券在4月30日研報中解釋,雖然CPU/GPU并行加速技術(shù)可以提升算力,但隨摩爾定律逼近極限,存儲帶寬制約了計算系統(tǒng)的有效帶寬,系統(tǒng)算力增長步履維艱。
對此,方正證券認(rèn)為,存算一體作為一種新的計算架構(gòu),其核心是將存儲與計算完全融合,以新的高效運算架構(gòu)進行二維和三維矩陣計算,具有更大算力(1000TOPS以上)、更高能效(超過10-100TOPS/W)、降本增效三大優(yōu)勢,能有效克服馮·諾依曼架構(gòu)瓶頸,實現(xiàn)計算能效的數(shù)量級提升。業(yè)界普遍認(rèn)為,其為“AI算力的下一極”,繼CPU、GPU之后的算力架構(gòu)“第三極”。
在存算一體市場中,海外廠商SST,Syntiant、Mythic因布局較早,走在商業(yè)化前列。不過,在新的技術(shù)領(lǐng)域比如基于ReRAM存算一體做大算力芯片,各國還處在同一起跑線,國內(nèi)外眾多企業(yè)紛紛開展存算一體技術(shù)的研發(fā),包括英特爾、SK海力士、IBM、美光、三星、臺積電、阿里等巨頭,以及九天睿芯、恒爍股份、億鑄科技、千芯科技、蘋芯科技、知存科技、智芯科等眾多新興AI和存儲企業(yè)。
AI算力“神藥”量子計算:谷歌、阿里等科技巨頭扎堆進入國內(nèi)企業(yè)或借此賽道彎道超車
值得注意的是,在當(dāng)前GPU、下一步存算一體的背后,還有著一位AI算力“神藥”——量子計算。
據(jù)悉,量子計算機是基于量子力學(xué)原理構(gòu)建的計算機,性能差距呈指數(shù)級增長。中金公司研報表示,相較經(jīng)典計算機,量子計算機算力發(fā)生爆發(fā)式增長,形成“量子優(yōu)越性”。業(yè)內(nèi)分析認(rèn)為,量子計算有望徹底解決經(jīng)典計算的算力不足問題。并且,未來量子計算機肯定能夠助力人工智能,隨著AI所需的算力越來越多,2030年算力以及耗電量都可能出現(xiàn)超高數(shù)據(jù)級增長,因此對于真正解決AI大規(guī)模的算力需求,量子計算機是一個很有潛力的應(yīng)用方向。
根據(jù)中金公司研報顯示,谷歌、IBM、微軟、亞馬遜等全球科技巨頭紛紛推出量子云服務(wù)平臺。國內(nèi)阿里、騰訊、百度、華為近年來也先后布局量子計算,比如百度成立了量子計算研究所;華為推出了“昆侖”量子計算模擬一體機,在摩爾定律漸趨失效下,量子計算為中國提供彎道超車機會。
此外,有市場分析指出,我國量子計算也在展開融資競爭賽。近一年來,國內(nèi)包括量旋科技、圖靈量子、華翊量子、未磁科技、本源量子在內(nèi)的9家量子計算企業(yè)獲得融資。
不過,安信證券提到,當(dāng)前量子計算機的發(fā)展還面臨著如退相干等問題,導(dǎo)致當(dāng)前量子計算仍主要存在于實驗室階段,距離商業(yè)化較遠(yuǎn)。對此,有業(yè)內(nèi)人士坦言,量子計算行業(yè)現(xiàn)在還未發(fā)生一些根本性的變化進展,中短期與其寄希望于其他方案來解決大模型所遇到的算力問題,不如指望GPU這些經(jīng)典計算的硬件價格能下來。