ICC訊 近日消息,美國考慮進一步限制向中國出口AI芯片,商務(wù)部最早可能在下個月初采取行動。在沒有獲得許可證的情況下,美商務(wù)部將禁止英偉達等制造商向中國客戶運送AI芯片。英偉達專供中國的A800芯片,在無許可證的情況下也將被禁售。A800是英偉達專為中國客戶推出的產(chǎn)品,用以解決美國商務(wù)部的半導體出口新規(guī),取代A100 GPU,該產(chǎn)品在2022年第三季度起投產(chǎn)。近段時間,大模型迅猛發(fā)展,國內(nèi)在新規(guī)之前采購的可流通A100并不多,目前各互聯(lián)網(wǎng)廠商爭相采購的主要是A800。
A800被禁售,國內(nèi)AI大模型訓練受阻?
在AI大模型的訓練上,現(xiàn)在基本上是用英偉達的A100、H100以及特供中國的減配版 A800、H800。2020年和2022年,英偉達先后推出了A100芯片、H100芯片,其中A100顯卡又提供80GB、40GB兩個顯存版本,H100則提供80GB顯存。A100擁有540億晶體管,采用臺積電7nm工藝制程,支持FP16、FP32和FP64浮點運算,為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。
H100集成800億晶體管,采用臺積電定制的4nm工藝,相比于A100,H100在FP16、FP32和FP64計算上比A100快三倍,非常適用于當下流行且訓練難度高的大模型。
2022年9月,美國商務(wù)部對GPU 的出口規(guī)定,主要限制是顯卡的算力和帶寬,算力上線是4800 TOPS,帶寬上線是600 GB/s。A800的帶寬為400GB/s,低于A100的600GB/s,H800的參數(shù)并未公布,據(jù)知情人士透露只有H100(900 GB/s)到約一半。這意味著A800、H800在進行AI模型訓練的時候,需要耗費更長的時間,不過這相比于其他的同類產(chǎn)品,性能仍然是高的。
最近大半年時間,隨著ChatGPT的出圈,國內(nèi)外各大互聯(lián)網(wǎng)公司、AI企業(yè)都在大力研發(fā)自己的AI大模型產(chǎn)品,而這也造成了對GPU的極大需求。各大互聯(lián)網(wǎng)廠商都在大力采購英偉達的GPU芯片,包括百度、阿里、騰訊、字節(jié)跳動等等。在國內(nèi),還可流通的A100并不多,據(jù)一家服務(wù)器定制企業(yè)的銷售經(jīng)理描述,需求太過火爆,甚至有人從機房里把芯片禁運政策生效前購買的A100 80GB拆出來倒賣。如今,國內(nèi)市場還是主要倚賴在政策允許范圍內(nèi)的A800芯片。不過大模型火爆之后,因為需求太大,A800也出現(xiàn)供貨周期拉長、價格上漲的情況,據(jù)業(yè)內(nèi)人士透露,之前兩周時間就能到貨,現(xiàn)在樂觀的情況也要4-6周的時間,甚至更長。如今,根據(jù)美國商務(wù)部的意思,A800在無許可證的情況下將被禁售,這意味著,后續(xù)國內(nèi)企業(yè)在大模型的研究中,不僅僅是買到A800需要更長時間的問題,而是很可能買不到的問題。而且不僅僅是A800,其他AI芯片向中國的銷售也可能受阻,包括原本也可以用于一些模型訓練,性能較差一些的V100等。這意味著,國內(nèi)企業(yè)AI大模型后續(xù)的訓練將受阻。
國產(chǎn)GPU能否挑大梁?
如此看來,國內(nèi)AI后續(xù)的發(fā)展,它對算力的需求似乎就只能指望國產(chǎn)GPU了。目前國產(chǎn)GPU的情況如何呢?
大模型訓練需要處理高顆粒度的信息,對云端訓練芯片的芯片處理信息的精細度和算力速度要求更高,現(xiàn)階段國產(chǎn)GPU大多數(shù)不具備支撐大模型訓練所需的能力。不同于多媒體和圖形處理的單精度浮點計算(FP32)計算需求,在超算領(lǐng)域,雙精度浮點計算能力FP64是進行高算力計算的硬性指標。目前國內(nèi)GPU芯片的云端訓練公司,大多只能處理單精度浮點計算,如壁仞科技(通用GPU芯片BR100)、天數(shù)智芯(“智鎧100”)、寒武紀(云端推理思元270)的產(chǎn)品在FP32的理論指標上做得不錯,但沒有處理FP64的能力。
根據(jù)公開消息,目前國內(nèi)唯一支持FP64雙精度浮點運算的只有某司推出的DCU(協(xié)處理器),但是它的性能只有A100的60%左右。所以說,從短期來看,國產(chǎn)的GPU產(chǎn)品還難以支撐起AI大模型的訓練,這意味著英偉達A800芯片被禁售,國內(nèi)AI大模型接下來的研究將難以為繼。那是不是說,無論是國內(nèi)的AI大模型企業(yè),還是國產(chǎn)的GPU企業(yè),真的就束手無策了?也并不是。據(jù)業(yè)內(nèi)人士介紹,對于算力的需求主要與模型參數(shù)有關(guān),大廠現(xiàn)在所做的通用大模型依然只能使用英偉達的產(chǎn)品。但是,垂類行業(yè)的大模型(金融、醫(yī)療等)或者參數(shù)量不像GPT那樣大的模型,一些國產(chǎn)GPU也能夠做到。比如,國內(nèi)某短視頻平臺參數(shù)量約為1000億的大模型,就用了寒武紀的產(chǎn)品,做訓練和推理。當然該模型訓練使用了英偉達的A100。
此外,今年6月10日,天數(shù)智芯對外宣布,在天垓100加速卡的算力集群,基于北京智源人工智能研究院70億參數(shù)的Aquila語言基礎(chǔ)模型,使用代碼數(shù)據(jù)進行繼續(xù)訓練,穩(wěn)定運行19天,模型收斂效果符合預期,證明天數(shù)智芯有支持百億級參數(shù)大模型訓練的能力。摩爾學院院長李豐此前對媒體表示,公司已經(jīng)可以支持3億參數(shù)量模型的訓練。首都在線表示,公司與燧原科技聯(lián)合開發(fā)的AIGC模型方案已發(fā)布內(nèi)測,產(chǎn)品可以從容應對前期投入大、算力要求高、算法模型快速迭代創(chuàng)新的需求,并廣泛支持文本、語音、視覺等各技術(shù)方向的模型訓練??梢?,目前國產(chǎn)GPU雖然在參數(shù)量較大的模型訓練上存在不足,但是確實已經(jīng)能夠在一些中小參數(shù)模型的訓練上有所作為。登臨科技聯(lián)合創(chuàng)始人王平此前對媒體表示,相比于國際領(lǐng)先的GPU產(chǎn)品,國產(chǎn)GPU確實在滿足大模型訓練上存在差距,因為此前行業(yè)在產(chǎn)品定義上未朝大模型方向做設(shè)計。
而現(xiàn)在國產(chǎn)GPU公司都在朝著大模型方向去布局,相信未來終能夠找到方向,進行突破。而且如今A800在無許可證的情況下如果禁售,這對于國產(chǎn)GPU的發(fā)展將會有強大的刺激作用,因為如果不突破,意味著國內(nèi)未來AI大模型的發(fā)展將無計可施,這似乎成了唯一的出路。目前業(yè)界正在做相關(guān)的探索,比如,思考能否通過Chiplet、先進封裝的方式提高算力。研究如何提升芯片與芯片間的數(shù)據(jù)傳輸速度等。昆侖芯就表示,相較于第一代產(chǎn)品,昆侖芯2在算力、互聯(lián)上都有大幅優(yōu)化,公司正在不斷研發(fā)新的產(chǎn)品和技術(shù),以滿足ChatGPT等大模型的應用需求。
小結(jié)
很顯然,在A100、H100之后,若A800在無許可證下被禁售,意味著國內(nèi)AI大模型后續(xù)的訓練將無GPU可用。目前而言國產(chǎn)GPU幾乎還不能用于較大規(guī)模參數(shù)模型的訓練。不過可以看到,一些產(chǎn)品在較小規(guī)模,比如幾億、甚至百億級別參數(shù)規(guī)模的模型訓練上,已經(jīng)可以有所作為。而且目前眾廠商都在朝著大模型應用方向進行探索,從長遠來看,必然會逐步取得進展。
來源:電子發(fā)燒友網(wǎng)報道(文/李彎彎)