近日,“史上最快大模型”爆火。一家海外AI芯片初創(chuàng)公司Groq使用其自研LPU(語言處理單元)作為推理芯片,使大模型每秒生成速度接近每秒500 token(文本中的一個(gè)最小單位),碾壓GPT-3.5的每秒40 token。
這意味著大模型從處理請(qǐng)求到獲得響應(yīng)所需的時(shí)間大幅縮短,有網(wǎng)友直呼“它回復(fù)的速度比我眨眼還快”;有人認(rèn)為Groq的LPU可能成為英偉達(dá)GPU芯片的有力替代品;更有自媒體聲稱英偉達(dá)被Groq的LPU“碾壓”。
但隨后陸續(xù)有業(yè)界專家對(duì)于Groq LPU性價(jià)比和競(jìng)爭(zhēng)力提出質(zhì)疑,并否認(rèn)其可能沖擊英偉達(dá)。有計(jì)算顯示Groq LPU的硬件成本約是英偉達(dá)H100 GPU的40倍,能耗成本約是其10倍。
專家質(zhì)疑Groq LPU性價(jià)比和競(jìng)爭(zhēng)力
清華大學(xué)集成電路學(xué)院副教授何虎接受記者采訪表示,LPU屬于推理芯片,和目前供不應(yīng)求、主要用于大模型訓(xùn)練的GPU芯片不能算同一個(gè)賽道。從推理芯片賽道來看,LPU目前可能達(dá)到了較高性能,但是運(yùn)行成本并不低。高性能低成本的推理芯片可以降低推理成本、拓寬AI大模型應(yīng)用范圍。其市場(chǎng)前景主要取決于推理需求的市場(chǎng)選擇,不太涉及科技競(jìng)爭(zhēng)。
顧名思義,訓(xùn)練芯片主要用于訓(xùn)練大模型,推理芯片則主要用于AI應(yīng)用中。業(yè)內(nèi)認(rèn)為,隨著各行各業(yè)迎來垂類大模型,AI大模型應(yīng)用逐步落地,用于推理的算力將和訓(xùn)練算力一樣受到關(guān)注。
然而,即便是用于推理,有專家根據(jù)LPU、GPU的內(nèi)存容量和大模型運(yùn)行吞吐量計(jì)算,無論在性價(jià)比和能效比上,LPU都無法和英偉達(dá)的GPU競(jìng)爭(zhēng)。
臉書原AI科學(xué)家、阿里原技術(shù)副總裁賈揚(yáng)清在海外社交媒體平臺(tái)發(fā)文分析,Groq LPU的內(nèi)存容量非常小(230MB)。簡(jiǎn)單計(jì)算得出,運(yùn)行700億參數(shù)模型時(shí),需要305張Groq卡,相當(dāng)于使用8張英偉達(dá)H100。從目前的價(jià)格來看,這意味著在同等吞吐量下,Groq LPU的硬件成本約是H100的40倍,能耗成本約是其10倍。
記者采訪的某國(guó)內(nèi)頭部AI芯片公司負(fù)責(zé)人也認(rèn)同上述計(jì)算結(jié)果。他認(rèn)為,與GPU使用HBM(高帶寬存儲(chǔ)器)不同,LPU使用了SRAM(靜態(tài)隨機(jī)存儲(chǔ)器)作為存儲(chǔ),就意味著要堆很多卡才能跑一個(gè)大模型。
騰訊科技芯片專家姚金鑫更是直言:“英偉達(dá)在本次AI浪潮中的絕對(duì)領(lǐng)先地位,使得全球都翹首以盼挑戰(zhàn)者。每次吸引眼球的文章,總會(huì)在最初被人相信,除了這個(gè)原因之外,還是因?yàn)樵谧鰧?duì)比時(shí)的‘套路’,故意忽略其他因素,用單一維度來做比較?!?/p>
Groq多年致力于顛覆GPU和CPU等傳統(tǒng)架構(gòu)
Groq官網(wǎng)介紹說,LPU代表語言處理單元,是一種新型的端到端處理單元系統(tǒng),可為具有順序組件的計(jì)算密集型應(yīng)用程序(如大語言模型LLM)提供最快的推理。
Groq官網(wǎng)展示的簡(jiǎn)化LPU架構(gòu)
對(duì)于為什么LPU用于LLM和生成式AI時(shí)比GPU快得多,Groq官網(wǎng)解釋說,LPU旨在克服LLM的兩個(gè)瓶頸:計(jì)算密度和內(nèi)存帶寬。對(duì)于LLM來說,LPU的計(jì)算能力要大于GPU和CPU,減少了計(jì)算每個(gè)單詞所需的時(shí)間后,可以更快生成文本序列。此外,通過消除外部?jī)?nèi)存瓶頸使LPU推理引擎能在LLM上提供比GPU高幾個(gè)數(shù)量級(jí)的性能。
Groq成立于2016年。早在2021年,外界就曾將Groq稱為“英偉達(dá)最強(qiáng)挑戰(zhàn)者”。2021年,Groq獲得了由知名投資機(jī)構(gòu)老虎環(huán)球管理基金、D1 Capital領(lǐng)投的3億美元,總?cè)谫Y額達(dá)3.67億美元。
2023年8月,Groq就推出了Groq LPU,可以以每秒超過100 token的創(chuàng)紀(jì)錄速度運(yùn)行700億參數(shù)的企業(yè)級(jí)語言模型。Groq估計(jì),與其他系統(tǒng)相比,它具有10倍到100倍的速度優(yōu)勢(shì)。
Groq創(chuàng)始人兼首席執(zhí)行官喬納森·羅斯(Jonathan Ross)曾表示:“人工智能受到現(xiàn)有系統(tǒng)的限制,其中許多系統(tǒng)正在被新進(jìn)入者追隨或逐步改進(jìn)。無論你在這個(gè)問題上投入多少錢,GPU和CPU等傳統(tǒng)架構(gòu)都難以滿足人工智能和機(jī)器學(xué)習(xí)不斷增長(zhǎng)的需求……我們的使命更具顛覆性:Groq尋求通過將計(jì)算成本降至零來釋放人工智能的潛力?!?/p>