黄色一级网站,国产最变态调教视频

英偉達被“碾壓”？

2024-02-22 16:20:51來源：上海證券報微信公眾號

分享到：

近日，“史上最快大模型”爆火。一家海外AI芯片初創(chuàng)公司Groq使用其自研LPU（語言處理單元）作為推理芯片，使大模型每秒生成速度接近每秒500 token（文本中的一個最小單位），碾壓GPT-3.5的每秒40 token。

這意味著大模型從處理請求到獲得響應所需的時間大幅縮短，有網友直呼“它回復的速度比我眨眼還快”；有人認為Groq的LPU可能成為英偉達GPU芯片的有力替代品；更有自媒體聲稱英偉達被Groq的LPU“碾壓”。

但隨后陸續(xù)有業(yè)界專家對于Groq LPU性價比和競爭力提出質疑，并否認其可能沖擊英偉達。有計算顯示Groq LPU的硬件成本約是英偉達H100 GPU的40倍，能耗成本約是其10倍。

專家質疑Groq LPU性價比和競爭力

清華大學集成電路學院副教授何虎接受記者采訪表示，LPU屬于推理芯片，和目前供不應求、主要用于大模型訓練的GPU芯片不能算同一個賽道。從推理芯片賽道來看，LPU目前可能達到了較高性能，但是運行成本并不低。高性能低成本的推理芯片可以降低推理成本、拓寬AI大模型應用范圍。其市場前景主要取決于推理需求的市場選擇，不太涉及科技競爭。

顧名思義，訓練芯片主要用于訓練大模型，推理芯片則主要用于AI應用中。業(yè)內認為，隨著各行各業(yè)迎來垂類大模型，AI大模型應用逐步落地，用于推理的算力將和訓練算力一樣受到關注。

然而，即便是用于推理，有專家根據(jù)LPU、GPU的內存容量和大模型運行吞吐量計算，無論在性價比和能效比上，LPU都無法和英偉達的GPU競爭。

臉書原AI科學家、阿里原技術副總裁賈揚清在海外社交媒體平臺發(fā)文分析，Groq LPU的內存容量非常小（230MB）。簡單計算得出，運行700億參數(shù)模型時，需要305張Groq卡，相當于使用8張英偉達H100。從目前的價格來看，這意味著在同等吞吐量下，Groq LPU的硬件成本約是H100的40倍，能耗成本約是其10倍。

記者采訪的某國內頭部AI芯片公司負責人也認同上述計算結果。他認為，與GPU使用HBM（高帶寬存儲器）不同，LPU使用了SRAM（靜態(tài)隨機存儲器）作為存儲，就意味著要堆很多卡才能跑一個大模型。

騰訊科技芯片專家姚金鑫更是直言：“英偉達在本次AI浪潮中的絕對領先地位，使得全球都翹首以盼挑戰(zhàn)者。每次吸引眼球的文章，總會在最初被人相信，除了這個原因之外，還是因為在做對比時的‘套路’，故意忽略其他因素，用單一維度來做比較?！?/p>

Groq多年致力于顛覆GPU和CPU等傳統(tǒng)架構

Groq官網介紹說，LPU代表語言處理單元，是一種新型的端到端處理單元系統(tǒng)，可為具有順序組件的計算密集型應用程序（如大語言模型LLM）提供最快的推理。

Groq官網展示的簡化LPU架構

對于為什么LPU用于LLM和生成式AI時比GPU快得多，Groq官網解釋說，LPU旨在克服LLM的兩個瓶頸：計算密度和內存帶寬。對于LLM來說，LPU的計算能力要大于GPU和CPU，減少了計算每個單詞所需的時間后，可以更快生成文本序列。此外，通過消除外部內存瓶頸使LPU推理引擎能在LLM上提供比GPU高幾個數(shù)量級的性能。

Groq成立于2016年。早在2021年，外界就曾將Groq稱為“英偉達最強挑戰(zhàn)者”。2021年，Groq獲得了由知名投資機構老虎環(huán)球管理基金、D1 Capital領投的3億美元，總融資額達3.67億美元。

2023年8月，Groq就推出了Groq LPU，可以以每秒超過100 token的創(chuàng)紀錄速度運行700億參數(shù)的企業(yè)級語言模型。Groq估計，與其他系統(tǒng)相比，它具有10倍到100倍的速度優(yōu)勢。

Groq創(chuàng)始人兼首席執(zhí)行官喬納森·羅斯（Jonathan Ross）曾表示：“人工智能受到現(xiàn)有系統(tǒng)的限制，其中許多系統(tǒng)正在被新進入者追隨或逐步改進。無論你在這個問題上投入多少錢，GPU和CPU等傳統(tǒng)架構都難以滿足人工智能和機器學習不斷增長的需求……我們的使命更具顛覆性：Groq尋求通過將計算成本降至零來釋放人工智能的潛力?！?/p>

更多資訊關注
中方信富公眾號

推薦內容