隨著科技的發(fā)展,人工智能(AI)已經(jīng)逐漸滲透到我們生活的方方面面。從先進的AI游戲到元宇宙的構(gòu)建,從自動駕駛的實現(xiàn)到大數(shù)據(jù)中心的智能化運營,再到像ChatGPT這樣的大型語言模型的訓練和AI generated content(AIGC)的應用,AI的應用場景正在以前所未有的速度和廣度拓展開來。然而,這些應用的實現(xiàn),都離不開強大的算力支持。
在PC時代,提升算力的的重點是提高CPU的主頻,于是雙核、多核異構(gòu)開始流行。從PC時代進入到手機、平板等移動終端時代,開始對于多媒體、圖形渲染提出了更高要求,于是GPU變得越來越重要。而相較于CPU,GPU的浮點運算方式更加適合AI算法模型的計算。事實上,很多的AI應用在早期的硬件基礎都是GPU,通過GPU來運行多種通用的AI算法。
在早期的摩爾定律時代,AI普遍采用計算和存儲分離的馮諾依曼架構(gòu),特點是低算力、低能耗比。那時英特爾、AMD、 ARM為代表的CPU芯片是集成電路皇冠上的明珠。隨著GPU、AI加速芯片如NPU等處理器的出現(xiàn),后摩爾時代來臨,算力開始大幅度提升,但能耗比仍然較低。比如區(qū)塊鏈、數(shù)字貨幣的挖礦需求促進了單一硬件加速器替代GPU。而到了今天,不管是自動駕駛、元宇宙還是AIGC類應用,使用GPU的成本已經(jīng)太高。AI廠商更傾向于自己設計ASIC芯片,采用專用的計算架構(gòu),可以帶來幾倍,甚至幾十倍數(shù)量級別的能耗比。
AI中的深度學習需強大的并行處理能力,因此,AI處理器主要集中在GPU、FPGA、ASIC和NPU等,廠商也都在研發(fā)和升級這些處理器應對挑戰(zhàn)。其中,GPU是當前最主要的AI處理器。2021年上半年,中國AI芯片市場中,GPU占90%以上份額,ASIC、FPGA、NPU等占近10%,預計2025年占比會超過20%。
AI的應用場景多種多樣,比如元宇宙、自動駕駛以及AIGC等,針對不同的應用需求,對于算力的需求也有所不同。
01
元宇宙中的GPU算力需求
作為一個虛擬的并行世界,元宇宙需要大量的算力來模擬現(xiàn)實世界的一切,包括環(huán)境、物體和人物等。AI技術能夠幫助元宇宙更加真實、智能地模擬現(xiàn)實,從而為用戶帶來更加沉浸式的體驗。在元宇宙中,算力需求主要體現(xiàn)在圖形渲染、物理模擬、虛擬角色行為智能等方面。
元宇宙作為一種全新的虛擬世界,對算力的需求極高。從環(huán)境建設到角色交互,再到持續(xù)的世界運轉(zhuǎn),都需要強大的計算能力。有觀點認為,元宇宙的最終理想形態(tài),對算力資源的需求是近乎無限的。中國信息通信研究院云計算與大數(shù)據(jù)研究所所長何寶宏就指出,元宇宙邁入虛擬和現(xiàn)實融合的3D互聯(lián)網(wǎng)時代,算力需求呈現(xiàn)指數(shù)級提升。相關預測顯示,按照元宇宙的構(gòu)想,至少需要現(xiàn)在算力的10的6次方倍。
元宇宙相關應用有三大需求:渲染、物理特性計算與AI。GPU最初為圖形渲染設計,后發(fā)展為承擔科學計算和AI計算。GPU是元宇宙不可或缺的核心工具,需有巨大進步才能實現(xiàn)真實、受歡迎的體驗。英特爾首席架構(gòu)師Raja Koduri曾強調(diào),計算能力需增加1000倍才能滿足元宇宙的需求。在2025年下一個十年,來自元宇宙的需求將推動GPU在圖形+計算+AI+物理模擬方面的進一步發(fā)展。GPU在元宇宙中將面臨更大爆發(fā),市場相較十年前將呈百倍萬倍增長。
02
自動駕駛進入2000TOPS內(nèi)卷時代
自動駕駛算是目前比較成熟的商用落地AI應用了。自動駕駛技術的發(fā)展離不開高性能的計算能力,需要處理大量的傳感器數(shù)據(jù),如激光雷達、攝像頭和雷達等,實現(xiàn)實時的目標檢測、跟蹤和路徑規(guī)劃。此外,自動駕駛還需要進行實時的高精度地圖匹配、車輛控制和決策。這些應用場景對算力的需求極高,以確保自動駕駛系統(tǒng)的安全性和穩(wěn)定性。
自動駕駛芯片已成為智能汽車核心,隨著自動駕駛級別逐步提升和應用功能的豐富,對芯片算力的要求也越來越高。目前,市場上主流自動駕駛芯片多為SoC,架構(gòu)分為CPU+GPU+ASIC、CPU+FPGA和CPU+ASIC。長期來看,定制化的低功耗、低成本ASIC將逐漸取代高功耗GPU。由于自動駕駛算法廣泛運用深度學習等AI算法,車端需要能進行推理的AI芯片,云端需進行大量數(shù)據(jù)訓練的服務器芯片。目前,Mobileye、英偉達、特斯拉、高通等廠商在車載計算芯片方面居于市場前列,產(chǎn)品已廣泛應用于中高端和新勢力車型。
曾幾何時,超過100TOPS的算力已經(jīng)算是比較高端的芯片了。而在英偉達和高通的“PPT”大戰(zhàn)下,整個自動駕駛芯片行業(yè)正在加速內(nèi)卷,算力門檻一再飆升。目前,英偉達、高通發(fā)布算力超1000TOPS的 SoC,主用于自動駕駛。英偉達推出1000TOPS DRIVE Atlan,后發(fā)展至2000TOPS Thor。高通推出Snapdragon Ride Flex,最高級版本算力達2000TOPS。異構(gòu)計算提高計算并行度和效率,典型代表為SoC芯片,如英偉達Thor,其高算力得益于Hopper GPU、Next-Gen GPU Ada Lovelace和Grace CPU。
在這么卷的情況下,也開始有不少廠商出來給這場算力競爭降降溫了。在行業(yè)玩家都紛紛追求高算力的2022年,Mobileye今年推出的旗艦產(chǎn)品EyeQ Ultra卻只有176TOPS。Mobileye的CEO Ammon Shashua表示,“我們非常坦率地認為TOPS是一個非常不充分的計算能力指標,集成在EyeQ芯片中的計算模型非常復雜,遠不是單一指標能夠量化的”。
另如Tesla的FSD芯片,也還保持在144 TOPS的算力,但自動駕駛的體驗目前是業(yè)內(nèi)公認的頭部位置。
國內(nèi)的自動駕駛芯片代表廠商地平線也認為,應該更強調(diào)芯片的有效利用率而非只關注算力。地平線認為,盡管競品的AI芯片算力更高,但其算力的有效利用率上卻打了很大折扣,不同模型算法的有效利用率有很大差異。實際使用時就會有個很奇怪的現(xiàn)象,雖然芯片的TOPS很高,但實際模型跑在芯片上的效果并不好,這正是芯片有效利用率低的表現(xiàn)。
【廣告】
03
AIGC引發(fā)的算力需求激增
AIGC(AI generated content)即人工智能生成內(nèi)容,又稱為生成式AI。指利用人工智能技術來生成內(nèi)容, 其中包括文字、語音、代碼、圖像、視頻、機器人動作等等。目前最火的AIGC應用就是ChatGPT等大型語言模型,這類模型的訓練和推理需要大量的計算資源,尤其是在訓練階段,對GPU和其他高性能計算設備的需求極大。
ChatGPT火爆,標志AIGC商業(yè)化啟動,基于大型神經(jīng)網(wǎng)絡推動AI深度發(fā)展,算力需求也同步激增。模型訓練是核心挑戰(zhàn),算法模型復雜度指數(shù)級增長。以GPT3為例,1750億參數(shù)、1000億詞匯語料庫訓練,需1000塊英偉達A100 GPU訓練1個月。不到一年,萬億參數(shù)語言模型Switch Transformer問世。人工智能算力每兩個月翻倍,供給水平影響AI創(chuàng)新及產(chǎn)業(yè)應用落地。AI模型進入萬億級時代,深度學習進入大模型、大數(shù)據(jù)階段,算力需求每2年超過實際增長速度375倍。
有報告稱,OpenAI為ChatGPT提供服務需要每天694444美元的運營成本和約3617臺HGX A100服務器。
ChatGPT基于Transformer技術,運行需要大規(guī)模預訓練和大量算力。這不僅推動了AI底層芯片的需求,也拉動了高端芯片的需求。隨著ChatGPT在各領域應用的普及,如智能音箱、游戲NPC等,以及使用頻率的提高,對AI服務器的需求也在劇增。預計全球AI服務器市場將在2025年達到288億美元。
AI服務器主要為CPU+GPU形式,支持大規(guī)模神經(jīng)網(wǎng)絡模型,我國服務器廠商處于全球領先地位,市場規(guī)模增長空間廣闊。近五年,國內(nèi)算力產(chǎn)業(yè)增速超30%,排名全球第二。已進入超過1000TOPS算力時代,數(shù)據(jù)中心和超算是典型場景。《新型數(shù)據(jù)中心發(fā)展三年行動計劃》指明,2023年底總算力規(guī)模將超200 EFLOPS,2025年超300 EFLOPS。超算中心正向Z級算力發(fā)展,E級計算是全球頂尖超算目標。以美國橡樹嶺實驗室Frontier超算中心為例,其雙精度浮點算力達到1.1 EOPS。
除了CPU+GPU的形式,由于FPGA具有靈活性高、開發(fā)周期短等特點,而ASIC則具有體積小、功耗低等優(yōu)點,它們同樣被應用于AI服務器。特別是在機器學習、邊緣計算等領域,ASIC被廣泛關注。谷歌的TPU v4和百度的昆侖2代AI芯片都在此方向取得了顯著成果。
值得注意的是,隨著云端芯片處理需求的增加,云端壓力不斷增大,推動了AI處理向邊緣轉(zhuǎn)移的趨勢。由此帶來的用戶需求的變化也在推動AI芯片分工方式的變化,一方面希望保護數(shù)據(jù)隱私,一方面需要及時處理結(jié)果,因此AI處理的重心正在加快向邊緣轉(zhuǎn)移。
04
總結(jié):后摩爾定律時代下的
AI算力增長與挑戰(zhàn)
在以往,芯片算力由數(shù)據(jù)互連、單位晶體管算力、晶體管密度和芯片面積決定。所以要提高芯片算力,主要通過提升系統(tǒng)架構(gòu),采用更先進的工藝提高晶體管密度,采用分布式運算和異構(gòu)計算,以及采用新的Chiplet封裝等等方式來實現(xiàn)。
不過,摩爾定律近年來已經(jīng)趨于飽和,無法維持如此高速的增長。在此背景下,智能計算的算力需求卻在7年間提升了6倍。以圖像識別和自然語言處理為例,其性能的提升背后是對算力的指數(shù)級增長需求。這種需求爆炸式增長的例證就是GPT系列模型,從GPT-1到GPT-4,在短短5年內(nèi)算力增長了幾千倍。
在后摩爾定律時代,AI算力的增長不僅依賴于硬件的改進,如摩爾定律所描述的,而且還依賴于軟件和算法的優(yōu)化,數(shù)據(jù)傳輸速率也成為算力瓶頸。算法的效率和計算架構(gòu)的有效利用率在實現(xiàn)性能提升中的關鍵作用。
AI處理器的計算架構(gòu)需要隨著時代的發(fā)展進行變革,以適應不斷發(fā)展的需求。未來的AI處理器不僅需要提供強大的計算能力,還需要考慮功耗、體積和成本等因素。同時,軟件和硬件的協(xié)同優(yōu)化,也將成為提升AI性能的關鍵。
總的來說,AI的發(fā)展已經(jīng)深入到我們生活的各個領域,對算力的需求也在不斷增長。未來,包括GPU、NPU和ASIC在內(nèi)的AI處理器,我們將會看到更多的創(chuàng)新,以滿足這種需求的增長,并推動AI技術的進一步發(fā)展。
05
活動預告
隨著AI應用的深入和下沉,圍繞算力需求和相關處理器技術的討論也將持續(xù)進行。8月23日,elexcon深圳國際電子展在深圳會展中心(福田)將召開2023年深圳國際GPU技術大會,以“AIGC、元宇宙”為主題,聚焦GPU領域的多個熱門領域,匯聚優(yōu)質(zhì)企業(yè)及知名專家學者,提供全球嵌入式技術的行業(yè)交流平臺。 會議將包括專家論壇和產(chǎn)業(yè)論壇,幾十場技術報告。本次大會錄用的技術報告,將采用公開征詢擇優(yōu)遴選方式,由大會專家委員會審核選定,2個分論壇專題如下: GPU技術論壇 NPU技術論壇 前沿論壇:探討AIGC、元宇宙等多個熱門領域的GPU應用 大會專家委員:(以姓氏筆畫為序) 何虎——清華大學集成電路學院副教授、博士生導師李彬——燧原科技首席軟件戰(zhàn)略官 景乃鋒——上海交通大學電子信息與電氣工程學院副研究員、博士生導師 熊庭剛——中國船舶集團公司第709研究所首席技術專家 孫毓忠——中科院計算所研究員 趙地——凌久微電子有限公司 大會時間:2023年8月23日 大會地點:深圳會展中心(福田)
2023年深圳國際GPU技術大會現(xiàn)場,還將舉辦elexcon 2023深圳國際電子展暨嵌入式與AIoT展,以“算力持續(xù)增長,洞悉邊緣計算如何為社會智能化生態(tài)賦能!”為展示主題,屆時將匯聚眾多嵌入式領域優(yōu)質(zhì)企業(yè)及專業(yè)觀眾參與。同期還將舉行GPU、物聯(lián)網(wǎng)、嵌入式、FPGA、AI、云計算、大數(shù)據(jù)、射頻芯片、AR/VR、TSN與工業(yè)數(shù)智化等主題論壇活動,提供全球嵌入式技術的專業(yè)交流平臺。 展示范圍: AI與算力