美國依靠軟硬件優(yōu)勢,在用規(guī)模“堆”出全球最強(qiáng)人工智能(AI)的這條道路上狂奔不已。美國富豪馬斯克近日在社交媒體上宣布,旗下AI初創(chuàng)公司xAI已開始用10萬塊H100 GPU組成的“孟菲斯超級集群”進(jìn)行AI訓(xùn)練,號稱是“全球最強(qiáng)大的AI訓(xùn)練集群”。中國是否應(yīng)該跟隨美國引領(lǐng)的這條技術(shù)路線?近日在由中國智能計算產(chǎn)業(yè)聯(lián)盟與全國信標(biāo)委算力標(biāo)準(zhǔn)工作組共同主辦的2024中國算力發(fā)展專家研討會上,多名院士專家給出了各自的觀點(diǎn)。
未來超智融合將分為三個階段
中國科學(xué)院院士陳潤生在研討會上表示,“人工智能大模型是新質(zhì)生產(chǎn)力的代表,大模型和超級計算的融合發(fā)展十分重要,我國需要認(rèn)真地去布局、去考慮。”中國科學(xué)院計算技術(shù)研究所研究員張云泉提到,大模型的迅猛發(fā)展彰顯出新質(zhì)生產(chǎn)力的特質(zhì),但目前也遇到了算力瓶頸。鑒于中國在超算領(lǐng)域擁有深厚技術(shù)積累,希望超智融合(超級計算與以大模型為代表的智能計算進(jìn)行融合)能有效化解這一挑戰(zhàn)。國家信息中心信息化和產(chǎn)業(yè)發(fā)展部主任單志廣解釋說,“超智融合是隨著當(dāng)前基礎(chǔ)算力、智算算力、超算算力等的應(yīng)用多元化發(fā)展而誕生的,即能否用混合型算力資源或者融合型算力體系,來解決同時滿足多種不同算力的應(yīng)用需求。”
在預(yù)測未來超智融合的進(jìn)程時,中國科學(xué)院院士錢德沛認(rèn)為,將沿著for AI、by AI和being AI三個階段清晰演進(jìn),從硬件到軟件全方位地進(jìn)化,以適應(yīng)和推動人工智能技術(shù)的發(fā)展。在第一階段for AI,將著重于對現(xiàn)有計算機(jī)系統(tǒng)的改造與升級,發(fā)展專用硬件,確??筛咝У刂С趾蛨?zhí)行AI任務(wù),為人工智能研究提供堅實的基礎(chǔ)設(shè)施。在第二階段by AI,將要用AI改造傳統(tǒng)的計算,一方面用AI的方法來求解傳統(tǒng)超算問題,另一方面AI也在影響傳統(tǒng)計算機(jī)的結(jié)構(gòu),這個趨勢也會逐漸明顯。在最終的being AI階段,計算機(jī)系統(tǒng)將呈現(xiàn)內(nèi)在的智能特性,人工智能不再是一種外加的能力,而成為計算機(jī)的核心屬性和基本組成,可能計算的能力或者智能化的水平,會遠(yuǎn)遠(yuǎn)超過我們今天的超算或智算。
陳潤生注意到,目前科學(xué)界和產(chǎn)業(yè)界一直在企圖解決超算和智算融合的問題。例如英偉達(dá)最新推出的GB200架構(gòu),其實是兩塊GPU加上一塊CPU,某種意義上就可以算是把智算和超算的優(yōu)勢都用上了,在兩塊GPU執(zhí)行機(jī)器學(xué)習(xí)的布局中,加上CPU提供的數(shù)據(jù)高速傳輸。但他認(rèn)為,這種架構(gòu)并沒有從根本上解決效率問題。“超算與智算的結(jié)合是必然的,將會有機(jī)融合,而不是簡單地把它們湊在一起”。
中國工程院院士鄭緯民也表示,大模型的開發(fā)、訓(xùn)練、微調(diào)及推理各個環(huán)節(jié)均離不開算力,且算力成本占據(jù)著整體開銷的大頭,特別是在訓(xùn)練階段,其占比高達(dá)70%,而在推理階段更是高達(dá)95%。鑒于此,算力成為支撐大模型發(fā)展的關(guān)鍵因素。
智能計算應(yīng)該參考“人類智能”
對于中國當(dāng)前的大模型熱潮以及跟隨美國“堆規(guī)模”的技術(shù)路徑,中國院士專家們提出了各自觀點(diǎn)。錢德沛表示,中國現(xiàn)在搞出的大模型數(shù)量和種類比美國還多,也都在搞通用人工智能,但我們不但在硬件上受到美國的嚴(yán)格限制,而且用于大模型訓(xùn)練的數(shù)據(jù)的質(zhì)量和數(shù)量也都偏少,“這樣做出來的大模型能比美國好嗎?我想我們還是要符合中國國情,不能夠完全跟著美國人走”。
陳潤生也認(rèn)為,中國現(xiàn)在出現(xiàn)的大模型基本上是在美國提出的大模型和算法上進(jìn)行改進(jìn),但是對于整個大模型的基礎(chǔ)理論考慮甚少。他在研討會上提出,對比傳統(tǒng)超算采用的局域式記憶模式,智能計算展現(xiàn)出了根本性的差異——信息的分布式存儲。這種存儲方式模仿了人腦神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu),通過大規(guī)模、密集互聯(lián)的芯片網(wǎng)絡(luò)來承載日益龐大的模型。但是如何有效地將人類知識嵌入這些復(fù)雜系統(tǒng),以及信息具體如何在系統(tǒng)中分布存儲,其背后的算法與技術(shù)理論仍未充分探索。“隨著模型規(guī)模的無節(jié)制擴(kuò)張,導(dǎo)致一個不可克服的問題是能源耗竭,因此一味地增加芯片,依靠增加系統(tǒng)的復(fù)雜度來解決大模型的存儲問題是不完全可取的”。
由此陳潤生認(rèn)為,未來智能計算還是應(yīng)該參考“人類智能”,也就是模擬人腦的運(yùn)行機(jī)制。人腦的體積非常小,能耗只有幾十瓦,但它所產(chǎn)生的智能,超過了現(xiàn)在最先進(jìn)的、能耗相當(dāng)于一整座城市的AI。“大模型與智算的發(fā)展,不只是應(yīng)用層面的模型和算法上改進(jìn),還需要從基礎(chǔ)理論角度去有所突破?,F(xiàn)在大模型只是發(fā)展了前10%,還有90%的工作沒做,我也相信大模型絕對不是靠著越堆芯片越多實現(xiàn)的,一定像人類的大腦一樣學(xué)習(xí),把空間復(fù)雜度、時間復(fù)雜度壓縮得更小,能耗降得更低。所以我覺得最基本的問題,是要研究目前空間復(fù)雜度來完成智算的基礎(chǔ)理論。如果我們能在基礎(chǔ)理論上有所發(fā)展,我們就能完成根本和原始創(chuàng)新。”
北京應(yīng)用物理與計算數(shù)學(xué)研究所研究員袁國興認(rèn)為,不可能指望一種通用大模型在各行各業(yè)都能夠解決問題。從實際情況看,不同的應(yīng)用有不同的技術(shù),要求用不同的算法,對計算能力也有不同的要求。例如在科學(xué)計算方面,對計算精度的要求越來越高,而隨著計算機(jī)的規(guī)模擴(kuò)大,數(shù)據(jù)越來越多,可信度在不斷地下降。美國國家航空航天局(NASA)也提出類似的觀點(diǎn),他們對計算精度提出很高的要求。因此未來不同的應(yīng)用會有不同的大模型、不同的計算,解決不同的問題?,F(xiàn)在的大模型對計算精度和算法的要求完全不一樣。
中國信通院云計算與大數(shù)據(jù)研究所所長何寶宏補(bǔ)充說:“計算和訓(xùn)練對底層基礎(chǔ)設(shè)施要求并不一樣,也需要判斷在什么場景下要屏蔽差異性,在什么場景要體現(xiàn)差異性。”
需要發(fā)展主權(quán)級大模型
張云泉表示,美國最近通過一系列舉動試圖在發(fā)展人工智能方面對我國“卡脖子”,包括禁售高端GPU、終止共享大模型的源代碼以及中斷生態(tài)方面的合作等。同時現(xiàn)在大模型的運(yùn)算規(guī)模達(dá)到1萬塊GPU,甚至10萬塊時,就需要通過發(fā)展大模型專用超算來突破能耗墻、可靠性墻、并行墻等技術(shù)瓶頸。在此背景下,想要在短期內(nèi)突破大模型算力瓶頸,中國有一條路可走:利用過去二十多年積累的先進(jìn)超算技術(shù),研發(fā)大模型專用超算,克服大模型算力瓶頸問題,使我國可以緊緊咬住全球大模型最先進(jìn)水平,不至于掉隊。
張云泉在介紹超智融合體系下的“主權(quán)大模型”計劃時表示,我國在超算領(lǐng)域擁有深厚技術(shù)積累,近年又投入巨量資金發(fā)展智能算力,聚焦建立以超智融合算力體系為中心的體系工程響應(yīng)大模型的算力需求,希望能最大化利用超算技術(shù)優(yōu)勢破解算力挑戰(zhàn)。按照“主權(quán)級大模型”計劃的部署,“主權(quán)級大模型”創(chuàng)新聯(lián)合體將依托國家超算、中科院和全國重點(diǎn)院校的知名教授團(tuán)隊、智能芯片企業(yè)、大模型解決方案企業(yè)等共同打造類似OpenAI的開放組織,由非營利性部門組織“主權(quán)級大模型”研發(fā),由營利性部門組織“主權(quán)級大模型”落地。他建議說,超算是“國之重器”,需要用來攻克最大、最難的挑戰(zhàn)。主權(quán)級大模型是一個能支撐國家發(fā)展的根模型,不是一般的大模型。類似的國家級超級大模型也受到其他國家的高度重視,例如美國微軟公司攜手 OpenAI發(fā)布了計劃投入1000億美元全新人工智能超級計算機(jī)的計劃,日本最近也宣布要投入巨資發(fā)展國家級大模型。
陳潤生認(rèn)為,根據(jù)中國目前的基礎(chǔ)條件以及大模型必然要發(fā)展的趨勢,我們完全跟隨西方的做法是不現(xiàn)實的,也是很難在短期內(nèi)趕上的。所以找到一條發(fā)展主權(quán)級大模型的路,更為重要。
推薦閱讀
官方微信
官方微博
今日頭條
川公網(wǎng)安備51019002004313號