多名院士專家談人工智能：中國(guó)發(fā)展AI不能靠“堆芯片”

2024-07-29 15:41:33 來(lái)源：環(huán)球時(shí)報(bào) 作者：馬俊

大號(hào) 中號(hào) 小號(hào)

美國(guó)依靠軟硬件優(yōu)勢(shì)，在用規(guī)模“堆”出全球最強(qiáng)人工智能（AI）的這條道路上狂奔不已。美國(guó)富豪馬斯克近日在社交媒體上宣布，旗下AI初創(chuàng)公司xAI已開(kāi)始用10萬(wàn)塊H100 GPU組成的“孟菲斯超級(jí)集群”進(jìn)行AI訓(xùn)練，號(hào)稱是“全球最強(qiáng)大的AI訓(xùn)練集群”。中國(guó)是否應(yīng)該跟隨美國(guó)引領(lǐng)的這條技術(shù)路線？近日在由中國(guó)智能計(jì)算產(chǎn)業(yè)聯(lián)盟與全國(guó)信標(biāo)委算力標(biāo)準(zhǔn)工作組共同主辦的2024中國(guó)算力發(fā)展專家研討會(huì)上，多名院士專家給出了各自的觀點(diǎn)。

未來(lái)超智融合將分為三個(gè)階段

中國(guó)科學(xué)院院士陳潤(rùn)生在研討會(huì)上表示，“人工智能大模型是新質(zhì)生產(chǎn)力的代表，大模型和超級(jí)計(jì)算的融合發(fā)展十分重要，我國(guó)需要認(rèn)真地去布局、去考慮。”中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員張?jiān)迫岬剑竽Ｐ偷难该桶l(fā)展彰顯出新質(zhì)生產(chǎn)力的特質(zhì)，但目前也遇到了算力瓶頸。鑒于中國(guó)在超算領(lǐng)域擁有深厚技術(shù)積累，希望超智融合（超級(jí)計(jì)算與以大模型為代表的智能計(jì)算進(jìn)行融合）能有效化解這一挑戰(zhàn)。國(guó)家信息中心信息化和產(chǎn)業(yè)發(fā)展部主任單志廣解釋說(shuō)，“超智融合是隨著當(dāng)前基礎(chǔ)算力、智算算力、超算算力等的應(yīng)用多元化發(fā)展而誕生的，即能否用混合型算力資源或者融合型算力體系，來(lái)解決同時(shí)滿足多種不同算力的應(yīng)用需求。”

在預(yù)測(cè)未來(lái)超智融合的進(jìn)程時(shí)，中國(guó)科學(xué)院院士錢(qián)德沛認(rèn)為，將沿著for AI、by AI和being AI三個(gè)階段清晰演進(jìn)，從硬件到軟件全方位地進(jìn)化，以適應(yīng)和推動(dòng)人工智能技術(shù)的發(fā)展。在第一階段for AI，將著重于對(duì)現(xiàn)有計(jì)算機(jī)系統(tǒng)的改造與升級(jí)，發(fā)展專用硬件，確保可高效地支持和執(zhí)行AI任務(wù)，為人工智能研究提供堅(jiān)實(shí)的基礎(chǔ)設(shè)施。在第二階段by AI，將要用AI改造傳統(tǒng)的計(jì)算，一方面用AI的方法來(lái)求解傳統(tǒng)超算問(wèn)題，另一方面AI也在影響傳統(tǒng)計(jì)算機(jī)的結(jié)構(gòu)，這個(gè)趨勢(shì)也會(huì)逐漸明顯。在最終的being AI階段，計(jì)算機(jī)系統(tǒng)將呈現(xiàn)內(nèi)在的智能特性，人工智能不再是一種外加的能力，而成為計(jì)算機(jī)的核心屬性和基本組成，可能計(jì)算的能力或者智能化的水平，會(huì)遠(yuǎn)遠(yuǎn)超過(guò)我們今天的超算或智算。

陳潤(rùn)生注意到，目前科學(xué)界和產(chǎn)業(yè)界一直在企圖解決超算和智算融合的問(wèn)題。例如英偉達(dá)最新推出的GB200架構(gòu)，其實(shí)是兩塊GPU加上一塊CPU，某種意義上就可以算是把智算和超算的優(yōu)勢(shì)都用上了，在兩塊GPU執(zhí)行機(jī)器學(xué)習(xí)的布局中，加上CPU提供的數(shù)據(jù)高速傳輸。但他認(rèn)為，這種架構(gòu)并沒(méi)有從根本上解決效率問(wèn)題。“超算與智算的結(jié)合是必然的，將會(huì)有機(jī)融合，而不是簡(jiǎn)單地把它們湊在一起”。

中國(guó)工程院院士鄭緯民也表示，大模型的開(kāi)發(fā)、訓(xùn)練、微調(diào)及推理各個(gè)環(huán)節(jié)均離不開(kāi)算力，且算力成本占據(jù)著整體開(kāi)銷的大頭，特別是在訓(xùn)練階段，其占比高達(dá)70%，而在推理階段更是高達(dá)95%。鑒于此，算力成為支撐大模型發(fā)展的關(guān)鍵因素。

智能計(jì)算應(yīng)該參考“人類智能”

對(duì)于中國(guó)當(dāng)前的大模型熱潮以及跟隨美國(guó)“堆規(guī)模”的技術(shù)路徑，中國(guó)院士專家們提出了各自觀點(diǎn)。錢(qián)德沛表示，中國(guó)現(xiàn)在搞出的大模型數(shù)量和種類比美國(guó)還多，也都在搞通用人工智能，但我們不但在硬件上受到美國(guó)的嚴(yán)格限制，而且用于大模型訓(xùn)練的數(shù)據(jù)的質(zhì)量和數(shù)量也都偏少，“這樣做出來(lái)的大模型能比美國(guó)好嗎？我想我們還是要符合中國(guó)國(guó)情，不能夠完全跟著美國(guó)人走”。

陳潤(rùn)生也認(rèn)為，中國(guó)現(xiàn)在出現(xiàn)的大模型基本上是在美國(guó)提出的大模型和算法上進(jìn)行改進(jìn)，但是對(duì)于整個(gè)大模型的基礎(chǔ)理論考慮甚少。他在研討會(huì)上提出，對(duì)比傳統(tǒng)超算采用的局域式記憶模式，智能計(jì)算展現(xiàn)出了根本性的差異——信息的分布式存儲(chǔ)。這種存儲(chǔ)方式模仿了人腦神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu)，通過(guò)大規(guī)模、密集互聯(lián)的芯片網(wǎng)絡(luò)來(lái)承載日益龐大的模型。但是如何有效地將人類知識(shí)嵌入這些復(fù)雜系統(tǒng)，以及信息具體如何在系統(tǒng)中分布存儲(chǔ)，其背后的算法與技術(shù)理論仍未充分探索。“隨著模型規(guī)模的無(wú)節(jié)制擴(kuò)張，導(dǎo)致一個(gè)不可克服的問(wèn)題是能源耗竭，因此一味地增加芯片，依靠增加系統(tǒng)的復(fù)雜度來(lái)解決大模型的存儲(chǔ)問(wèn)題是不完全可取的”。

由此陳潤(rùn)生認(rèn)為，未來(lái)智能計(jì)算還是應(yīng)該參考“人類智能”，也就是模擬人腦的運(yùn)行機(jī)制。人腦的體積非常小，能耗只有幾十瓦，但它所產(chǎn)生的智能，超過(guò)了現(xiàn)在最先進(jìn)的、能耗相當(dāng)于一整座城市的AI。“大模型與智算的發(fā)展，不只是應(yīng)用層面的模型和算法上改進(jìn)，還需要從基礎(chǔ)理論角度去有所突破?，F(xiàn)在大模型只是發(fā)展了前10%，還有90%的工作沒(méi)做，我也相信大模型絕對(duì)不是靠著越堆芯片越多實(shí)現(xiàn)的，一定像人類的大腦一樣學(xué)習(xí)，把空間復(fù)雜度、時(shí)間復(fù)雜度壓縮得更小，能耗降得更低。所以我覺(jué)得最基本的問(wèn)題，是要研究目前空間復(fù)雜度來(lái)完成智算的基礎(chǔ)理論。如果我們能在基礎(chǔ)理論上有所發(fā)展，我們就能完成根本和原始創(chuàng)新。”

北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所研究員袁國(guó)興認(rèn)為，不可能指望一種通用大模型在各行各業(yè)都能夠解決問(wèn)題。從實(shí)際情況看，不同的應(yīng)用有不同的技術(shù)，要求用不同的算法，對(duì)計(jì)算能力也有不同的要求。例如在科學(xué)計(jì)算方面，對(duì)計(jì)算精度的要求越來(lái)越高，而隨著計(jì)算機(jī)的規(guī)模擴(kuò)大，數(shù)據(jù)越來(lái)越多，可信度在不斷地下降。美國(guó)國(guó)家航空航天局（NASA）也提出類似的觀點(diǎn)，他們對(duì)計(jì)算精度提出很高的要求。因此未來(lái)不同的應(yīng)用會(huì)有不同的大模型、不同的計(jì)算，解決不同的問(wèn)題。現(xiàn)在的大模型對(duì)計(jì)算精度和算法的要求完全不一樣。

中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏補(bǔ)充說(shuō)：“計(jì)算和訓(xùn)練對(duì)底層基礎(chǔ)設(shè)施要求并不一樣，也需要判斷在什么場(chǎng)景下要屏蔽差異性，在什么場(chǎng)景要體現(xiàn)差異性。”

需要發(fā)展主權(quán)級(jí)大模型

張?jiān)迫硎?，美?guó)最近通過(guò)一系列舉動(dòng)試圖在發(fā)展人工智能方面對(duì)我國(guó)“卡脖子”，包括禁售高端GPU、終止共享大模型的源代碼以及中斷生態(tài)方面的合作等。同時(shí)現(xiàn)在大模型的運(yùn)算規(guī)模達(dá)到1萬(wàn)塊GPU，甚至10萬(wàn)塊時(shí)，就需要通過(guò)發(fā)展大模型專用超算來(lái)突破能耗墻、可靠性墻、并行墻等技術(shù)瓶頸。在此背景下，想要在短期內(nèi)突破大模型算力瓶頸，中國(guó)有一條路可走：利用過(guò)去二十多年積累的先進(jìn)超算技術(shù)，研發(fā)大模型專用超算，克服大模型算力瓶頸問(wèn)題，使我國(guó)可以緊緊咬住全球大模型最先進(jìn)水平，不至于掉隊(duì)。

張?jiān)迫诮榻B超智融合體系下的“主權(quán)大模型”計(jì)劃時(shí)表示，我國(guó)在超算領(lǐng)域擁有深厚技術(shù)積累，近年又投入巨量資金發(fā)展智能算力，聚焦建立以超智融合算力體系為中心的體系工程響應(yīng)大模型的算力需求，希望能最大化利用超算技術(shù)優(yōu)勢(shì)破解算力挑戰(zhàn)。按照“主權(quán)級(jí)大模型”計(jì)劃的部署，“主權(quán)級(jí)大模型”創(chuàng)新聯(lián)合體將依托國(guó)家超算、中科院和全國(guó)重點(diǎn)院校的知名教授團(tuán)隊(duì)、智能芯片企業(yè)、大模型解決方案企業(yè)等共同打造類似OpenAI的開(kāi)放組織，由非營(yíng)利性部門(mén)組織“主權(quán)級(jí)大模型”研發(fā)，由營(yíng)利性部門(mén)組織“主權(quán)級(jí)大模型”落地。他建議說(shuō)，超算是“國(guó)之重器”，需要用來(lái)攻克最大、最難的挑戰(zhàn)。主權(quán)級(jí)大模型是一個(gè)能支撐國(guó)家發(fā)展的根模型，不是一般的大模型。類似的國(guó)家級(jí)超級(jí)大模型也受到其他國(guó)家的高度重視，例如美國(guó)微軟公司攜手 OpenAI發(fā)布了計(jì)劃投入1000億美元全新人工智能超級(jí)計(jì)算機(jī)的計(jì)劃，日本最近也宣布要投入巨資發(fā)展國(guó)家級(jí)大模型。

陳潤(rùn)生認(rèn)為，根據(jù)中國(guó)目前的基礎(chǔ)條件以及大模型必然要發(fā)展的趨勢(shì)，我們完全跟隨西方的做法是不現(xiàn)實(shí)的，也是很難在短期內(nèi)趕上的。所以找到一條發(fā)展主權(quán)級(jí)大模型的路，更為重要。

責(zé)任編輯：李璐璐

關(guān)鍵詞：院士專家

我要糾錯(cuò)

熱力榜

01快訊：特朗普宣布勝選！

02美媒測(cè)算：特朗普鎖定2024年總統(tǒng)選舉勝局

03被驅(qū)逐出中國(guó)的他，早就“翻車”了

04芬蘭總統(tǒng)亞歷山大·斯圖布：對(duì)中國(guó)不止三連謝

05讓國(guó)產(chǎn)抗癌藥賣(mài)到日本的他，終于火了！