霓虹閃爍的東京街頭,一名紅裙黑靴、戴太陽鏡的時(shí)髦女子款款走來。她身后廣告牌出現(xiàn)的位置,潮濕街道的鏡面效果,墨鏡中的光影,還有其臉部的肌理、雀斑,都完全符合真實(shí)的世界。
這是近日“橫空出世”的文生視頻模型Sora輸出的一部作品——僅憑幾句描述,它立馬能生成60秒的連貫視頻,大片質(zhì)感,鏡頭百變,如夢似幻。人山人海的龍年春節(jié)、火車窗外的倒影、戴紅頭盔的宇航員在沙漠中冒險(xiǎn)……模擬真實(shí)場景的超強(qiáng)能力,使得Sora一問世就立即引爆全球,甚至連在人工智能領(lǐng)域一向野心勃勃的特斯拉CEO埃隆·馬斯克也“坐不住”了。他很快在社交媒體上對此評價(jià)說:“人類愿賭服輸。”
時(shí)代變革的鐘聲,似乎已經(jīng)敲響。“Sora的最大意義,并非只是文生視頻,而是意味著大模型可以認(rèn)知世界,例如在智能駕駛領(lǐng)域從‘感知’升級到‘認(rèn)知’,并且這還不是全部。”太和智庫大數(shù)據(jù)研發(fā)首席專家、車車科技董事長張磊對《環(huán)球人物》記者說。不少業(yè)內(nèi)人士認(rèn)為,Sora可以被看作是通往通用人工智能的一座里程碑。
“世界模擬器”
Sora是美國人工智能巨頭OpenAI的新產(chǎn)品。此前,OpenAI旗下已經(jīng)有自動語音識別系統(tǒng)Whisper、圖像生成模型DALL-E等產(chǎn)品。
正是在以往的技術(shù)范式之上,OpenAI做出了新產(chǎn)品Sora。以2021年推出的DALL-E模型為例,其可根據(jù)用戶輸入的描述生成圖像。據(jù)官方說法,他們利用DALL-E的數(shù)據(jù)集重描述功能,給訓(xùn)練Sora用的視頻素材加上了高質(zhì)量文本描述,以提高輸出視頻的質(zhì)量。目前的Sora,不僅可以理解用戶在提示中提出的要求,還能理解它們在物理世界中的存在方式。官方稱之為“世界模擬器”。
OpenAI的CEO山姆·奧特曼甚至直接在社交媒體上根據(jù)網(wǎng)友評論為大家制作Sora視頻。有人提出想要“一段海上自行車比賽的視頻,讓各種動物作為運(yùn)動員騎自行車”。奧特曼在回復(fù)中發(fā)布了視頻,里面有企鵝、海豚和其他水生生物騎自行車。有人向奧特曼要一段“由一名祖母輩的網(wǎng)紅主持的自制團(tuán)子烹飪課程,背景是一個(gè)質(zhì)樸的鄉(xiāng)村廚房,并配有電影級的燈光”,之后Sora生成了另一段視頻:一位身穿圍裙、面帶微笑的白發(fā)女士邀請觀眾進(jìn)入她的廚房。
在Sora官方介紹頁里,無數(shù)紙飛機(jī)在叢林中翩翩起舞、自由飛翔,如同正在穿梭的候鳥。在日語中,Sora的引申義是“自由”。這或許意味著,每個(gè)人都可以通過Sora自由展示想象空間。
精準(zhǔn)貼合文字指令和極致真實(shí)是Sora作品給人的第一印象??Х缺锔〕恋暮1I船,符合流體力學(xué);都市內(nèi)虛空巡游的鯨魚,遵從無形潮汐……這些作品意味著,Sora不是在虛構(gòu)世界,而是在生成世界。
360創(chuàng)始人周鴻祎在社交媒體上表示,Sora的誕生意味著通用人工智能實(shí)現(xiàn)可能從10年縮短至一兩年。通用人工智能是指能在復(fù)雜動態(tài)環(huán)境中,學(xué)習(xí)并完成多樣任務(wù)的人工智能。
Sora并非首個(gè)文生視頻大模型。2023年,Pika Labs發(fā)布首個(gè)產(chǎn)品Pika 1.0,能生成和編輯3D動畫、動漫、卡通和電影,被視為零門檻“視頻生成神器”。Runway、谷歌Lumiere視頻AI生成模型、Stability AI的SVD1.1也相繼問世。
不過,之前的AI生成視頻時(shí)間短,且易卡頓。Sora則彎道超車,單次能生成60秒的連貫視頻。“之前的類似產(chǎn)品能生成10秒鐘的視頻,這次的Sora是1分鐘,算是比較突出的量變。”智源研究院理事長、北京大學(xué)教授黃鐵軍說。
此外,Sora用戶還可以輸入圖片轉(zhuǎn)成視頻,或更換視頻中的元素,甚至把兩個(gè)不相關(guān)的視頻自然拼接起來,自主為視頻補(bǔ)幀。這說明Sora能夠模擬物理世界,并有一些預(yù)測能力。
據(jù)中信證券研報(bào),如果后續(xù)持續(xù)擴(kuò)大模型及訓(xùn)練集的規(guī)模,以Sora為基礎(chǔ)的模型可能做到模擬世界,成為真正的“世界模型”。“通用人工智能要擁有世界模型,然后基于自己對世界模型的理解描述來行動。”黃鐵軍說,“Sora內(nèi)部的這種世界模型的表達(dá),在接近真實(shí)的程度方面有較大提高,可以說是走向通用人工智能的重要臺階。”
黃鐵軍指出,包括OpenAI在內(nèi)的科研企業(yè)或機(jī)構(gòu),目的都是研究智能越來越強(qiáng)的基礎(chǔ)大模型,運(yùn)行起來會對各行各業(yè)產(chǎn)生影響,智能會成為越來越強(qiáng)的社會要素。
海上自行車比賽中,動物運(yùn)動員騎著自行車。圖為通過這些提示詞,Sora生成視頻的截圖。
應(yīng)屆生領(lǐng)銜,“00后”入列
Sora“技驚四座”之后,其背后的團(tuán)隊(duì)也來到了聚光燈中心。
事實(shí)上,該研發(fā)團(tuán)隊(duì)成立時(shí)間還不到一年,成員背景多元,大多行事低調(diào)。這支集技術(shù)和藝術(shù),博士和本科生,美國人、印度人和華人等為一體的團(tuán)隊(duì),為Sora這一變革性AI模型的誕生提供了無限可能性。“不能用傳統(tǒng)的高學(xué)歷或資歷來看這個(gè)事情,歷史上很多創(chuàng)新往往是由年輕人以某種偶然方式實(shí)現(xiàn)的。”黃鐵軍對這支團(tuán)隊(duì)評價(jià)說。
Sora公布的研發(fā)成員名單顯示,帶頭人有兩位——威廉·皮伯斯和蒂姆·布魯克斯。兩人師出同門,均在2019年進(jìn)入加州大學(xué)伯克利分校深造,并于2023年先后博士畢業(yè)。這兩位應(yīng)屆博士生嘔心瀝血近一年時(shí)間,“每天睡得很少,高強(qiáng)度工作”,才有了Sora的問世。
皮伯斯青春洋溢,笑容很燦爛,喜歡自稱“比爾”。像大多數(shù)博士一樣,他戴眼鏡,穿著清爽適體的衣服。在社交媒體上,這位技術(shù)大佬除了發(fā)布工作內(nèi)容,時(shí)不時(shí)還會對一些公共政策發(fā)表意見。皮伯斯轉(zhuǎn)發(fā)過很多美國政要的帖子,如2016年,皮伯斯就轉(zhuǎn)發(fā)了特朗普的一條推文,大致內(nèi)容是“選舉團(tuán)是民主的災(zāi)難”,皮伯斯評論道:“同意。”此次Sora成為關(guān)注焦點(diǎn)后,皮伯斯社交媒體的評論區(qū)幾乎被擠爆,粉絲們紛紛發(fā)出“恭喜!”“偉大的工作!”“夢想成真了!”等贊嘆。
皮伯斯是個(gè)“學(xué)習(xí)小天才”,本科就讀于麻省理工學(xué)院,主修計(jì)算機(jī)科學(xué)。他參加過多媒體制作軟件開發(fā)商奧多比公司的暑期實(shí)習(xí),還去過人工智能企業(yè)英偉達(dá)實(shí)習(xí),研究計(jì)算機(jī)視覺。
皮伯斯的博士師兄布魯克斯早畢業(yè)了幾個(gè)月。他本科就讀于卡內(nèi)基梅隆大學(xué),主修邏輯與計(jì)算,輔修計(jì)算機(jī)科學(xué),其間在臉書的軟件工程部門實(shí)習(xí)了約四個(gè)月。2017年,布魯克斯本科畢業(yè),先到谷歌研究AI相機(jī),之后到伯克利AI實(shí)驗(yàn)室讀博,主要研究方向是圖片與視頻生成。讀博期間,布魯克斯研制出了AI圖片編輯工具InstructPix2Pix——這是一項(xiàng)通過輸入指令進(jìn)行快速圖像編輯的技術(shù)。這一研究經(jīng)歷使他在研發(fā)Sora時(shí)如虎添翼。2023年1月,布魯克斯博士畢業(yè),加入OpenAI,并相繼參與了DALL-E和Sora的工作。
布魯克斯多才多藝。他高中時(shí)拍的照片獲過大獎(jiǎng)。如今,他是一名專業(yè)攝影師,經(jīng)常走進(jìn)大自然拍動物。此外,他還在紐約百老匯燈塔劇院登臺演出過,并贏得無伴奏表演節(jié)奏口技的國際獎(jiǎng)項(xiàng)。他經(jīng)常分享自己的文藝作品,還發(fā)帖稱:“我對AI充滿熱情,幸運(yùn)的是,這種熱情與我對攝影、電影和音樂的愛好完美融合。”
在Sora項(xiàng)目中,布魯克斯的研究重點(diǎn)是開發(fā)能模擬現(xiàn)實(shí)世界的大型生成模型。他的文藝愛好對Sora的開發(fā)大有裨益——作為一個(gè)生成視覺產(chǎn)品,Sora需要具有藝術(shù)和科技跨界背景的人。
Sora研發(fā)團(tuán)隊(duì)中這樣的人不在少數(shù),如來自舊金山藝術(shù)大學(xué)的喬·泰勒,他在頁面設(shè)計(jì)、藝術(shù)指導(dǎo)等方面能力強(qiáng),時(shí)不時(shí)還會去伯克利制作手工藝品。與其說是工程師,他更像一名藝術(shù)家。進(jìn)入OpenAI前,他在多家公司負(fù)責(zé)過頁面設(shè)計(jì)等工作,這些經(jīng)驗(yàn)使他能在研發(fā)Sora時(shí)進(jìn)行審美和設(shè)計(jì)上的賦能。
值得一提的是,團(tuán)隊(duì)里印度裔的阿迪蒂亞·拉梅什以及“00后”威爾·迪普都只有本科學(xué)歷。拉梅什就讀于紐約大學(xué),在校期間就已經(jīng)開始研究生成式模型。他畢業(yè)后本想繼續(xù)深造,卻意外地在OpenAI的暑期實(shí)習(xí)中被留下來,成了一名研究員。盡管拉梅什在學(xué)歷方面“稍顯遜色”,但在資歷上是元老級的,算是Sora基礎(chǔ)技術(shù)的奠基人之一,這讓他有資格在整個(gè)團(tuán)隊(duì)中擔(dān)任“執(zhí)行制作人”。拉梅什主導(dǎo)了文字轉(zhuǎn)圖形模型DALL-E三代的研究,這三代模型的精確度和質(zhì)量不斷提高。
2023年,拉梅什在一次采訪中表示:“人類能描述現(xiàn)實(shí)生活中可能遇到的任何情況,但也可以描述不可思議的情況或不可能發(fā)生的場景。我們想看看,如果訓(xùn)練一個(gè)模型,來從文本中生成圖像,是否能夠做到與人類一樣的推斷能力。”拉梅什的想法或多或少地影響了Sora的誕生,促成了Sora模擬現(xiàn)實(shí)的能力。他希望AI模型能夠像人一樣推理,這一期望已經(jīng)在Sora上得到一定實(shí)現(xiàn)。
另一位本科生威爾·迪普2003年出生在西雅圖,曾在阿根廷生活過,能說“半流利”的西班牙語。他半年前在一個(gè)節(jié)目中分享了自己的人生信條:“如果一件事要有人做,且沒有其他人能做到,很好,那就由我來干。”這位“00后”的確是個(gè)實(shí)干派。早在高中時(shí)期,他就開始研發(fā)面向高中師生的即時(shí)通訊平臺。該平臺關(guān)閉后,迪普又招募團(tuán)隊(duì)研發(fā)了一個(gè)可視化工具,這家公司后來被社群管理與分析公司康索收購。2022年,迪普從密歇根大學(xué)計(jì)算機(jī)系本科畢業(yè)。同年7月,他加入OpenAI,并于2024年1月加入Sora項(xiàng)目組。
值得一提的是,迪普還是一位社交媒體達(dá)人,他2018年加入X平臺,至今已發(fā)了5400余條推文,甚至曾分析過推文的傳播規(guī)律:“最偉大的推文總有一種詩意,開頭勾住你,然后讓你進(jìn)入一個(gè)閱讀的圈,最后加上一個(gè)‘啪’式的響亮結(jié)尾。這感覺就像海明威一樣。”
備受關(guān)注的還有Sora團(tuán)隊(duì)里的華人研究員。他們的公開信息不多,顯得頗為神秘。王宇2010年在南京師范大學(xué)附屬中學(xué)就讀,2013年考入加州大學(xué)伯克利分校,從畢業(yè)后到今年1月加入OpenAI前,他有在Meta和Instagram(照片墻)任軟件工程師及工程經(jīng)理的經(jīng)歷。研究員靖禮是湖北人,高中時(shí)曾獲第四十一屆國際中學(xué)生物理學(xué)奧林匹克競賽金牌,2014年畢業(yè)于北京大學(xué)物理系,后在麻省理工學(xué)院獲博士學(xué)位,在Meta工作兩年后加入OpenAI。此外,作為曦智科技的聯(lián)合創(chuàng)始人,靖禮還入選2019年福布斯中國30位30歲以下精英榜。他的社交媒體主頁寫著:“我熱衷于幫助人工智能了解現(xiàn)實(shí)世界并創(chuàng)造新的智能。”
中美差距擴(kuò)大?
盡管Sora團(tuán)隊(duì)有幾名華人,但類似成果并未出自我國。這是否凸顯出中美高科技之間的差距?業(yè)內(nèi)人士稱,差距確實(shí)存在,但沒想象中的那么大。
“美國在基礎(chǔ)科學(xué)、計(jì)算技術(shù)、芯片產(chǎn)業(yè)等方面全球領(lǐng)先,也匯聚了大量尖端人才投身人工智能領(lǐng)域,形成了較強(qiáng)的競爭壁壘和先發(fā)優(yōu)勢。”張磊說。黃鐵軍也提到,美國頭部企業(yè)在經(jīng)濟(jì)和人力資源方面,調(diào)度能力和活力較強(qiáng),大量投資進(jìn)入也可以讓頭部企業(yè)有能力不斷開發(fā)新產(chǎn)品。
但他們同時(shí)表示,我國人工智能發(fā)展也非常迅速。“不論是BAT(百度、阿里巴巴、騰訊)等互聯(lián)網(wǎng)巨頭的持續(xù)創(chuàng)新,還是商湯科技、科大訊飛等專注人工智能的企業(yè),在語音識別、自然語言處理、具身智能等方面都有重要突破。”張磊說。
盡管起步較晚,但中國在算力、芯片和5G等領(lǐng)域的發(fā)展呈快速增長趨勢,為人工智能的大規(guī)模計(jì)算和數(shù)據(jù)處理提供了強(qiáng)有力的支持。目前,中國的人工智能專利申請量居世界首位。
“中國的頭部企業(yè)其實(shí)也做得很好。”黃鐵軍說,“如果新的技術(shù)可能會帶來新的機(jī)會以及沖擊其原有產(chǎn)品、應(yīng)用和服務(wù),那企業(yè)自然會投入。中國現(xiàn)在有少數(shù)企業(yè)在這方面的積累和進(jìn)展還是很不錯(cuò)的。只是受到的關(guān)注度沒那么高,大家容易只關(guān)注‘冠軍’,不關(guān)注其他角色。”
談及中國人工智能領(lǐng)域可能存在的問題,黃鐵軍表示,相較美國,我國的資源、經(jīng)驗(yàn)可能比較分散,研究機(jī)構(gòu)、企業(yè)、大學(xué)“各做各的”。“我們在技術(shù)上很前沿,但工程和系統(tǒng)上差距明顯。相信不久的將來,國家層面會有部署和行動。”
張磊也表示:“我國政府近期在產(chǎn)業(yè)融合、數(shù)據(jù)交易、人才培養(yǎng)等人工智能產(chǎn)業(yè)方面出臺相關(guān)激勵(lì)政策,未來將依托廣闊的市場空間和數(shù)據(jù)優(yōu)勢,加快人工智能發(fā)展,積極參與國際交流與合作,推動我國人工智能技術(shù)的創(chuàng)新和應(yīng)用。”
人工智能是否會成為一條國際競爭新賽道?“‘賽道’這個(gè)詞可能說小了,它是整體性、基礎(chǔ)性的。”黃鐵軍說,人工智能的發(fā)展可能會帶來一個(gè)智能時(shí)代,智能有可能成為一種驅(qū)動社會的基礎(chǔ)性能量,會在未來的新時(shí)代中充當(dāng)核心角色。“智能時(shí)代和工業(yè)、電力、信息革命的影響可能是一樣的。要從人類命運(yùn)共同體的角度去考慮,人類智能和機(jī)器智能如何在新時(shí)代里進(jìn)行碰撞。”
“未來永遠(yuǎn)是開放的”
像任何新事物一樣,Sora的問世也不可避免地引發(fā)了一些焦慮。它發(fā)布后第二天,主營視頻制作的奧多比公司股價(jià)就應(yīng)聲下跌。網(wǎng)紅博主“野獸先生”在OpenAI創(chuàng)始人推特下留言,“請別讓我無家可歸”。有游戲程序員預(yù)言自己“半年下崗”。甚至有投資人判斷,5年內(nèi)會有團(tuán)隊(duì)用Sora制作出票房超5000萬美元的電影。屆時(shí),好萊塢的經(jīng)典標(biāo)志將被改為“SORAWOOD”……張磊指出,這些現(xiàn)象足以說明,Sora對于圖像軟件工具、影視制作、游戲開發(fā)等領(lǐng)域都有直接沖擊。
隨著Sora的不斷推廣,越來越多的行業(yè)迎來洗牌,但這也意味著機(jī)遇。如Sora可以將小說生成動漫,還能快速生成高質(zhì)量廣告。“技術(shù)進(jìn)步了,這些產(chǎn)業(yè)有了創(chuàng)新,服務(wù)形式發(fā)生變化,如果用戶更喜歡,那不是壞事,是好事。應(yīng)該擁抱這種新的可能性。人工智能在視聽內(nèi)容方面潛力巨大。用好它,整個(gè)產(chǎn)業(yè)會發(fā)生翻天覆地的變化。新興產(chǎn)業(yè)形態(tài)出現(xiàn),一些舊的、大家不怎么喜聞樂見的產(chǎn)業(yè)萎縮。這是很正常的進(jìn)步過程。”黃鐵軍說。
此外,Sora生成的作品過于逼真,這讓人擔(dān)心其是否會為虛假信息推波助瀾,甚至可能威脅人類社會秩序。對此,黃鐵軍呼吁大家不用過于擔(dān)心。“Sora目前對于真實(shí)世界的表達(dá)還有很大提升空間。如果實(shí)際開放使用,預(yù)計(jì)生成視頻中會出現(xiàn)大量違反自然規(guī)律的東西。”Sora官網(wǎng)也提到,它目前可能無法勝任過于復(fù)雜的環(huán)境的生成,可能出現(xiàn)一些物理錯(cuò)誤,“如一塊餅干被咬了一口,但上面并沒有出現(xiàn)缺口”??傊?,距離作為一個(gè)安全的產(chǎn)品走向市場,Sora還有很長一段路要走。
黃鐵軍認(rèn)為,不必過于放大Sora的風(fēng)險(xiǎn),“人類一直在不斷掌握新工具,正如火可以用于耕種,也可以用于戰(zhàn)爭。新技術(shù)想攔也攔不住。如何把一個(gè)新技術(shù)用好,降低負(fù)面效應(yīng),這需要系統(tǒng)思考。我們應(yīng)有風(fēng)險(xiǎn)意識,盡快考慮相應(yīng)規(guī)制手段”。
Sora能生成do動漫、卡通和電影。
美國未來學(xué)家?guī)炱濏f爾提出的“奇點(diǎn)理論”,被用來形容機(jī)器智能與人類智能兼容,甚至超越人類智能的時(shí)刻。Sora很難不讓人聯(lián)想到這種時(shí)刻的到來。“機(jī)器可能超越人類甚至擁有意識,這也是一個(gè)對于人類智能祛魅的過程。我們創(chuàng)造的人工智能是否會把我們自己控制住,也是可以去討論的話題。但我們不應(yīng)因此對人工智能技術(shù)的未來感到悲觀和抵觸。”黃鐵軍說。
“未來永遠(yuǎn)是開放的。”黃鐵軍說,我們希望并相信Sora本身和它的年輕團(tuán)隊(duì)都在宣告一個(gè)更為開放與值得遐想的未來的靠近,而不是更多可能性的關(guān)閉。
推薦閱讀
官方微信
官方微博
今日頭條
川公網(wǎng)安備51019002004313號