OpenAI近日發(fā)布首款文生視頻模型——Sora模型,完美繼承DALL·E 3的畫質(zhì)和遵循指令能力其支持用戶輸入文本描述,生成一段長達1分鐘的高清流暢視頻。
這是一個很有創(chuàng)意的實驗室作品,與阿凡達等影視片后期制作相比,Sora借助于大模型自然語言理解技術(shù),通過文本提示創(chuàng)建,跳過一部分人工的編輯,未來更有利于從文字劇本的想法和故事直接生成影視制作。
這個技術(shù)本身,其實就是一個集成創(chuàng)新,從上世紀90年代的虛擬現(xiàn)實到基于真實場景的動漫、影視后期制作,演員在各類真實場景或者虛擬場景的融入,Sora的一路走來是一個循序漸進的過程,本質(zhì)上還沒有顛覆性理論和革命性技術(shù)。
Sora目前是一個成功的概念性的驗證性實驗,相對于之前通用大模型和大視頻模型(Large Video model),未來的實用性和應用場景更加聚焦,不僅僅是各類影視制作,各類會議和單位宣傳片的制作,以及直播帶貨等有很多應用前景。
但是,Sora目前還是一個實驗室的作品,未來更多的考驗,不僅僅是音視頻素材庫是否夠用,比如能否提供咬了一口的蘋果。更多問題在其正式進入商業(yè)應用后,面臨著音視頻素材庫的知識產(chǎn)權(quán)、數(shù)據(jù)交易等實際問題,目前的音視頻素材,通過計算機圖形學自動生成的也有一些,但是,從Sora的研究目標看,城市、鄉(xiāng)村的實際背景場景,還是離不開真實的人工拍攝的音視頻素材,無論是直接采用,還是在已有人工拍攝的音視頻基礎(chǔ)上加工,進入商業(yè)化后,知識產(chǎn)權(quán)、數(shù)據(jù)交易等實際問題無法避免。
這些是互聯(lián)網(wǎng)、人工智能企業(yè)的工程師比較容易忽視的。
此外,Sora如果推出下一個商用化版本,根據(jù)應用場景需求,比如直播帶貨,以現(xiàn)有的技術(shù)AI虛擬人可以輕松融入,因此,視頻的真?zhèn)魏蛢?nèi)容安全問題也是商業(yè)化過程需要考慮的。

“Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破?!?/p>
360創(chuàng)始人周鴻祎發(fā)布微博提到自己對Sora的看法,周鴻祎認為,Sora的誕生意味著AGI(通用人工智能)實現(xiàn)可能從10年縮短至一兩年。
周鴻祎認為,科技競爭最終比拼的是讓人才密度和深厚積累,“很多人說Sora的效果吊打Pika和Runway。這很正常,和創(chuàng)業(yè)者團隊比,OpenAl這種有核心技術(shù)的公司實力還是非常強勁的。有人認為有了AI以后創(chuàng)業(yè)公司只需要做個體戶就行,實際今天再次證明這種想法是非??尚Φ?。”
此外,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。周鴻祎表示,很多人擔心Sora對影視工業(yè)的打擊,在他看來,機器能生產(chǎn)一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創(chuàng)意,至少需要人給提示詞。一個視頻或者電影是由無數(shù)個60秒組成的。今天Sora可能給廣告業(yè)、電影預告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗TikTok,更可能成為TikTok的創(chuàng)作工具。
談到Sora最大的優(yōu)勢,周鴻祎表示,以往文生視頻軟件都是在2D平面上對圖形元素進行操作,可以把視頻看成是多個真實圖片的組合,并沒有真正掌握這個世界的知識。但Sora產(chǎn)生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現(xiàn)汽車撞毀坦克這樣的情況,“這次OpenAI利用它的大語言模型優(yōu)勢,讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界?!?/p>
周鴻祎提到,有了大模型技術(shù)作為基礎(chǔ),再加上人類知識的引導,可以創(chuàng)造各個領(lǐng)域的超級工具,例如在生物醫(yī)學、蛋白質(zhì)、基因研究,包括物理、化學、數(shù)學的學科研究上,大模型都會發(fā)揮作用。
“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube上和TikTok的視頻都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,這就離AGI真的就不遠了,不是10年20年的問題,可能一兩年很快就可以實現(xiàn)。”周鴻祎感慨。
他還提到,盡管國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5,但實際上跟4.0比還有一年半的差距。OpenAl手里應該還有一些秘密武器,無論是GPT-5,還是機器自我學習自動產(chǎn)生內(nèi)容,“奧特曼(OpenAI CEO)是個營銷大師,知道怎樣掌握節(jié)奏,他們手里的武器并沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大?!?/p>