“火星上日落時(shí)的一場(chǎng)極具未來(lái)感的無(wú)人機(jī)比賽”;
“在一個(gè)與自然和諧共生,同時(shí)又有超強(qiáng)朋克氣質(zhì)和高科技屬性的未來(lái)城市漫游……”
根據(jù)上述提示詞,OpenAI首席執(zhí)行官阿爾特(9.780, 0.59, 6.42%)曼在X平臺(tái)上發(fā)布了一系列視頻,精美的場(chǎng)景讓用戶(hù)驚嘆不已。而這些視頻全都是通過(guò)OpenAI 2月16日發(fā)布的最新視頻生成模型Sora制作的,用戶(hù)震驚之余,也給予了Sora高度評(píng)價(jià),將其描述為“絕無(wú)僅有”和“游戲規(guī)則改變者”。">
首頁(yè)|必讀|視頻|專(zhuān)訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 頭條資訊 >> 正文

報(bào)告揭秘Sora六大優(yōu)勢(shì) 業(yè)內(nèi):AGI可能在一兩年內(nèi)實(shí)現(xiàn)

2024年2月19日 10:24  每日經(jīng)濟(jì)新聞  

“兩只金毛獵犬在山頂播客”;

“火星上日落時(shí)的一場(chǎng)極具未來(lái)感的無(wú)人機(jī)比賽”;

“在一個(gè)與自然和諧共生,同時(shí)又有超強(qiáng)朋克氣質(zhì)和高科技屬性的未來(lái)城市漫游……”

根據(jù)上述提示詞,OpenAI首席執(zhí)行官阿爾特(9.780, 0.59, 6.42%)曼在X平臺(tái)上發(fā)布了一系列視頻,精美的場(chǎng)景讓用戶(hù)驚嘆不已。而這些視頻全都是通過(guò)OpenAI 2月16日發(fā)布的最新視頻生成模型Sora制作的,用戶(hù)震驚之余,也給予了Sora高度評(píng)價(jià),將其描述為“絕無(wú)僅有”和“游戲規(guī)則改變者”。

Sora采用了OpenAI文生圖模型DALL·E 3背后的強(qiáng)大技術(shù),可將簡(jiǎn)短的文本描述轉(zhuǎn)化成長(zhǎng)達(dá)1分鐘的高清視頻。業(yè)界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進(jìn)行對(duì)比后發(fā)現(xiàn),在輸入相同的提示后,其他主流工具生成的視頻都大約只有5秒鐘,Sora可以在一段長(zhǎng)達(dá)17秒視頻場(chǎng)景中,保持動(dòng)作和畫(huà)面一致性。

英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan也對(duì)Sora的能力發(fā)出感嘆,稱(chēng)這是視頻生成領(lǐng)域的GPT-3時(shí)刻。他表示,Sora是一個(gè)“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”,一個(gè)可學(xué)習(xí)的模擬器或“世界模型”。360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎則稱(chēng),隨著Sora的到來(lái),人類(lèi)離AGI真的就不遠(yuǎn)了,不是10年、20年的問(wèn)題,可能一兩年很快就可以實(shí)現(xiàn)。

在隨后發(fā)布的技術(shù)報(bào)告中,OpenAI介紹了Sora的強(qiáng)大性能以及背后的支撐技術(shù),也對(duì)Sora的局限性進(jìn)行了客觀的分析!睹咳战(jīng)濟(jì)新聞》記者通過(guò)梳理,總結(jié)出了Sora的六大核心優(yōu)勢(shì)。

從技術(shù)上看,Sora有望將數(shù)字內(nèi)容的創(chuàng)造力和真實(shí)感提升到新的水平,但凡事總有兩面性,影視、廣告制作和視頻等行業(yè)也將面臨嚴(yán)重的沖擊。另外,有專(zhuān)家對(duì)于技術(shù)的迅猛發(fā)展也表示出了擔(dān)憂(yōu),稱(chēng)這類(lèi)技術(shù)可能會(huì)導(dǎo)致“深度偽造”視頻,讓人難以識(shí)別,產(chǎn)生濫用等問(wèn)題。

報(bào)告揭秘Sora六大優(yōu)勢(shì)

值得注意的是,Sora推出的同一天,谷歌發(fā)布了Gemini多模態(tài)模型的更新版本,而三天前,Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動(dòng)無(wú)疑將加劇生成式AI圖片和視頻領(lǐng)域的競(jìng)爭(zhēng)。

而在Sora推出后不久,OpenAI發(fā)布了這款新工具的技術(shù)報(bào)告。在報(bào)告中,OpenAI首先重點(diǎn)介紹了如何將不同類(lèi)型的視覺(jué)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,以便于對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練的方法,并對(duì)Sora的能力和局限性進(jìn)行了評(píng)價(jià)。

《每日經(jīng)濟(jì)新聞》記者對(duì)報(bào)告進(jìn)行梳理,總結(jié)出了Sora的六大優(yōu)勢(shì):

(1)準(zhǔn)確性和多樣性:Sora可將簡(jiǎn)短的文本描述轉(zhuǎn)化成長(zhǎng)達(dá)1分鐘的高清視頻。它可以準(zhǔn)確地解釋用戶(hù)提供的文本輸入,并生成具有各種場(chǎng)景和人物的高質(zhì)量視頻剪輯。它涵蓋了廣泛的主題,從人物和動(dòng)物到郁郁蔥蔥的風(fēng)景、城市場(chǎng)景、花園,甚至是水下的紐約市,可根據(jù)用戶(hù)的要求提供多樣化的內(nèi)容。另?yè)?jù)Medium,Sora能夠準(zhǔn)確解釋長(zhǎng)達(dá)135個(gè)單詞的長(zhǎng)提示。

(2)強(qiáng)大的語(yǔ)言理解:OpenAI利用Dall·E模型的recaptioning(重述要點(diǎn))技術(shù),生成視覺(jué)訓(xùn)練數(shù)據(jù)的描述性字幕,不僅能提高文本的準(zhǔn)確性,還能提升視頻的整體質(zhì)量。此外,與DALL·E 3類(lèi)似,OpenAI還利用GPT技術(shù)將簡(jiǎn)短的用戶(hù)提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)轉(zhuǎn)譯,并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶(hù)提示生成高質(zhì)量的視頻。

(3)以圖/視頻生成視頻:Sora除了可以將文本轉(zhuǎn)化為視頻,還能接受其他類(lèi)型的輸入提示,如已經(jīng)存在的圖像或視頻。這使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動(dòng)畫(huà)、向前或向后擴(kuò)展視頻等。OpenAI在報(bào)告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強(qiáng)大功能,還展示了它在圖像和視頻編輯領(lǐng)域的無(wú)限潛力。 (4)視頻擴(kuò)展功能:由于可接受多樣化的輸入提示,用戶(hù)可以根據(jù)圖像創(chuàng)建視頻或補(bǔ)充現(xiàn)有視頻。作為基于Transformer的擴(kuò)散模型,Sora還能沿時(shí)間線向前或向后擴(kuò)展視頻。

(5)優(yōu)異的設(shè)備適配性:Sora具備出色的采樣能力,從寬屏的 1920x1080p 到 豎 屏 的1080x1920,兩者之間的任何視頻尺寸都能輕松應(yīng)對(duì)。這意味著Sora能夠?yàn)楦鞣N設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。而在生成高分辨率內(nèi)容之前,Sora還能以小尺寸迅速創(chuàng)建內(nèi)容原型。

(6)場(chǎng)景和物體的一致性和連續(xù)性:Sora可以生成帶有動(dòng)態(tài)視角變化的視頻,人物和場(chǎng)景元素在三維空間中的移動(dòng)會(huì)顯得更加自然。Sora 能夠很好地處理遮擋問(wèn)題,F(xiàn)有模型的一個(gè)問(wèn)題是,當(dāng)物體離開(kāi)視野時(shí),它們可能無(wú)法對(duì)其進(jìn)行追蹤。而通過(guò)一次性提供多幀預(yù)測(cè),Sora可確保畫(huà)面主體即使暫時(shí)離開(kāi)視野也能保持不變。

Sora讓AGI很快實(shí)現(xiàn)?

英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan在X平臺(tái)發(fā)文表示,“如果你還是把Sora看成DALLE那樣的生成式玩具,還是好好想想吧,這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。他是對(duì)許多世界的模擬,無(wú)論是真實(shí)的還是幻想的!彼J(rèn)為,Sora是一個(gè)可學(xué)習(xí)的模擬器,或“世界模型”。

在他看來(lái),Sora代表了文本生成視頻的GPT-3時(shí)刻。而針對(duì)部分稱(chēng)“Sora并沒(méi)有學(xué)習(xí)物理,僅僅是在二維空間里對(duì)像素進(jìn)行操作”的聲音,他表示,Sora所展現(xiàn)的軟物理仿真實(shí)際上是一種隨著規(guī)模擴(kuò)大而出現(xiàn)的特性。Sora必須學(xué)習(xí)一些隱式的文本到3D、3D 變換、光線追蹤渲染和物理規(guī)則,才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念,才有可能生成視頻。

值得一提的是,有網(wǎng)友在網(wǎng)上評(píng)論Sora生成的60秒時(shí)尚女子在東京街頭散步時(shí)稱(chēng),“gg Pixar(皮克斯動(dòng)畫(huà)制作公司)”(編注:gg為Good Games縮寫(xiě),代指“打得好,我認(rèn)輸”),隨后馬斯克回復(fù),“gg humans(人類(lèi))”。

對(duì)于Sora的最大優(yōu)勢(shì),360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎說(shuō),“這次OpenAI利用它的大語(yǔ)言模型優(yōu)勢(shì),讓Sora實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實(shí)的,才能跳出2D的范圍模擬真實(shí)的物理世界!彼瑫r(shí)稱(chēng):“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube和TikTok的視頻都看一遍,對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過(guò)文字學(xué)習(xí),一幅圖勝過(guò)千言萬(wàn)語(yǔ),這就離AGI真的就不遠(yuǎn)了,不是10年、20年的問(wèn)題,可能一兩年很快就可以實(shí)現(xiàn)!

影視等行業(yè)面臨顛覆

然而,Sora在帶來(lái)無(wú)限可能的同時(shí),也將對(duì)部分行業(yè)產(chǎn)生巨大的影響,包括影視、廣告制作、教育、游戲、新聞和動(dòng)畫(huà)等領(lǐng)域。

談及Sora的行業(yè)沖擊時(shí),Jim Fan評(píng)價(jià)道,Sora的物理學(xué)理解目前還是脆弱的,遠(yuǎn)非完美。它仍然會(huì)產(chǎn)生幻覺(jué),生成與物理常識(shí)不符的事物,還沒(méi)有很好地掌握物體交互的原理。

周鴻祎對(duì)此也深以為然,他指出,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。他表示,“Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,而是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來(lái)新的成果和突破。”

他解釋說(shuō),“機(jī)器能生產(chǎn)一個(gè)好視頻,但視頻的主題、腳本和分鏡頭策劃、臺(tái)詞的配合,都需要人的創(chuàng)意至少需要人給提示詞!彼麖(qiáng)調(diào),科技競(jìng)爭(zhēng)最終比拼的是人才密度和深厚積累。

而對(duì)于Sora存在的弱點(diǎn),OpenAI也明確指出,它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,并且可能無(wú)法理解因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,如遵循特定的相機(jī)軌跡。而這些缺陷可能導(dǎo)致Sora生成一些不合邏輯的東西,比如一個(gè)人在跑步機(jī)上跑錯(cuò)方向,以不自然的方式改變主題,甚至出現(xiàn)憑空消失現(xiàn)象。

濫用仍是最大的擔(dān)憂(yōu)

隨著名人等人物的深度造假視頻在網(wǎng)上變得越來(lái)越普遍,相應(yīng)的倫理和安全問(wèn)題也讓人心驚。

Gartner 分 析 師 Arun Chandrasekaran表示,“鑒于這項(xiàng)技術(shù)確實(shí)非常新,他們必須對(duì)其進(jìn)行充分控制,以防止其被濫用和誤用,甚至客戶(hù)在沒(méi)有認(rèn)識(shí)到這項(xiàng)新興技術(shù)所有局限性的情況下使用它!彼a(bǔ)充道,OpenAI為該模型設(shè)置的防護(hù)措施以及確定誰(shuí)可以獲得訪問(wèn)權(quán)限至關(guān)重要。

牛津互聯(lián)網(wǎng)學(xué)院客座政策研究員Mutale Nkonde也表示,任何人都可以輕松地將文本轉(zhuǎn)換為視頻這一想法令人興奮。但同時(shí),她也擔(dān)心這些工具可能會(huì)植入社會(huì)偏見(jiàn)等內(nèi)容,對(duì)人們生計(jì)造成影響等。

普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授Arvind Narayanan對(duì)此也有擔(dān)憂(yōu),認(rèn)為Sora這類(lèi)技術(shù)可能會(huì)導(dǎo)致“深度偽造”視頻,讓人們難以識(shí)別。雖然AI制作的視頻仍會(huì)有一些不一致的地方,但普通人可能不會(huì)注意到這些細(xì)節(jié)!斑t早,我們需要適應(yīng)現(xiàn)實(shí)主義不再是真實(shí)性的標(biāo)志這一事實(shí)!

編 輯:章芳
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。本站聯(lián)系電話(huà)為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部辛國(guó)斌:2023年全國(guó)行政村通5G覆蓋超過(guò)80%
精彩專(zhuān)題
CES 2024國(guó)際消費(fèi)電子展
2023年信息通信產(chǎn)業(yè)盤(pán)點(diǎn)暨頒獎(jiǎng)禮
飛象網(wǎng)2023年手機(jī)評(píng)選
第24屆中國(guó)國(guó)際光電博覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像