蜜桃精品在线观看视频,亚洲无码色多多在线观看

出道即王炸！OpenAI首個(gè)文生視頻模型Sora特別在哪？

來源：北京科技報(bào) 發(fā)布日期：2024-02-19 09:45:13 閱讀量：0

2月16日，

OpenAI再次扔出一枚深水炸彈，

發(fā)布了文生視頻模型Sora。

Sora完美繼承DALL·E 3的畫質(zhì)

和遵循指令能力，

能生成長達(dá)1分鐘的高清視頻。

整理/段大衛(wèi)

可以說，Sora出道即王炸，它能夠根據(jù)用戶的一句話生成長達(dá)一分鐘的視頻，且視頻流暢度和穩(wěn)定性皆在水準(zhǔn)之上。

目前官網(wǎng)上已經(jīng)更新了48個(gè)視頻demo，在這些demo中，Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié)，還能理解物體在物理世界中的存在，并生成具有豐富情感的角色。該模型還可以根據(jù)提示、靜止圖像甚至填補(bǔ)現(xiàn)有視頻中的缺失幀來生成視頻。

Runway Gen 2、Pika等AI視頻工具，都還在突破幾秒內(nèi)的連貫性，而OpenAI，已經(jīng)達(dá)到了史詩級的紀(jì)錄。

對比AI視頻里Runway、Pika、Google和Meta這些主流玩家， Sora的特別之處在于：

1.能夠生成具有多個(gè)角色、特定類型動(dòng)作和主題背景的復(fù)雜視頻，時(shí)長可達(dá)到1分鐘。

2.可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，模擬復(fù)雜的攝像機(jī)運(yùn)鏡，同時(shí)準(zhǔn)確地保持角色和視覺風(fēng)格。

3.最重要的是，它不僅理解用戶在提示中要求的內(nèi)容，還能自己理解這些事物在現(xiàn)實(shí)世界中的存在方式。

視頻畫面如現(xiàn)實(shí)

OpenAI發(fā)布了多個(gè)Sora生成的視頻，大家可以感受一下?；蛟S已經(jīng)很難再分清，AI和現(xiàn)實(shí)的界限了。

有人提出想要“一段海上自行車比賽的視頻，讓各種動(dòng)物作為運(yùn)動(dòng)員騎自行車，采用無人機(jī)拍攝視角”。OpenAI首席執(zhí)行官薩姆·奧爾特曼（Sam Altman）在回復(fù)中發(fā)布了一段由Sora生成的視頻，視頻中有企鵝、海豚和其他水生生物騎自行車。

另一段視頻顯示，一位身穿圍裙、面帶微笑的白發(fā)女士邀請觀眾進(jìn)入她的廚房。有人向奧特曼要一段“由一名祖母輩的網(wǎng)紅主持的自制團(tuán)子烹飪課程，背景是一個(gè)質(zhì)樸的托斯卡納鄉(xiāng)村廚房，并配有電影級的燈光”，之后Sora生成了這段AI視頻。

“雪后的東京熙熙攘攘。鏡頭穿過繁忙的街道，跟隨著幾位享受著美麗雪景和在附近攤位購物的人們。美麗的櫻花瓣伴隨著雪花在風(fēng)中飄舞”。

“一位時(shí)尚女性走在充滿溫暖霓虹燈和動(dòng)畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，涂著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去”。

一名年約三十的宇航員戴著紅色針織摩托頭盔展開冒險(xiǎn)之旅，電影預(yù)告片呈現(xiàn)其穿梭于藍(lán)天白云與鹽湖沙漠之間的精彩瞬間，獨(dú)特的電影風(fēng)格、采用35毫米膠片拍攝，色彩鮮艷。

AI想象中的龍年春節(jié)，紅旗招展人山人海。有兒童緊跟舞龍隊(duì)伍抬頭好奇觀望，還有不少人掏出手機(jī)邊跟邊拍，海量人物角色各有各的行為。

OpenAI表示，公司正在教授人工智能理解和模擬運(yùn)動(dòng)中的物理世界，目標(biāo)是訓(xùn)練出能夠幫助人們解決需要與現(xiàn)實(shí)世界互動(dòng)的問題的模型。在此，隆重推出文本到視頻模型——Sora。Sora可以生成長達(dá)一分鐘的視頻，同時(shí)保證視覺質(zhì)量和符合用戶提示的要求。

如今，Sora正面向部分成員開放，以評估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。同時(shí)，OpenAI也邀請了一批視覺藝術(shù)家、設(shè)計(jì)師和電影制作人加入，期望獲得寶貴反饋，以推動(dòng)模型進(jìn)步，更好地助力創(chuàng)意工作者。OpenAI提前分享研究進(jìn)展，旨在與OpenAI以外的人士合作并獲取反饋，讓公眾了解即將到來的AI技術(shù)新篇章。

Sora模型能夠生成包含多個(gè)角色、特定類型運(yùn)動(dòng)和主體及背景精確細(xì)節(jié)的復(fù)雜場景。該模型不僅能理解用戶在提示中所要求的內(nèi)容，還能理解這些事物在現(xiàn)實(shí)世界中的存在方式。該模型對語言有深刻理解，能準(zhǔn)確解讀提示，并生成表達(dá)豐富情感的引人入勝的角色。Sora還能在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，使角色和視覺風(fēng)格保持準(zhǔn)確一致。

比如一大群紙飛機(jī)在樹林中飛過，Sora知道碰撞后會(huì)發(fā)生什么，并表現(xiàn)其中的光影變化。

一群紙飛機(jī)在茂密的叢林中翩翩起舞，在樹林中穿梭，就像候鳥一樣。

Sora還可以在單個(gè)視頻中創(chuàng)建多個(gè)鏡頭，并依靠對語言的深入理解準(zhǔn)確地解釋提示詞，保留角色和視覺風(fēng)格。

sora的原理似“做夢”

在發(fā)布新技術(shù)的同時(shí)，OpenAI也發(fā)布了一份關(guān)于Sora的詳細(xì)技術(shù)報(bào)告。

那么，Sora 是如何實(shí)現(xiàn)這一突破的呢？

受到GPT大語言模型成功的啟發(fā)，OpenAI引入了視覺模塊嵌入代碼技術(shù)，我們簡稱為“patches”。

這是一種高度可擴(kuò)散性，且有效的視覺數(shù)據(jù)表現(xiàn)形式，能夠極大地提升生成模型處理多樣化視頻和圖像數(shù)據(jù)的能力。

首先，研究人員將訓(xùn)練的視頻素材壓縮成為一個(gè)一個(gè)的“patches”小模塊。

在高維的3D空間中，OpenAI將每一個(gè)視頻壓縮成為低維代碼狀態(tài)，好比創(chuàng)建了一個(gè)一個(gè)的“小宇宙”，然后再將其分解，并將時(shí)空信息嵌入，從而將視頻轉(zhuǎn)化為一系列的編碼塊，這些可編譯的模塊就是模型訓(xùn)練的成果。

打個(gè)比方，訓(xùn)練Sora好比讓人類看一部電影，然后大腦將電影里邊的重要信息節(jié)點(diǎn)與場景記憶與解讀存儲(chǔ)下來，成為自己的永恒記憶。

接下來，OpenAI訓(xùn)練了一個(gè)專門用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。

該網(wǎng)絡(luò)以原始訓(xùn)練視頻作為輸入信息，去模擬人類創(chuàng)作影片的過程，而人類創(chuàng)作一則新影片，本質(zhì)上也是從前人或者其他作品啟發(fā)下誕生的靈感。

為了降低算力成本，OpenAI將輸出的模塊，在時(shí)間和空間上都進(jìn)行壓縮處理。Sora正是經(jīng)過多次反復(fù)的訓(xùn)練，并在該空間內(nèi)生成不同的視頻。

根據(jù)最新的外媒報(bào)道，OpenAI訓(xùn)練Sora僅僅只用了30億的參數(shù)量。

此外，為了讓Sora輸出質(zhì)量更好的視頻片段，OpenAI還訓(xùn)練了一個(gè)解碼器模型，能夠?qū)⑦@些“AI腦補(bǔ)”的代碼編譯畫面，還原為我們可見的視頻圖像。

這種基于“patches”的模型表現(xiàn)形式，讓Sora可以適應(yīng)不同視頻尺寸比例、分辨率、不同時(shí)長的視頻與圖像生成。

不僅能夠從無到有，創(chuàng)作完整的片段，還能延長用戶提供的視頻。

“patches”可以通過隨機(jī)化的方式，生成的新視頻內(nèi)容，并根據(jù)用戶制定的要求，按需求規(guī)則排列成指定的網(wǎng)格，來控制最終視頻的尺寸和形式。

沒聽懂？沒關(guān)系。

技術(shù)原理聽起來有點(diǎn)復(fù)雜。實(shí)際上，OpenAI的整個(gè)研發(fā)思路，就是在模仿人類做夢的過程。

正所謂“日有所思夜有所夢”，通過我們?nèi)粘Ｉ羁吹降母鞣N事物以及影像，作為Sora訓(xùn)練的數(shù)據(jù)集。然后讓它自主創(chuàng)作“夢境”，并且根據(jù)我們的指定Prompt去控制“夢境”內(nèi)容的生成。

Sora在進(jìn)行訓(xùn)練的時(shí)候，會(huì)自主將毫不相關(guān)的拼圖碎片，拼湊成一幅完整的拼圖畫面。

拼圖上的每一顆碎片，就是人類投喂的訓(xùn)練參數(shù)所創(chuàng)建的“patches”。

當(dāng)我們指定Sora去構(gòu)建一幅新拼圖時(shí)，它就會(huì)從之前的訓(xùn)練當(dāng)中快速提取相似的畫面模塊，生成全新的視頻片段。

Sora本質(zhì)上還是一種擴(kuò)散模型，它能夠從文本或者圖像視頻出發(fā)，逐漸推理并生成新的視頻。

Sora為理解現(xiàn)實(shí)世界和模擬重構(gòu)虛擬世界的“大魔王模型”奠定了基礎(chǔ)，OpenAI認(rèn)為，這是邁向通用人工智能（AGI）的關(guān)鍵。

Sora目前仍存在弱點(diǎn)

由于剛剛推出，Sora還存在著一定的技術(shù)不成熟之處。比如：生成視頻的時(shí)長限制在60秒，可能難以滿足一些復(fù)雜場景的需求；生成的視頻內(nèi)容可能存在一定的局限性，如缺乏深度、邏輯性不足等。為了進(jìn)一步完善技術(shù)，OpenAI可以考慮增加模型的訓(xùn)練數(shù)據(jù)、提高模型的復(fù)雜度、引入更多領(lǐng)域知識等。

對于Sora當(dāng)前存在的弱點(diǎn)，OpenAI也不避諱。OpenAI方面表示，它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理，并且可能無法理解因果關(guān)系。

例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，狼的數(shù)量會(huì)變化，一些憑空出現(xiàn)或消失。

該模型還可能混淆提示的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。

如提示詞“籃球穿過籃筐然后爆炸”中，籃球沒有正確被籃筐阻擋。

現(xiàn)在，Sora正面向部分成員開放，以評估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。

OpenAI公司表示，它意識到Sora有可能制造錯(cuò)誤信息和仇恨內(nèi)容等。研究人員說，AI驅(qū)動(dòng)的深度偽造已成為一種風(fēng)險(xiǎn)。同時(shí)，針對Sora可被濫用的問題，Sora已選取專家組將就如何加強(qiáng)對該系統(tǒng)的保護(hù)提供反饋意見。該公司表示，“我們也在開發(fā)有助于檢測誤導(dǎo)性內(nèi)容的工具，比如檢測分類器，它可以分辨視頻是何時(shí)由Sora生成的。”

確保內(nèi)容真實(shí)透明成重要問題

對于Sora的面世，工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員、數(shù)字經(jīng)濟(jì)專家劉興亮稱，AI生成的視頻可能減少了對人類演員、導(dǎo)演和其他創(chuàng)意角色的需求，從而影響到這個(gè)行業(yè)的就業(yè)。此外，隨著AI技術(shù)的進(jìn)步，傳統(tǒng)的影視制作流程和商業(yè)模式也可能面臨重塑。

不過，劉興亮指出，這種轉(zhuǎn)型并不意味著傳統(tǒng)影視行業(yè)的消亡，而是需要與AI技術(shù)融合，探索新的藝術(shù)形式和表達(dá)方式。

實(shí)際上，自生成式AI出現(xiàn)以來，該技術(shù)一直在大肆“入侵”影視制作的全流程，由人工智能產(chǎn)出的內(nèi)容也越來越普遍。

劉興亮同時(shí)提到，隨著AI生成內(nèi)容與現(xiàn)實(shí)之間的界限變得越來越模糊，如何確保內(nèi)容的真實(shí)性和透明性成為了一個(gè)重要問題。此外，版權(quán)、隱私和數(shù)據(jù)安全等問題也需要得到妥善解決。社會(huì)必須面對這些挑戰(zhàn)，通過制定相關(guān)政策、法律和倫理準(zhǔn)則來確保技術(shù)的健康發(fā)展，同時(shí)保護(hù)個(gè)人和社會(huì)的利益不受侵害。

Sora 的出現(xiàn)讓世界看到了人工智能的無限可能。2024年第一塊堅(jiān)實(shí)的里程碑落下，帶給人類發(fā)展的依舊是希望，它可能促使視頻行業(yè)朝著更高端、更創(chuàng)新的方向發(fā)展。

參考來源：新華每日電訊、央視網(wǎng)、中國基金報(bào)、文匯報(bào)、新智元等

重點(diǎn)聚焦更多>>

熱點(diǎn)科普更多>>

成人网站久久,欧美多人操逼,欧美电影一区二区,亚洲无码综合在线

出道即王炸！OpenAI首個(gè)文生視頻模型Sora特別在哪？

友情鏈接

全媒體矩陣

合作機(jī)構(gòu)

聯(lián)系我們

成人网站久久,欧美多人操逼,欧美电影一区二区,亚洲无码综合在线

出道即王炸！OpenAI首個(gè)文生視頻模型Sora特別在哪？

友情鏈接

全媒體矩陣

合作機(jī)構(gòu)

聯(lián)系我們

出道即王炸！OpenAI首個(gè)文生視頻模型Sora特別在哪？