一文詳解Sora!人工智能的又一個里程碑
2024年伊始,當地時間2月16日,OpenAI再向世界扔了一枚AI炸彈——視頻生成模型Sora,它僅僅根據提示詞,就能生成60秒的連貫視頻,其中包含高度詳細的場景、復雜的攝像機運動以及充滿活力的情感的多個角色,也可以根據靜態圖像制作動畫。
一如一年前的ChatGPT,Sora被認為是AGI(通用人工智能)的又一個里程碑時刻。
同日,360創始人周鴻祎提到自己對Sora的看法:Sora的誕生意味著AGI(通用人工智能)實現可能從十年縮短至一兩年。
這個模型如此轟動,并不只是因為AI生成的視頻時間更長、清晰度更高,而是OpenAI已經超越過去所有AIGC的能力,生成了一個與真實物理世界相關的視頻內容。OpenAI提出了一個全新的概念——世界模擬器,這將是實現AGI的一個重要里程碑。
——-Sora如何成為“世界模擬器”?
OpenAI新發布的Sora模型,一腳踹開了2024年AI視頻賽道的大門,徹底與2023年以前的舊世界劃出了分界線。
OpenAI從一開始瞄準的就不是視頻,而是所有存在的影像。
影像是一個更大的概念,視頻是其中的一個子集,例如大街上滾動的大屏、游戲世界的虛擬場景等等。OpenAI要做的事情,是要以視頻為切入口,涵蓋一切影像,模擬、理解現實世界,也就是其強調的“世界模擬器”概念。
正如AI電影《山海奇境》制作人、星賢文化陳坤告訴光錐智能,“OpenAI在向我們展示它在視頻方面的能力,但真正的目的在于獲取人們的反饋數據,去探索、預測人們想要生成的視頻是什么樣的。就像大模型訓練一樣,一旦工具開放,就相當于全世界的人在為其打工,通過不斷標記、錄入,讓其世界模型變得越來越聰明。”
于是我們看到,AI視頻成為了理解物理世界的第一個階段,主要突出其作為“視頻生成模型”的屬性;發展到第二個階段,才能作為“世界模擬器”提供價值。
抓住Sora“視頻生成”屬性的核心在于——找不同,即Sora和Runway、Pika的差異性體現在哪里?這個問題至關重要,因為某種程度上解釋了Sora能夠碾壓的原因。
首先的一點,OpenAI沿用了訓練大語言模型的思路,用大規模的視覺數據來訓練一個具備通用能力的生成模型。這與文生視頻領域“專人專用”的邏輯完全不同。
其次,在Sora身上第一次展現了擴散模型與大模型能力的完美融合。
AI視頻就像一部電影大片,取決于劇本和特效兩個重要元素。其中,劇本對應著AI視頻生成過程中的“邏輯”,特效則對應著“效果”。為了實現“邏輯”和“效果”,背后分化出了兩條技術路徑擴散模型和大模型,而OpenAI如此迅速地就解決了這個難題。
“模擬”之所以能夠如此炸裂,根本的原因在于,用大模型創造出不存在的事物人們已經習以為常,但是能夠準確地理解物理世界運轉邏輯,例如力是如何相互作用的,摩擦是如何產生的,籃球是如何打出拋物線的等等,這些都是以前任何模型都無法完成的事情,也是Sora超越視頻生成層面的根本意義所在。
——-顛覆視頻,但遠不止視頻
Sora成為世界模擬器或許是很久以后的事情,但是就生成視頻而言,已經對現在的世界產生了影響。
第一類就是解決之前技術上面無法突破的問題,推動一些行業邁向新的階段。
最典型的就是影視制作行業,Sora這回最具革命性的能力就是最長生成視頻長度達到了1分鐘。作為參考,大熱門Pika所能生成的長度在3秒、Runway的Gen-2生成長度在18秒,這意味著有了Sora以后,AI視頻將能成為真正的生產力,實現降本增效。
陳坤告訴光錐智能,在Sora誕生前,其利用AI視頻工具制作科幻電影的成本已經下降至了一半,Sora落地后,更加值得期待。
Sora發布后,令他印象最深刻的是一個海豚騎車的demo。在那個視頻中,上半身是海豚,下半身是人的兩條腿,腿上還穿了鞋子,在一種極具詭異性的畫風中,海豚完成了作為人騎自行車的動作。
“這對我們來說簡直太神奇了!這個畫面創造出了一種又有想象空間,又符合物理定律的荒誕感,既是情理之中又出乎意料,這才是觀眾能發出驚嘆的影視作品”,陳坤道。
陳坤認為Sora會像當年的智能手機、抖音一樣,把所有內容創作者門檻降低一大步,把內容創作者呈數量級放大。
第二類是基于模擬世界的能力,在更多領域中創造出新的事物。
愛丁堡大學的博士生Yao Fu表示:“生成式模型學習生成數據的算法,而不是記住數據本身。就像語言模型編碼生成語言的算法(在你的大腦中)一樣,視頻模型編碼生成視頻流的物理引擎。語言模型可以視為近似人腦,而視頻模型近似物理世界。”
學會了物理世界中的普遍規律,讓具身智能也更加接近人的智能。例如在機器人領域,以前的傳導流程為,先給到機器人大腦一個握手的指令,再傳遞到手這個部位,但是由于機器人無法真正理解“握手”的含義,所以只能把指令轉化為“手的直徑縮小為多少厘米”。若世界模擬器成為現實后,機器人就可以直接跳過指令轉化的過程,一步到位理解人的指令需求。
雖然Sora還有許多局限性,但在虛擬和現實世界之間已經建立了一個鏈接,這讓無論是頭號玩家式的虛擬世界,還是機器人更像人類,都充滿了更大的可能性。
從OpenAI發布文生視頻大模型Sora回看生成式人工智能行業發展情況:
——AI大模型是一種新的智能計算范式
超大規模智能模型,簡稱大模型,是近年興起的一種新的人工智能計算范式。和傳統AI模型相比,大模型的訓練使用了更多的數據,具有更好的泛化性,可以應用到更廣泛的下游任務中。按照應用場景劃分,AI大模型主要包括語言大模型、視覺大模型和多模態大模型等。業界典型的自然語言大模型有GPT-3、源、悟道和文心等。視覺大模型也已廣泛應用于自動駕駛、智能安防、醫學影像等領域。基于多模態大模型的以文生圖技術也迅速發展,AI內容生成(AI Generated Content,AIGC)已成為下一個AI發展的重點領域。
——AIGC行業熱度高,受資本追捧
截止2023年4月,AIGC賽道目前在國外已出現了7家獨角獸。在我國,超參數和小冰公司已明確成為獨角獸公司,Minimax據傳估值過10億美元,光年之外則宣布下一輪融資已被認購2.3億美元。目前,最受頭部資本關注的機構均與底層大模型相關或與AI領軍人物下場相關(如王慧文光年之外、李志飛、周伯文、王小川等)。
多家機構已高度明確要將AIGC作為主投賽道,個別投資機構已經推出了相應的主體孵化項目。整體而言,大部隊還處在缺乏明確邏輯和標的的觀望狀態。但預計本年度融資規模將有數倍增長。隨著底層大模型的逐步開放以及商業價值的落地驗證,預計融資規模將在2024年出現首次階段性的指數級增長,投資向AIGC全產業鏈擴散。
——中國AI應用在金融、電信制造、醫療行業加速滲透
目前,隨著數字經濟與實體經濟融合程度不斷加深,以及互聯網平臺的數字化場景向元宇宙轉型,人類對數字內容總量和豐富程度的整體需求不斷提高。AIGC作為當前新型的內容生產方式,已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展,市場潛力逐漸顯現。與此同時,在推動數實結合、加快產業升級的進程中,金融、醫療、制造、工業等各行各業的AIGC應用也都在快速發展。
據IDC,2022年中國人工智能行業應用滲透度排名前五的行業依次為互聯網、金融、政府、電信和制造。另外,AI為自動駕駛、交通物流所賦予的價值也不容忽視,據麥肯錫預計,AI為交通領域創造3800億元的經濟價值。
文章來源:前瞻網/光錐智能,圖片來源:網絡。
本文已標注來源和出處,版權歸原作者所有,如有侵權,煩請聯系我們刪除!
上一篇:工信部等十二部門聯合印發《工業互聯網標識解析體系“貫通”行動計劃(2024—2026年)》
下一篇:中央財經委員會:多措并舉助力有效降低全社會物流成本