文 | 窄播 李威(北京)
國慶假期剛開始,Sora 2就引爆了整個AI圈子。
這個新的視頻模型帶來了對現實世界更精準的呈現,有更強的可控性,能創造出復雜的音頻,并且能夠輕松地將現實世界中的人和物插入到AI生成的視頻內容中,完成一場現實里很難實現的高難度客串(Cameo)。
于是,我們在這兩天看到了大量由OpenAI CEO Sam Altman參演的AI視頻作品,他會與瑞克、莫蒂對談,和同事一起撞翻充滿彩色泡泡球的浴缸,在一個播客中參與討論。這些內容發布在與Sora 2同步推出的Sora App上,被看作是「AI抖音」將要到來的體現。
很多人相信,人們會被客串激發出更多AI視頻的創造行為。但我們認為,即便有完整的內容推薦功能,當下的Sora App本質也還是一個工具,而不是平臺,它與另一個近期大火的AI視頻生成產品Higgsfield是同類——都是在利用AI提供更高級的濾鏡,激發出人們跟風和模仿的沖動。
Sora 2帶來的模型能力的提升,更可能會加快To B方向的落地,推動整個視頻大模型行業的技術更新,讓AI更好地服務于有創作沖動的人。我們不知道To C層面的AI抖音什么時候能夠出現,以及AI抖音會帶來什么樣的商業模式,但我們能夠確定,AI對影視行業的改變,正在催生出更多具備商業收益的內容。
就像AI短劇《巨蛇怪談》的導演吉星所說:「現在AI給影視行業帶來的變化,就像當年從膠片到數字的革新一樣。」
他認為,從膠片到數字的變化是讓電影廠之外的更多人有了拍攝影視作品的機會。但是,數字時代,拍攝一部作品還需要去搭建一個劇組,要有制片、攝影、燈光、美術、造型等分工。到了AI時代,《巨蛇怪談》的創作團隊只有吉星、一名編劇和一名AI技術人員,上線番茄、紅果平臺后已經獲得了累計超500萬次播放。
Sora 2的上線也說明,大模型公司仍然在不斷提升圖片、視頻、音樂生成模型的能力,降低內容生成的成本,使其內容生成效率越來越貼合實際創作的使用需要。同時,在產品層面,大模型廠商和創業團隊也在通過創作流程、工具的創新,探索如何進一步降低用AI講故事的門檻。
人們越來越可以期待,AI帶來視頻創作,甚至是影視作品創作的平權——創作經驗被提煉出來,成為AI產品的一部分,一個普通人能做出來一部影片,個人的想象力和創作欲被極大激發出來。雖然現實可能是,創作工具能夠平權,創作沖動卻無法大眾化。
但起碼,生成工具的變化,很可能帶來生產關系的變化,讓影視行業誕生出新的游戲規則。
加速奔跑的AI視頻
吉星是一名有著10年傳統影視行業工作經驗的導演。今年以前,他都沒有將視頻生成模型等AI技術與自己所處的行業聯系起來。「但上半年遇到了兩個事,一個是特效方面的,一個是音樂方面的,然后才發現,其實AI技術已經滲透進了我們影視產業鏈的各個環節。」吉星表示。
特效方面,吉星給去年拍攝的一部古裝偶像劇做后期的時候,發現實拍的一個道具沒有做好,再去建模一套道具的經費又不夠,最終利用AI技術實現了更好的建模效果。音樂方面,因為主題曲歌手的錄制檔期要晚于預計的送審時間,音樂總監就用AI歌手先演唱了一版主題曲送審。
「過審之后,我才知道這版主題曲是AI歌手演唱的。」吉星由此才開始大量接觸AI創作工具,并萌生了用AI創作工具講故事的想法。然后用了兩個多月的時間,他就摸索著創作并上線了自己的首部AI短劇《巨蛇怪談》,并且已經開始籌備新的AI短劇作品。

《巨蛇怪談》劇照
吉星快速切換到AI短劇創作背后,是一場圍繞AI影視創作在快速進行的技術迭代和產品更新。
2024年,Sora的橫空出世,可靈的跟進截胡,真正開啟了AI視頻賽道的競爭。截止2024年底,國內已經出現了20多款視頻大模型產品,阿里、騰訊、字節都參與其中。海外市場,Google、Meta等巨頭,還有Runway、Luma AI、Midjourney等創業公司也紛紛加入戰局。
在這一年,我們看到了《山海奇鏡之劈波斬浪》、《新世界加載中》等AI短劇的出現。雖然以現在的眼光來看,當時出現的這些作品都還存在諸多瑕疵,但是,從探索的角度已經能夠讓人們用AI來講故事、創作影視作品了。
同時,我們還看到了更野心勃勃的探索,比如,Runway與獅門影業合作,要利用后者的影視作品資料庫定制視頻生成大模型。
也正是這些對技術可能性的初步驗證,讓人們對視頻大模型保持了更強的信心和期待。
進入2025年,視頻大模型的能力加速進化,人物一致性、細節效果上都有了明顯進步,從一開始的嘗鮮,向具備實際效果的生產工具過渡。可靈2.1、Google的Veo 3、字節的Seedance 1.0 pro等模型,在生成效果上都各有優勢。生數科技最新發布的Vidu Q2模型則已經開始強調對復雜表情的生成能力。
未來,當我們回顧AI技術對影視行業的影響時,Sora 2的發布一定會讓2025年成為有重要意義的節點。它就像此前爆火的Nano Banana一樣,讓人們看到了AI能夠理解真實世界,并在生成的視頻內容中進行模擬的可能性。Sora 2不但生成的內容更有真實感,還能連續生成復雜鏡頭。
P端是商業模式的重要支柱
視頻大模型的商業化落地也在隨技術能力的提升而加速,但這更多集中在B端和P端。
快手在9月公布的最新數據顯示,自今年4月推出2.0模型以來,可靈AI的月度付費流水持續突破1億元人民幣。新上線的可靈2.5 Turbo,價格降低了30%,以進一步提升對創作者的吸引力。火山引擎也在和博納影業等伙伴共創,用AI技術解決行業痛點。
OpenAI推出的Sora App面向C端用戶,目前獲得邀請碼的用戶可以免費使用,但只能生成10秒、360P畫質的視頻。一旦進行商業化,Sora App的付費用戶很有可能也會集中在P端,將生成的內容面向全平臺分發,更具工具屬性。
視頻大模型在包括影視行業內的多個領域的落地應用、創造價值,進一步激發了資本的押注。9月,已經有Vidu和愛詩科技兩家國內的視頻大模型廠商拿到了融資。其中,Vidu完成了由博華資本領投的數億人民幣A輪融資,愛詩科技則拿到了阿里巴巴領投的6000萬美元B輪融資。
在Vidu、愛詩科技背后分別站著百度和阿里巴巴,這在一定程度上也可以理解為,巨頭們在發起AI視頻領域的代理人戰爭。Sora 2的刺激下,巨頭和資本可能會給視頻大模型廠商提供更多資源,使其能夠在更長時間內維持模型能力迭代、創新探索扶持,并且可能會加速視頻大模型向影視、營銷等垂直行業的滲透。
同時,首尾幀、參考生視頻、靈動畫布等功能的更新,也讓視頻生成大模型更貼合P端創作者對視頻生成內容的一致性和可控性的更高要求。
在此基礎上,我們看到,影視行業出現了更多追求商業化變現的AI短劇作品。吉星就是影視行業中被這波技術浪潮影響到,并選擇快速擁抱的一員。珀樂互動聯合Vidu創作的AI漫劇《明日周一》在全平臺上線后,也已經收獲了超過1億觀看。
「今年大家都卯著勁想要有各自的商業化落地。」珀樂互動CEO楊晟表示,「我們今天最看重的東西其實是,能不能有更多的人去相信它,然后去嘗試。這個嘗試不怕失敗,試過之后才能慢慢培養出感覺。」
AI「煉丹」的效率提升了
影視行業積極擁抱視頻生成大模型的一個核心原因就是,AI「煉丹」的效率提升了。
利用AI創作視頻,往往需要先根據文字生成圖片,然后再利用圖片來生成視頻,這個不斷嘗試生成的過程,會被稱作「煉丹」或「抽卡」。提升煉丹效率,就是要追求用更低的嘗試次數生成自己需要的視頻。
「煉丹」效率的提升,有助于降低試錯成本。AIpai創始人、《山海奇鏡之劈波斬浪》導演陳坤印象中,去年Sora發布后,奧特曼在線上接單,根據網友提出的要求來生成視頻。確認一個要求后,過40分鐘才能發出生成結果。
「他不展示生成過程,我們不知道背后是跑了多少條才選出了最好的一個。作為用戶,我們是不能這么來做的。」陳坤表示。
楊晟的「勇于嘗試」,也是建立在視頻大模型有了更高的「煉丹」效率基礎上的。在《明日周一》制作過程中,團隊會先手繪原畫,然后再利用其生成視頻內容。這樣做的「煉丹」效率是在1:1.3~1:1.5。楊晟期待,在第二季的創作過程中,能夠將「煉丹」的效率提升到1:1.1或1:1.2。

《明日周一》海報
對于楊晟和他的團隊來說,總結和復用之前的創作經驗,讓團隊成員都能具備AI視頻生成的經驗和手感,可以在一定程度上實現「煉丹」效率的提升,帶來產能的進一步爆發。
但放到全行業來看,「煉丹」效率的提升,還是需要依賴視頻大模型的能力和產品的提升。
一方面,視頻大模型的基礎能力影響生成效果,決定了「煉丹」效率的下限。如果下限太低,即便是有經驗豐富的成員,團隊也難以高效生成相應的內容。
在一年多前Sora和可靈發布時,我們讓AI生成一個吃面條的畫面都很困難,面條往往不是自然地通過咀嚼被吃進去的,而是會直接被無形的手塞進嘴里。
到了現在,我們再讓AI去生成吃面條的視頻時,畫面和動作的呈現已經比之前更加自然。還有Veo 3引爆的切水果視頻,AI已經能夠生成一個用刀切開橙子,然后汁水四濺的視頻效果了。

OpenAI發布的Sora 2的樣片中,有維京戰士乘著戰艦登陸冰面,還有一對情侶在煙花下交談。雖然這些樣片和用戶真正生成的效果之間還是有一定的差距,但也讓我們看到了用AI講出更好故事的可能性。原來生成一個5秒的視頻,可能只有0.5秒能用,現在可能可以直接生成一個復雜鏡頭構成的橋段了。

另一方面,視頻大模型的工具生成的一致性和穩定性,決定了「煉丹」效率的上限。影視行業在生成視頻時常用的工具就是「參考生視頻」與「首尾幀」。前者可以在生成打斗場面時,讓AI參考給出的動作分鏡來生成視頻,首尾幀則是確定了視頻的開頭和結尾,讓AI在這個過程中發揮更多創作性。
生數科技CEO駱怡航認為,參考生視頻其實是整個AI創作范式的底層功能,是從線下拍攝視頻到線上AI創作的一個本質的創作流程和方式的轉變。Vidu在7月上線了Vidu Q1 參考生功能,支持用戶上傳七個主題,用其將人物、道具、場景等都定下來,無需經過生圖、圖再生成視頻,直接一鍵根據參考圖直出視頻。
楊晟覺得參考生視頻功能的上線,是「科學家們開始傾聽行業的聲音了。」
他的印象中,最初的大模型廠商愛強調自身模型生成視頻的時長,但現實拍攝的長鏡頭其實是一個帶有復雜運動調度的鏡頭組合,這跟「時長」是兩個概念。時長增加是炫技,可能會生成很多不合用的素材;參考生視頻才真正滿足創作者的需求,給到了穩定的生成。
被Adobe選擇的Ray3,則選擇了與參考生視頻不同的優化邏輯。Ray3賦予了視頻大模型思維鏈推理能力,使其能夠思考指示、評估生成效果、規劃復雜場景的生成。用戶可以看到模型的工作步驟,并通過可視化的標注工具進行標注,告知其需要調整的具體細節。
影視工作流在出現新變化
視頻大模型基礎能力提升的基礎上,傾聽更多行業的需求聲音,是提升場景滲透率的有效路徑。
一個是我們上文提及的——將行業需要的基礎功能融入到視頻大模型的生成思路中,另一個則是尋找AI生成能力與原有行業流程相結合后,能夠產生怎樣的新變化。相較營銷廣告、社交娛樂小視頻,影視行業能夠在視頻領域沉淀出更廣泛適用的工作流。
首先,是影視創作界面的創新。
可靈在世界人工智能大會(WAIC)上發布的靈動畫布功能,就是在這個方向上的探索。與ComfyUI的形態相似,可靈也支持創作者在一塊畫布上添加不同的創作節點。這些節點會包含圖片生成、視頻生成、音樂生成等環節,不同環節又可以同時生成多個分支,讓創作者更直觀地進行對比和挑選。
據可靈AI產品及運營負責人李楊的介紹,可靈團隊在調研中發現,一位可靈的超級創作者在創作過程中會在電腦上打開無數頁面,在不同的AI工具之間來回切換游走,通過網盤和團隊伙伴互傳文件。然后可靈團隊就推出了靈動畫布,來一站式實現AI視頻的全鏈路創作和團隊協作。

Luma AI的最新模型Ray3則被應用在Adobe的AI產品Firefly中,期望借此讓好萊塢制片廠和電影制作人使用其創作AI畫面。這也是在結合一個新的影視創作場景。OpenAI則計劃在Sora界面中提供故事版(Storyboard)功能,讓用戶能夠逐個鏡頭的去生成和調整內容。
其次,則是對傳統影視創作鏈路的優化。
《明日周一》的創作過程會參考動畫的制作過程進行。整個團隊有10個人,用45天時間創作出50集AI漫劇,10個成員中,有2人負責AI視頻生成,剩下8人負責傳統動畫制作中的設定、分鏡等工作。具體的制作標準會追求接近頭部動畫作品,做到每分鐘內容有80幀畫面。
AI的應用,首先減少了原畫師的工作量。《明日周一》中的空鏡畫面基本都有AI生成;在參考生視頻功能下,很多視頻內容的尾幀也是不需要畫出來的。楊晟表示,《明日周一》的后半部分可能比原計劃少畫了三分之一的原畫。在《永恒宇航員》(The Eternaut)中,Netflix也實現了業內首次對AI生成特效的大規模使用。
AI的應用,還省掉了中間環節。「做完分鏡之后就要進團隊,在導演和原畫師的帶領下開始畫具體的畫面,我們等于跳過了這個環節,分鏡上色之后就直接生成視頻了。」楊晟介紹道。
在真人影視內容的創作中,AI也在提升一些環節的效率。導演薛曉路在可靈活動的分享中指出,傳統的拍攝模式下,要經歷確定演員、確定分鏡頭、確定場景的流程。一個造型設計可能需要出多個版本的方案,花費十天時間來完成。用AI來做,在速度和有效性上都能有很大提升。
AI技術真正融入到影視行業,可能會帶來新的想象力表達方式。「從最早前的煉丹、拆解Prompt,包括尋找三維和傳統影視當中的解決路徑,然后再到論文和算法,我會發現AIGC對于視聽行業的影響不僅是工具和流程上的變革,更是一種創作思路的牽引。」AI短劇《新世界加載中》導演陳翔宇表示。
一鍵成片的時代還遠嗎
Agent能力的應用應該會是推動這種創作思路變化的關鍵一環。
愛詩科技在最新的更新中就推出了一項Agent能力。這個Agent很模版化,用來幫助用戶撰寫提示詞。用戶找到想要生成的模版,按要求填空,就能讓AI自動完成視頻生成過程。Ray3的推理能力一定程度上也可以被認為是具備一定的Agent屬性。
還有一些創業團隊想要打造一站式生成視頻內容的Agent產品,讓用戶更低門檻地去講故事。
陳坤的AIpai和好耶科技推出的FilmAction都是這類產品。具體使用中,這兩個產品都支持選用不同的大模型,都可以完成腳本、分鏡到視頻、配樂的一整個流程。不同之處是,AIPai會先進行比較詳細的前期溝通,在溝通基礎上完成視頻,FilmAction則會先生成視頻,再進行調整。
這類產品想要踩中兩個痛點:一個是普通用戶沒有傳統影視創作的經驗和知識,在提示詞中往往不能講清楚自己的準確需求,也不擅長剪輯、寫劇本;另一個是,當下視頻大模型很難出現一家獨大的情況,創作者們都會按需選擇大模型來使用,但不是所有人都清楚地了解視頻大模型的最新技術進展。
「原來你可能只能生成單鏡頭的視頻,自己再去剪輯。但是這件事情對于普通人來講太難了。我們的產品會在一開始和你聊要做一個什么樣的東西,然后能做出來一個有故事性的片子,做更多自我表達。」陳坤表示,未來希望用戶能夠只關心自己如何生成內容,而不必關心過程中會調用哪些模型。

AIpai界面
這種低門檻的視頻創作方式很容易讓用戶擁有一鍵成片的期望。好耶科技創始人吳杰茜告訴我們,Agent能力上線的一個月內,FilmAction的用戶月活增長相當于過去一年的。在FilmAction的用戶作品中也能看到用戶蓬勃的表達欲,里面會有各種不同的題材。
吳杰茜認為,這樣的智能體現階段已經能夠被用于AI短劇的創作。但如果想要創作更好的短劇內容,還是需要具備專業經驗的人來調教和使用AI。好耶科技目前也在做自己的短劇項目,在保證一定質量的前提下,團隊成員人均一天能夠制作一到兩集的短劇。

FilmAction界面
「真正AI創作流程比影視創作流程有時候還要來得慢一些,因為你面對的不是成熟的制作工業已有的制片體系,而是一組組不確定性很高的模型算法,所以你必須根據已有的或者自研技術去建立階段性的、不斷更新的AI制作體系,腳本、美術、動畫、算力儲備還有算法測試再到最終成片。」陳翔宇表示。
在一鍵成片的時代到來之前,AI在影視行業中會存在兩個相對獨立卻有交叉的進化路徑:一條是從創作者的層面來看,不斷加深對AI技術的理解,在AI技術與傳統經驗中找到最佳結合點;另一條則是從技術層面來看,技術需要繼續走向成熟,讓AI生成的人物能夠有豐富的表情,做出特定的調度。
從Sora 2身上,我們看到了OpenAI在第二條進化路徑上的領先性,這給國內的可靈、即夢、Vidu、通義等都帶來了一定的壓力。與其說人們在期待Sora衍生出一個AI抖音,不如說人們在擔憂字節在技術上沒有拿出與其行業地位相匹配的AI視頻技術和產品。
至于做出一個AI抖音,影響C端用戶的社交和表達習慣,可能真的需要等待一鍵成片的成熟。抖音已經從手勢舞走向抖音精選,人們對AI視頻的起始期待就會是講好一個故事,僅靠客串這樣的模仿性功能,很難長時間維持用戶的新鮮感。
同時,也需要解決好視頻大模型的版權問題。有媒體通過測試認為,OpenAI的Sora的訓練數據包含了電影、Tiktok內容和Netflix的節目內容。華納兄弟、迪士尼和環球影業都以AI產品侵犯版權為由向Midjourney發起了訴訟。
目前業內通行的方式,是通過原畫、定妝照等來盡量保證AI生成內容的原創性。OpenAI在客串功能中增加了用戶授權的流程。但這都不是最好的方案。前者還是有很高的創作門檻,后者已經暴露出了一定的短板。楊晟認為,當技術平權之后,決勝的將是內容質量,擁有ip和合規化數字形象變得格外重要。
未來服務于影視創作的一定是AI化的工具。不同于專業相機和傻瓜相機的區別,這個工具可能同時適用于C端、P端和B端用戶,帶來一種工具層面的普惠。但也會因需求不同、創作者能力不同,選擇不同的套餐,產生出不同的結果。很難實現創作沖動的普及,即便AI工具足夠好用,也不會是人人都有創作欲和表達欲。
一鍵成片如果實現,那給影視行業帶來的可能不是人人都有攝像機的作品大爆炸,而是一套新的內容生產體系和行業權力架構。

