• 正文
    • 01.告別慢動作畫面,可靈2.0語義響應(yīng)、動態(tài)質(zhì)量與美學全面升級
    • 02.打造人與AI交互全新語言畫面元素定制化更容易了
    • 03.結(jié)語:基礎(chǔ)大模型+創(chuàng)作工具全棧升級快手要打造全球第一AI視頻應(yīng)用
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

04/16 15:10
437
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者 | ?陳駿達

編輯 | ?心緣

基礎(chǔ)模型+創(chuàng)作工具全棧升級,可靈AI 2.0究竟有何不同?

智東西4月15日報道,就在剛剛,可靈AI面向全球正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型,繼續(xù)大幅領(lǐng)先業(yè)內(nèi)前沿模型。可靈2.0在文生視頻領(lǐng)域OpenAI Sora實現(xiàn)367%的勝負比,在圖生視頻領(lǐng)域較谷歌Veo2實現(xiàn)了182%的勝負比。

與可靈1.6相比,可靈2.0模型在動態(tài)質(zhì)量、語義響應(yīng)、畫面美學等維度有明顯進步。在下方案例中,可靈2.0準確呈現(xiàn)了日光從清晨到正午再到傍晚的變化,還使用了延時攝影的風格。

可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風格表現(xiàn)等方面顯著提升,色彩和光影更為高級,情緒表達更具感染力,并新增了60余種風格化效果。

在本次2.0模型迭代中,可靈AI還正式發(fā)布AI視頻生成的全新交互理念Multi-modal Visual Language(MVL),讓用戶能夠利用圖像參考、視頻片段等多模態(tài)信息,將腦海中的復雜創(chuàng)意直接高效地傳達給AI,或是對視頻、圖像等多模內(nèi)容進行編輯。用戶可以將視頻、圖片等作為元素上傳,并直接將其嵌入至提示詞中。這些元素能在畫面內(nèi)以合乎邏輯的方式組合,進一步提升畫面的可控性。

01.告別慢動作畫面,可靈2.0語義響應(yīng)、動態(tài)質(zhì)量與美學全面升級

快手高級副總裁、社區(qū)科學線負責人蓋坤介紹,自去年6月發(fā)布以來,可靈AI已累計完成超20次迭代。截至目前,可靈AI全球用戶規(guī)模突破2200萬,過去的10個月里,其月活用戶量增長25倍,累計生成超過1.68億個視頻及3.44億張圖片。

然而,現(xiàn)有的視頻生成模型仍存在語義遵循能力差、動態(tài)質(zhì)量不佳等問題,妨礙了創(chuàng)作者表達、控制生成結(jié)果的能力??伸`AI全系模型進行的本次升級,正是為了解決這些問題。據(jù)快手副總裁、可靈AI負責人張迪介紹,可靈2.0的升級主要有三方面:語義響應(yīng)、動態(tài)質(zhì)量與畫面美學。升級后的可靈2.0可以更準確地反映人物表情、動作的變化,動作的豐富度、真實性有明顯提升。在下方案例中,可靈2.0為準確描繪了提示詞中“手錘桌子起身”的效果,而可靈1.6并沒有完全還原。

可靈2.0也告別了視頻生成模型的通病——運動速度不合理。在下方馬飛速奔馳的畫面中,可靈2.0的生成結(jié)果不再是慢動作,鏡頭表現(xiàn)更加真實??伸`團隊還對其生成畫面的復雜動作、動作幅度進行優(yōu)化。

生成大片感的畫面對可靈2.0來說也不是問題。下方這一畫面中,無論是人物奔跑的動作,還是后方爆炸的效果,都十分逼真,角色演繹生動。

可靈2.0對時間的理解能力提升,能幫助創(chuàng)作者生成更連貫、更具有故事性、延續(xù)性的畫面。圖像生成模型可圖2.0的升級同樣是在指令遵循方面。下方這一案例的提示詞中具有“伺服電機”、“機械女神”、“壁畫”、“拉斐爾《雅典學院》的古典平衡感”等諸多要素,可圖2.0的生成結(jié)果很好地還原了相關(guān)要素,

可圖2.0能更好地展現(xiàn)提示詞中對于色彩、光影的表述,對人物情緒的呈現(xiàn)更具感染力。下方4張圖片均為可圖2.0的生成結(jié)果,若未經(jīng)提示,或許許多人都會認為這是某部電影的截圖。

02.打造人與AI交互全新語言畫面元素定制化更容易了

張迪在發(fā)布會現(xiàn)場分享了可靈2.0和可圖2.0能力升級背后的技術(shù)創(chuàng)新??伸`團隊為可靈2.0采用了全新設(shè)計的DiT架構(gòu),這提升了其視覺、文本模態(tài)的信息融合能力。全新設(shè)計的VAE架構(gòu)則使復雜動態(tài)場景下畫面的過度更順暢,質(zhì)感更自然。同時,可靈團隊還首次系統(tǒng)性研究了視頻生成DiT架構(gòu)的Scaling Law特性。

在模型訓練、推理策略方面,可靈2.0在后訓練階段利用了強化學習技術(shù),這提升了其對復雜運動場景、主體交互的生成能力,也強化對運鏡語言、構(gòu)圖術(shù)語等專業(yè)表達的理解與響應(yīng)能力。

張迪透露,目前可靈平臺上高達85%的視頻生成任務(wù)為圖生視頻任務(wù)。由此看來,更強的生圖能力也成為創(chuàng)作者所需工具。此次可圖2.0的技術(shù)創(chuàng)新包括全新升級的文本表征處理鏈路、全面升級的數(shù)據(jù)體系和多樣性以及全新的提示詞工程和去噪策略。升級后的可圖2.0會深度思考用戶的提示詞,其逐步自適應(yīng)的Diffusion去噪策略,可以優(yōu)化出圖細節(jié),提升圖像質(zhì)量。面向視覺創(chuàng)作者,可靈還推出了視頻、圖像多模態(tài)編輯能力,這些能力基于可靈提出的視覺生成交互理念Multi-modal Visual Language(MVL)。蓋坤介紹,可靈團隊發(fā)現(xiàn),文字不足以向模型準確描述復雜動作、復雜表情等內(nèi)容,可靈希望定義一種人與AI交互的全新語言,讓模型能更好地理解人的想象力。利用MVL技術(shù),創(chuàng)作者可以利用視頻、圖像、文字等多模態(tài)信息,定義畫面內(nèi)人物的長相、著裝、表情以及畫面背景等。

在這一過程中,文本扮演了語義骨架的作用,多模態(tài)描述子(MMW)能嵌入這一骨架,擴展描述的完備性、準確性。未來,可靈還計劃支持文本+MMW動作描述文件,畫面角色的運動軌跡也能完全可控。

03.結(jié)語:基礎(chǔ)大模型+創(chuàng)作工具全棧升級快手要打造全球第一AI視頻應(yīng)用

本次可靈AI 2.0的升級,不僅包括基礎(chǔ)大模型的能力提升,還有面向創(chuàng)作者日常生產(chǎn)流程的全棧工具優(yōu)化,蓋坤稱,可靈AI的愿景是“讓每個人都能用AI講出好故事”。日前,在快手2025財年電話會議上,快手集團高管也分享了類似的觀點,快手認為AI對其發(fā)展至關(guān)重要,將給予堅定、長期的投入,可靈會在技術(shù)升級的同時,進行全球市場和品牌運營活動??焓值哪繕耸?,將可靈打造為營收規(guī)模世界第一的AI視頻應(yīng)用。(本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。)

相關(guān)推薦