快手推出“可靈”視頻生成大模型,引領AI創作新潮流
6月6日,國內短視頻平臺快手正式發布了一款名為“可靈(Kling)”的視頻生成大模型。這一由快手AI團隊自主研發的創新技術,標志著中國在人工智能視頻創作領域邁出了重要的一步??伸`大模型具備多重優勢,能夠生成大幅度的合理,模擬真實物理世界的特性,并擁有強大的概念組合能力和創意想象力。
突破性的視頻生成能力
可靈大模型通過簡單的文本輸入,便能生成時長長達2分鐘、1080P高清、每秒30幀的流暢視頻。在色彩呈現、視頻清晰度、動作連貫性及對文本語義的準確理解方面,可靈表現出色,足以與OpenAI的Sora相媲美。同時,它還具備模擬真實物理世界的技術特性,為用戶帶來了更為真實的觀看體驗。
先進的技術架構
在技術上,可靈采用了3D時空聯合注意力機制,更有效地建模視頻中的復雜時空。這一創新意味著可靈不僅能生成大幅度的,而且這些將遵循客觀的規律。例如,在官方展示的視頻中,一位宇航員在月球上奔跑,隨著鏡頭的提升,宇航員的步態和影子都保持了合理的表現。此外,可靈還能夠模擬光影反射、流體等真實物理特性,使得生成的視頻更加生動。比如,在一段關于“小男孩吃漢堡”的視頻中,男孩咬下漢堡時,漢堡上出現了明顯的缺口,并且在整個視頻中保持如一。
表情與身體驅動的創新玩法
可靈大模型還引入了表情身體驅動技術,結合自研的3D人臉和人體重建技術,用戶只需上傳一張全身照片,便能體驗生動的“唱跳”玩法。這種技術的運用,為視頻創作帶來了全新的可能性。
可靈的五大優勢
1. 流暢合理的模擬:通過創新的3D時空聯合注意力機制,精準捕捉視頻中的復雜動態,生成自然且符合物理法則的。
2. 高清視頻輸出:可靈能夠生成長達兩分鐘、每秒30幀的流暢視頻,保證高質量的觀看體驗。
3. 真實物理特性的模擬:能夠逼真地模擬光影效果、流體等,確保視頻內容符合自然界的規律。
4. 概念組合與創意轉化能力:結合Diffusion Transformer架構,將用戶的想象轉化為生動的視覺畫面,甚至創造超現實的場景。
5. 靈活的視頻寬高比支持:通過可變分辨率訓練策略,適應不同寬高比需求,滿足多樣化的創作需求。
未來展望
通過這些顯著優勢,可靈不僅為視頻創作帶來了前所未有的便捷和高效,也為AI視頻生成領域開辟了新的天地。目前,可靈大模型已在快手旗下的快影App開放邀測體驗,支持創作者申請并體驗其最新的文生視頻功能。快手表示,將持續加速大模型的研發與應用,力求帶來更豐富的AI創作與互動體驗。
可靈視頻生成大模型的發布,不僅為快手帶來了新的競爭優勢,也為整個AI創作領域注入了新的活力。我們期待這一創新技術在未來的廣泛應用,為用戶帶來更多精彩紛呈的視頻內容。
聯系作者
文章來源:小夏聊AIGC
作者微信:
作者簡介:專注于人工智能生成內容的前沿信息與技術分享。我們提供AI生成藝術、文本、音樂、視頻等領域的最新動態與應用案例。每日新聞速遞、技術解讀、行業分析、專家觀點和創意展示。期待與您一起探索AI的無限潛力。歡迎關注并分享您的AI作品或寶貴意見。