該模型生成視頻的最高分辨率可達2048×1280、24幀,且對於訓練和計算的要求較低。
《科創板日報》4月21日訊《編輯 邱思雨》 近日,英偉達與慕尼黑大學等院校的研究人員聯合發佈了一篇有關視頻潛在擴散模型《VideoLDM,Latent Diffusion Model》的論文,該模型能夠將文本轉換成視頻,實現高分辨率的長視頻合成。
相關論文已經發表在預印本網站arXiv上。
研究人員給出『一個泰迪熊正在彈電吉他、高清、4K』等文本提示詞後,運用VideoLDM,成功生成了相關視頻《已轉為GIF格式》:
目前,VideoLDM生成視頻的最高分辨率可達2048×1280、24幀。
研究團隊僅公佈了論文和一些成品視頻案例,暫未開放試用。
據介紹,相對來說,該模型對於訓練和計算的要求較低。
在文字大模型、文生圖大模型發展迅速的當下,受限於視頻訓練數據的計算成本高昂以及缺乏大規模公開可用的數據集等原因,視頻大模型的發展相對較慢。
VideoLDM則成功解決了這個關鍵問題。
從原理上來分析,VideoLDM基於圖像數據集預訓練,並在此基礎上加入時間維度以形成視頻框架,最後在編碼的視頻序列上進行微調,得到視頻生成器。
為進一步提高分辨率,研究人員從時間維度將其與擴散模型upsamplers對齊,並與真實視頻對比驗證,從而將其轉換為時間一致的視頻超分辨率模型。
此外,研究人員還微調了Stable Diffusion,將其轉換為視頻生成器。
他們通過對Stable Diffusion的空間層進行簡單微調,然後插入時間對齊層,從而實現了視頻的生成。
落實到應用層面,研究人員給出了兩大具有潛力的應用領域:一是駕駛數據的高分辨率視頻合成,能夠模擬特定駕駛場景,在自動駕駛領域中具有巨大的應用潛力;二是創意內容的生成。
在論文中,團隊給出了幾個駕駛場景視頻的生成案例:
目前,在自動駕駛領域,AI大模型被認為能夠賦能感知標註、決策推理等環節。
華泰證券分析師黃樂平、陳旭東等於4月13日發佈研報指出,AI大模型有望解決行業數據標註準確率及成本困境。
該機構以DriveGPT為例進行分析,大模型能夠將交通場景圖像的標註費用從行業平均約5元/張降至約0.5元/張。
與此同時,機構還認為大模型將賦能場景生成、軌跡預測、推理決策等環節,能夠根據駕駛場景序列數據,生成未來可能發生的多種駕駛環境並預測每種情況下車輛行駛軌跡。
國泰君安亦指出AIGC將有助於自動駕駛的推進落地。