全站绿色、纯净清爽
发掘好用的软件和AI工具

W.A.L.T:通过扩散模型生成逼真视频的AI模型

近日,谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA,还展示了在文本到视频生成任务中的卓越性能。W.A.L.T:通过扩散模型生成逼真视频的AI模型

这种方法有两个关键的设计决策。首先,它使用因果编码器共同压缩图像和视频,使其在统一的潜在空间内进行训练和生成,支持跨模态操作。其次,为了内存和训练效率,它使用了专为联合空间和时空生成建模量身定制的窗口注意力架构。这些设计决策的结合使得W.A.L.T在已建立的视频(如UCF-101和Kinetics-600)和图像(如ImageNet)生成基准测试中达到了最先进的性能,而且不需要使用无分类器的引导。

W.A.L.T官方演示视频:

W.A.L.T项目地址:https://walt-video-diffusion.github.io/

赞(0) 打赏
📝版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
📌文章名称:《W.A.L.T:通过扩散模型生成逼真视频的AI模型》
📌文章链接:https://www.fsgameo.com/ai-tools/video/video-generators/5892.html
⚠须知:本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

请在浏览器中打开