• 作者:老汪软件技巧
  • 发表时间:2024-12-26 21:07
  • 浏览量:77

大家好,我是立志替大家出手的AI区(最近天气冷)UP主Glen。

Sora 发布之后,有许多人进行了充值并使用。结果他们发现,Sora 的效果与国产的视频生成模型相比,差距并不是很大。

尤其值得一提的是腾讯开源的HunyuanVideo横空出世,以其130亿的参数量,成为开源模型中的“巨无霸”。

它的生成效果完全可以与 Sora 相媲美,甚至在很多时候比 Sora 还要好。最为关键的是,HunyuanVideo 是开源的,可以在本地进行部署使用。

我们来具体看看以下几个HunyuanVideo与 Sora,在相同提示词生成时的情况。

通过这些对比,我们能更清晰地了解到HunyuanVideo效果不输Sora!

更令人高兴的是,就在不久前,Comfyui 也顺利地对 HunyuanVideo提供了支持。

图片

四大优势:HunyuanVideo的“独门秘籍”视觉质量

在视觉质量上,HunyuanVideo超越了多个行业领先模型,如Runway Gen-3、Luma 1.6等,提供了更清晰、更逼真的视频效果。运动多样性

HunyuanVideo能够生成具有丰富运动变化的视频,让每一帧都充满动感。文本-视频对齐

HunyuanVideo在文本与视频的对齐上表现出色,能够准确理解并实现用户的创意意图。生成稳定性

HunyuanVideo在视频生成的稳定性上也有极佳表现,减少了生成过程中的意外和错误。HunyuanVideo的架构:隐空间模型的“神秘力量”

HunyuanVideo的架构独特,它是一个隐空间模型,训练时采用3D VAE来压缩时间维度和空间维度的特征。文本提示经过大语言模型编码后作为条件输入模型,引导模型对高斯噪声进行多步去噪,从而输出视频的隐空间表示。最后在推理时,通过3D VAE解码器将隐空间表示解码为视频。

图片

视频生成的“双流到单流”:HunyuanVideo的独特设计

HunyuanVideo采用了“双流到单流”的混合模型来进行视频生成。在双流阶段,视频和文本token会分别通过并行的Transformer Block进行独立处理,这样每个模态都能学习到适合自身的调制机制,且不会相互干扰。而到了单流阶段,又会将视频和文本token连接起来,然后输入到后续的Transformer Block中,以实现有效的多模态信息融合。

Comfyui - 大神显存优化版

关于 Comfyui 部署方面,据官方所言,在本地部署 HunyuanVideo 时,运行 720px1280px129f 规格的内容,其所需的最小显存要求为 60GB;而运行 544px960px129f 规格的内容,其所需的最小显存要求为 45GB。

图片

_不是200美元Sora用不起,而是免费国产Sora更具性价比!(整合包)_不是200美元Sora用不起,而是免费国产Sora更具性价比!(整合包)

kijai 大神近期对 ComfyUI - HunyuanVideoWrapper 插件进行了更新,现在只需 16G 显存便可使用。

即便是8G显存的显卡,在内存足够的情况下,开启虚拟显存,也是可以运行的哦!

HunyuanVideo 与之前开源的 CogVideoX 有所不同,除了主模型和 VAE 模型外,它还使用了名为 llava - llama - 3 - 8b - text - encoder - tokenizer 的多模态大语言模型作为文本编码器。

在 Comfyui 中安装 ComfyUI - HunyuanVideoWrapper 插件时,需要手动下载主模型和 VAE 模型,地址为:

huggingface.co/Kijai/Hunyu…

免费离线懒人包

为了让大家能够轻松体验到该项目的魅力,我当然是:无所谓,我会出手.jpg。为大家准备了一个免费整合包,让你不用配置环境,直接就能用。

图片

①下载整合包到本地,解压并双击“run_nvidia_gpu.bat”,项目会自动打开浏览器运行。②下载整合包中的工作流文件:

图片

③在项目界面加载工作流文件:

图片

④在界面中输入提示词:

图片

⑤点击运行按钮,等待项目运行:

稍等一段时间后,即可看到生成的视频了。

注意事项:

显卡推荐:建议使用配有至少8GB显存(建议10G显存以上)的英伟达显卡。

路径和文件名:确保安装路径不包含中文字符,上传的文件也不要包含中文哦。这是为了避免可能的兼容问题,让你的穿越之旅更加顺畅。

今天就聊到这了,我是Glen ,感谢你看我的内容,欢迎大家继续支持我,请点赞、收藏、分享三连走一波吧~

sm关注️,后台回复关键词【HunyuanVideo下载】免费获得整合包

v2-2a9052c9303fcc1fd3c7f29f87dc5a46_r.jpg

我是Glen,原鹅厂、字节高级产品经理,现AI公司创始人。我的使命是:让一部分人,看见AI并连接。分享人工智能、互联网、商业、职场等内容,管理精力,提升认知。种一棵树最好的时机是十年前,其次是现在!


Top