即梦AI发布的新功能预告片相关内容,该功能基于字节跳动自研的OmniHuman模型,只需输入图片和音频就能生成AI视频,还会提及模型的特点、目前的状况以及即梦AI针对此功能的后续计划等。
就在近期,即梦AI在其官方的社交媒体平台上,对外发布了一则新功能上线的预告片。在这个预告片视频里,我们可以看到即梦AI采用了一种全新的多模态视频生成模型,这个模型名为OmniHuman。有了这个模型之后,用户的操作变得十分便捷,仅仅需要输入一张图片,再加上一段音频,就能够轻松地生成一条非常生动的AI视频。这一创新功能的出现,很有可能会在很大程度上提高AI短片的制作效率,并且在质量方面也有望得到大幅提升。
这些图片是从即梦AI的视频号内容中截取下来的。从OmniHuman技术的主页信息我们可以了解到,这个模型是字节跳动自己研发的闭源模型。它具有很强的兼容性,可以支持不同尺寸的图片输入,像是肖像、半身或者全身等各种尺寸的图片都没问题。而且,这个模型能够根据输入的音频内容,让视频中的人物做出与之匹配的动作。比如说演讲时的手势、唱歌时的表情、演奏乐器时的姿态以及移动的方式等等。在人物视频生成过程中,常常会出现手势崩坏这样的问题,但是OmniHuman模型相比现有的方法,在这个问题上已经取得了非常显著的改善。另外,这个模型对于一些非真人的图片输入,像是动漫、3D卡通等,也有着比较出色的支持效果。生成的视频能够很好地保持特定的风格,并且原有的运动模式也不会被破坏。
从技术主页展示的演示效果来看,OmniHuman模型的生成效果已经达到了比较高的自然度。不过,字节跳动的技术团队为了防止这项技术被不当利用,特意在主页中作出标注,表示OmniHuman模型将不会对外提供下载。
即梦AI的相关负责人透露,目前这个OmniHuman模型虽然已经具备了较好的表现能力,但是在生成影视真实级别的视频方面,仍然存在着一定的提升空间。由这个模型所支持的多模态视频生成功能,将会在即梦AI平台上以小范围内测的形式来进行优化调整,并且会逐步向用户开放。这位负责人还表示,即梦AI还会针对这一功能设置非常严格的安全审核机制,并且会在输出的视频上标注水印,以此作为提醒。这样做的目的是确保AI能够发挥正面、积极的作用,从而帮助视频创作者更好地将自己的想象力通过视频表达出来。
本文总结了即梦AI新功能预告片相关内容,重点阐述了OmniHuman模型在视频生成方面的功能,如输入一张图片和一段音频即可生成视频、支持多种尺寸图片输入、改善手势崩坏问题等,还提到模型目前的表现、字节跳动对其的保护措施以及即梦AI对该功能的后续安排等。
原创文章,作者:Wonderful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/11805.html