即梦AI在其官方社交媒体平台上近日发布了一段引人注目的新功能预告视频,揭示了一项名为OmniHuman的创新多模态视频生成模型。该模型仅需用户输入一张图片和一段音频,即可自动生成一段生动逼真的AI视频,这一突破有望极大地提升AI短片的生产效率和视觉质量。
据即梦AI视频号发布的内容截图显示,OmniHuman是由字节跳动自主研发的闭源模型。该模型能够处理包括肖像、半身照及全身照等不同尺寸的图片输入,并依据用户提供的音频内容,自动为视频中的人物生成相应的动作,如演讲、歌唱、乐器演奏以及身体移动等。尤为OmniHuman在解决人物视频生成中常见的手势失真问题上,相较于现有技术有了显著提升。
不仅如此,OmniHuman还支持动漫、3D卡通等非真人图片的输入,并能保持这些特定风格及原有的运动模式,生成的视频效果同样出色。从技术主页上的演示效果来看,OmniHuman所生成的视频已经具备了高度的自然度和逼真感。
然而,为防止这项技术被滥用,字节跳动技术团队明确表示,OmniHuman将不会对外提供下载服务。即梦AI的相关负责人透露,尽管OmniHuman模型已经展现出了良好的性能,但在生成达到影视真实级别的视频方面,仍有待进一步提升。因此,该模型支持的多模态视频生成功能将首先在即梦平台上以小规模内测的形式进行调优和完善,并逐步向更广泛的用户开放。
为确保AI技术的正面应用和积极影响,即梦AI不仅设置了严格的安全审核机制,还将在输出的视频上标注水印以作提醒。这一举措旨在助力视频创作者更好地实现创意表达,同时确保技术的使用符合道德和法律规范。