火山引擎在近期举办的视频云技术大会上,推出了一项针对大模型训练视频预处理的创新方案。该方案已被应用于豆包视频生成模型,显示出其在实际应用中的潜力。
火山引擎总裁谭待在会上表示,随着AIGC和多模态技术的发展,用户体验正在发生深刻变化。火山引擎视频云正积极探索AI大模型与视频技术的结合,旨在为企业解决技术、处理链路和业务增长层面的问题。
抖音集团视频架构负责人王悦指出,大模型厂商在视频预处理过程中面临多重挑战,包括庞大的数据集带来的计算和处理成本问题,视频样本质量的不一致,处理链路的复杂性,以及多种异构算力资源的调度和部署难题。
为了应对这些挑战,火山引擎依托自研的多媒体处理框架BMF,发布了这项大模型训练视频预处理方案。该方案能够充分利用Intel的CPU、GPU等不同资源,有效降低模型训练的算力成本。同时,通过算法和工程的优化,实现了对海量视频数据的高质量预处理,提升了模型训练效率。
火山引擎还发布了BMF lite版本,这是一个移动端后处理解决方案,支持端侧大模型接入和算子加速,更加轻量且通用。
豆包视频生成模型PixelDance于9月24日面世,采用DiT架构,并通过创新的扩散模型训练方法,解决了多主体运动复杂交互和多镜头切换的内容一致性难题。目前,该模型已通过火山引擎向企业开放邀测。