火山引擎出新方案，大模型训练视频预处理已落地豆包！

发布时间：2024-10-15 16:02 来源：ITBEAR 作者：沈瑾瑜

在视频云技术大会上，火山引擎推出了一项针对大模型训练视频预处理的新方案，该方案已被应用于豆包视频生成模型。火山引擎总裁谭待在活动中表示，受AIGC和多模态技术推动，用户体验正经历深刻变革。他强调，火山引擎视频云正基于抖音业务实践，探索AI大模型与视频技术的深度融合，旨在从技术底座、处理链路和业务增长层面为企业提供解决方案。

预处理训练视频是确保大模型训练效果的关键步骤。通过预处理，可以统一视频数据格式、提升数据质量、实现数据标准化、减少数据量以及处理标注信息，使模型能够更高效地学习和提取视频中的特征和知识，从而提升训练效果和效率。

抖音集团视频架构负责人王悦指出，大模型厂商在视频预处理过程中面临多重挑战，包括超大规模视频训练数据集带来的高昂计算和处理成本、视频样本数据的质量参差不齐、处理链路环节众多且工程复杂，以及需要调度部署多种异构算力资源，如GPU、CPU和ARM。

为了应对这些挑战，火山引擎依托自研的多媒体处理框架BMF，发布了新的大模型训练视频预处理方案。该方案能够有效降低模型训练的算力成本，同时在算法和工程方面进行了优化，能够高质量地预处理海量视频数据，并在短时间内实现处理链路的高效协同，从而提升模型训练效率。火山引擎还发布并开源了BMF lite版本，这是一个移动端后处理解决方案，支持端侧大模型接入和算子加速，更加轻量且通用。

豆包视频生成模型PixelDance于9月24日发布，采用DiT架构，并通过高效的DiT融合计算单元和全新设计的扩散模型训练方法，解决了多主体运动的复杂交互和多镜头切换的内容一致性难题。目前，豆包视频生成模型已通过火山引擎向企业开放邀测。

更多>同类内容