火山引擎出新方案,大模型训练视频预处理已落地豆包!

   发布时间:2024-10-15 16:02 作者:沈瑾瑜

在视频云技术大会上,火山引擎推出了一项针对大模型训练视频预处理的新方案,该方案已被应用于豆包视频生成模型。火山引擎总裁谭待在活动中表示,受AIGC和多模态技术推动,用户体验正经历深刻变革。他强调,火山引擎视频云正基于抖音业务实践,探索AI大模型与视频技术的深度融合,旨在从技术底座、处理链路和业务增长层面为企业提供解决方案。

预处理训练视频是确保大模型训练效果的关键步骤。通过预处理,可以统一视频数据格式、提升数据质量、实现数据标准化、减少数据量以及处理标注信息,使模型能够更高效地学习和提取视频中的特征和知识,从而提升训练效果和效率。

抖音集团视频架构负责人王悦指出,大模型厂商在视频预处理过程中面临多重挑战,包括超大规模视频训练数据集带来的高昂计算和处理成本、视频样本数据的质量参差不齐、处理链路环节众多且工程复杂,以及需要调度部署多种异构算力资源,如GPU、CPU和ARM。

为了应对这些挑战,火山引擎依托自研的多媒体处理框架BMF,发布了新的大模型训练视频预处理方案。该方案能够有效降低模型训练的算力成本,同时在算法和工程方面进行了优化,能够高质量地预处理海量视频数据,并在短时间内实现处理链路的高效协同,从而提升模型训练效率。火山引擎还发布并开源了BMF lite版本,这是一个移动端后处理解决方案,支持端侧大模型接入和算子加速,更加轻量且通用。

豆包视频生成模型PixelDance于9月24日发布,采用DiT架构,并通过高效的DiT融合计算单元和全新设计的扩散模型训练方法,解决了多主体运动的复杂交互和多镜头切换的内容一致性难题。目前,豆包视频生成模型已通过火山引擎向企业开放邀测。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群