巨人网 > 企业 > 正文内容

李彦宏坚称不做视频生成模型，大厂到底要不要做Sora？

发布时间：2024-10-23 09:00 来源：江瀚视野作者：江紫萱

最近几年，人工智能的高速发展带来了整个市场的全面变革，除了大家熟悉的大模型之外，以Sora为代表的视频生成模型也非常受到市场的关注，不过就在最近李彦宏坚称不做视频生成模型，我们该怎么看这件事？

一、李彦宏坚称不做视频生成模型

据界面新闻的报道，百度CEO李彦宏称“百度不做Sora”的演讲被媒体曝光后，有关“中国版Sora到底值不值得做”的话题又在微博、小红书等社交媒体引发众多争论。

李彦宏在内部讲话中称，Sora这种视频生成模型的投入周期太长，10年、20年都可能拿不到业务收益，无论多火爆，百度都不去做。

反对的声音认为，这属于百度自身业务的问题。国内目前在视频生成模型上最有希望的公司是快手和字节跳动，二者的业务离视频更近，待其视频生成足够优秀之后会快速完成拉新，并带动用户体验提升。

快手和字节跳动是国内互联网大厂中积极布局视频生成大模型的公司。Sora发布后，快手便推出文生视频大模型“可灵”，其背后的技术原理和OpenAI的Sora类似，都是把常用于视频生成人工智能的扩散模型与Transformer架构相结合，依托于快手短视频平台，拥有大量可用于训练的视频数据。“可灵”发布几个月之后，字节跳动旗下火山引擎发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。

除字节跳动和快手之外，今年发布视频生成模型的公司还包括阿里云、Minimax、生数科技、智谱AI等公司。

二、大厂到底要不要做Sora？

近来，李彦宏坚称不做视频生成模型的决策，引发了广泛的讨论。究竟大厂要不要做视频生成模型，成为了一个值得深入探讨的问题，我们该怎么看这件事？

首先，李彦宏的判断首先基于一个不容忽视的事实：视频生成模型的算力需求极为庞大。相比于文本生成模型，视频内容因其包含的动态信息丰富性，对模型的计算能力和存储需求呈指数级增长。以Sora模型为例，其作为视频生成领域的佼佼者，训练和推理阶段所需的算力分别达到了GPT-4的4.5倍和近400倍。这一数据直观地揭示了视频生成模型在算力上的“黑洞效应”，对任何一家科技公司而言，都是一项巨大的资源投入。

更重要的是，随着视频数据量的爆炸式增长，对计算效率和成本的控制成为了制约视频生成技术普及的关键因素。对于大厂而言，计算成本和效率的平衡是至关重要的。在资源有限的情况下，必须谨慎地选择投入的方向，以确保获得最大的回报。

其次，对于百度而言，其在AI领域的布局已经形成了较为清晰的生态位。文心大模型作为百度的核心竞争力之一，通过在自然语言处理、图像识别等领域的深耕，已经构建起了一定的市场壁垒和用户基础。在此情境下，李彦宏选择不涉足视频生成模型，可能是基于对现有资源分配的深思熟虑。

一方面，将宝贵资源投入到仍处于初级阶段的视频生成模型上，可能会分散百度在文心大模型优化、应用拓展等方面的精力，影响其在已建立优势领域的深化布局。另一方面，视频生成模型的商业化路径尚未清晰，短期内难以形成有效的收入流，这对于任何一家企业而言，都是需要考虑的风险因素。

第三，大厂要不要做视频大模型，关键在于如何判断趋势。目前，视频大模型在商业化上的形势仍然不够明朗。虽然视频市场具有巨大的潜力，但视频大模型的商业化面临着诸多挑战。

一方面，视频大模型的技术发展仍处于初级阶段。虽然生成式 AI 技术为视频生成带来了新的可能性，但目前视频大模型的生成效果还不能完全满足用户的需求。例如，视频的画质、流畅度、内容的丰富度等方面还有待提高。

另一方面，视频大模型的商业化模式尚未明确。目前，视频大模型的应用场景主要集中在一些特定的领域，如影视制作、广告制作等。但这些领域的市场规模相对较小，且竞争激烈。同时，视频大模型的版权问题、内容审核等问题也给商业化带来了一定的困难。在这种情况下，大厂需要谨慎地评估视频大模型的商业化前景，避免盲目投入资源。