DeepSeek火爆背后：开源社区，国产大模型的强大支撑？

发布时间：2025-02-05 06:04 来源：南方都市报作者：沈如风

在刚刚过去的春节假期，一款名为DeepSeek的中国国产大模型意外走红，成为了科技领域的话题焦点。这款大模型不仅引起了业界的广泛关注，还深入到了普通人的生活与工作中。

DeepSeek的发布可以追溯到1月20日，由中国大模型公司深度求索推出其推理大模型DeepSeek-R1。该模型的发布迅速在业界引起了轰动，仅仅一周后的1月27日，DeepSeek应用便成功登顶苹果中国区和美国区应用商店的免费App下载排行榜。紧接着，在1月31日，美国科技巨头英伟达、亚马逊和微软在同一天宣布接入DeepSeek-R1，进一步彰显了其影响力。

DeepSeek的成功不仅仅是AI领域的一次突破，更是一次破圈现象。它不仅在技术上达到了国际先进水平，更重要的是，其可用程度和完成度极高，引发了广泛的讨论，从而吸引了众多普通人的关注。这款大模型的出现，让AI技术更加贴近人们的生活，成为了他们日常工作和生活的一部分。

DeepSeek的成功也体现了国产大模型的能力。它不仅展示了中国AI技术的实力，还有望追赶甚至反超世界先进水平。DeepSeek还大幅降低了AI模型的训练成本。据悉，其R1模型的训练成本仅为557.6万美元，相比之下，OpenAI的GPT模型训练成本则高达1亿美元。

面对DeepSeek所取得的成就和业界的广泛赞誉，深度求索（DeepSeek）的创始人梁文锋却表现得十分谦逊。他表示：“我们不过是站在开源社区巨人们的肩膀上，给国产大模型这栋大厦多拧了几颗螺丝。”梁文锋所提到的“巨人”——开源社区，即开放源代码，它允许用户利用源代码进行修改和学习，为技术的发展提供了巨大的推动力。

开源策略不仅具有世界大同的美好愿景，同时也承载着利益动机。通过开源，可以吸引全球开发者和研究者的关注，形成一个强大的技术社区。这个社区具备敏捷性和协作优势，能够形成“技术共享-生态繁荣-反哺创新”的正向循环。因此，在竞争中处于弱势的一方往往会选择开源策略来扭转局势。在计算机行业中，一个封闭的生态往往对应着一个开放的、开源的生态。

如今，开源已经成为AI迅猛发展的助推剂。meta首席人工智能科学家、2018年图灵奖得主杨立昆在评价DeepSeek时指出：“与其说是中国在人工智能上超越美国，不如说是开源代码正在超越私有模式。DeepSeek从开放研究和开放源码中受益良多，例如meta的PyTorch和LLaMA等项目。”

实际上，meta在推动AI大模型开源方面发挥了重要作用。从LLaMA大模型到图像分割模型Segment-Anything，meta开源的项目覆盖了各种模态和场景。其中，LLaMA是最强大的开源大模型之一。2023年7月，meta发布的LLaMA2更是将开源协议从“仅研究可用”转向“免费可商用”，虽然催生了一大批“套壳大模型”，但也改变了大模型竞争中OpenAI独占鳌头的格局。在这些开源大模型中，DeepSeek无疑是最强大的之一。

DeepSeek的成功验证了开源模型可以接近甚至达到闭源性能的水平，这反过来将促使meta等巨头加大对开源AI的投入。最近，meta又开源了多个AI项目，包括图像分割模型SAM 2.1、多模态语言模型Spirit LM等，进一步提升了AI在图像处理和语音识别领域的能力。

然而，尽管开源促进了AI的迅猛发展，但我们也应该看到其中的隐忧。开源的本质是用开放促效率，但在当今世界，效率在很多时候已经不再是第一位的考虑。AI技术是由软硬件两方面构成的，在硬件逐渐走向封闭的同时，软件的开源是否也会走向封闭？这是一个值得中国AI界深思的问题。因此，我们需要提前做好应对之策，用创新和开放来回应封闭的挑战，正如DeepSeek所做的那样。

更多>同类内容