在2024年的冬日里,国产AI技术再次迈出了令人瞩目的一步,彻底改变了我们与技术的互动方式。11月29日,智谱AI的技术开放日上,发生了一场科技界的“奇迹”:AI首次成功发出了红包。
智谱AI的CEO张鹏,仅仅凭借三句语音指令,就让旗下的智能体AutoGLM跨越了微信、支付宝等多个应用平台,为现场及线上的观众送上了两个大红包。这一幕,不仅令人惊叹,更标志着AI Agent技术的重大突破。
传统的AI助手往往停留在被动响应和单一场景交互的层面,而AutoGLM却能主动理解复杂指令,跨应用协同,并精准执行用户意图。除了发红包,它还能行云流水般自主执行多个复杂操作的长任务,比如订外卖时跨多个APP比价。
然而,这只是智谱AI在2024年取得的众多成就之一。今年7月,智谱AI发布了代码生成大模型CodeGeeX第四代,支持代码补全、注释、修复和翻译等基础功能。7月末,视频生成模型“智谱清影”也正式亮相,能生成时长6秒、清晰度达1440×960的视频。
到了10月,智谱AI又推出了端到端语音模型GLM-4-Voice,并进行了开源。这款模型与GPT-4的语音功能相似,能够进行实时语音对话,同时在情绪表达和多语言方面实现了突破,且支持随时打断。
智谱AI在代码、多模态、Agent等多个方向上进行了全面布局,展现了其追赶全球AI巨头的决心。然而,这种广泛的技术覆盖也引发了一些思考:在体量和资本均不及OpenAI等巨头的情况下,智谱AI能否在各个领域都保持深耕?
在今年的AI赛道上,智谱AI虽然布局广泛,但在每一条战线上的表现都相对“平均”,其产品方向更趋向于跟随,而鲜少有独创性的突破。以智谱AI最近发布的旗舰大模型GLM-4-Plus为例,这款模型定位类似OpenAI的GPT-4,虽然在深度推理、长文本处理和指令遵循等方面表现出色,但并未形成绝对优势。
智谱AI的B端客户主要集中在金融、教育、能源、通信等行业,这些客户更需要性价比高、易集成且灵活的模型,而非动辄需要高算力支持的深度推理大模型。因此,GLM-4-Plus这种“类GPT-4”的深度推理模型,与智谱AI的生态定位发生了错位。
智谱AI在多模态方向上的布局也反映了其“定位迷失”。智谱AI在2024年发布的多模态语音助手功能,试图在C端应用领域拓展新场景。然而,与科大讯飞和字节跳动的同类产品相比,智谱AI的多模态语音助手并未体现出亮眼的差异。
科大讯飞在语音领域深耕多年,其语音识别、翻译和场景化应用不仅成熟,而且在实际场景中有良好的落地率。字节的“豆包”则依托强大的内容生态,具有将语音AI应用到社交、娱乐和短视频生成等消费级场景中的潜力。相比之下,智谱AI的多模态语音助手和视频生成功能都显得逊色不少。
智谱AI的“博而不精”现象,反映出其在B端与C端两个方向上出现了摇摆。智谱AI的整体战略更偏向于B端市场,但今年却试图在C端打造多模态互动的超级应用,形成了“两头抓”的战略。然而,在资源有限的情况下,这一策略最终导致了资源分散,难以形成突出的竞争优势。
实际上,这种多线进军的策略透露出智谱AI在商业化困境下的“无奈突围”。为了应对同行的价格压制,智谱AI将模型调用价格降低到行业最低水平,这种激进的降价策略导致利润空间进一步被压缩。为了活下去,智谱AI只能依靠融资,但资本对于国内大模型厂商的态度逐渐冷静下来,要求证明商业化能力。
在这样的背景下,智谱AI接连发布了AI生成视频模型“清影”、情感语音模型GLM-4-Voice以及AI助理工具AutoGLM等,希望通过追逐技术热点来吸引市场关注。然而,纵观整个AI行业,即使在大模型商业化困难的瓶颈期,也并非没有其他选择。
例如,OpenAI的劲敌Anthropic就明确聚焦于机制可解释性和AI对齐问题,通过“宪法AI”的理念改进AI的安全性和伦理性。这种专注不仅增强了其科研资源的深度与质量,也吸引了对该领域有长期投资意愿的资本。相比之下,智谱AI等国产大模型厂商普遍陷入“追热点”的困境,本质上是中国技术创新生态尚未形成对“慢变量”的充分理解和尊重。