在2024年的冬日里,国产AI领域迎来了一次令人瞩目的技术革新。智谱AI,这家在业界逐渐崭露头角的公司,于11月29日的技术开放日上,通过其CEO张鹏的三句简单语音指令,实现了AI历史上的首次跨应用红包发放。
张鹏在现场演示中,仅凭语音指令便指挥智谱AI的智能体AutoGLM跨越微信、支付宝等多个平台,向线上线下观众发送了红包。这一壮举不仅展示了AutoGLM强大的跨应用协同能力,也标志着AI Agent技术的一次重大突破。
今年的智谱AI在多个技术领域都取得了显著进展。7月,智谱AI发布了第四代代码生成大模型CodeGeeX,支持代码补全、注释、修复和翻译等基础功能。随后,在7月末,智谱AI又推出了视频生成模型“智谱清影”,能够生成时长6秒、清晰度达1440×960的视频。
到了10月,智谱AI再次发力,推出了端到端语音模型GLM-4-Voice,并实现了开源。这款模型能够进行实时语音对话,同时在情绪表达和多语言支持方面取得了突破,用户可以随时打断对话,灵活性极高。
然而,在智谱AI看似全面的技术进展背后,也隐藏着一些隐忧。今年,智谱AI在AI领域的布局非常广泛,但在每一条战线上的表现都相对平均,缺乏独创性的突破。以智谱AI最近发布的旗舰大模型GLM-4-Plus为例,该模型定位为一种深度推理模型,虽然在深度推理、长文本处理和指令遵循等方面表现突出,但并未形成绝对的优势。
智谱AI的B端客户主要聚焦于金融、教育、能源、通信等行业,这些客户更需要性价比高、易集成且灵活的模型,而非高算力支持的深度推理大模型。因此,GLM-4-Plus的定位与智谱AI的生态定位之间存在一定的错位。
智谱AI在多模态方向上的布局也反映出其定位迷失的问题。智谱AI在2024年发布的多模态语音助手功能,虽然融合了实时语音、视频通话和多模态理解技术,试图在C端应用领域拓展新场景,但与科大讯飞和字节跳动的同类产品相比,智谱AI的表现并不突出。
智谱AI的视频生成功能虽然支持高清、多通道输出,但生成的视频质量并不理想,存在古怪、扭曲和运动错误等问题。例如,在输入提示词生成海滩上机器人和猫散步的视频时,智谱AI的视频生成模型中出现了两个机器人,且它们以螃蟹般的奇怪方式移动,画面中的猫也出现了器官换位等诡异现象。
智谱AI的这种“博而不精”的现象,反映出其在B端与C端两个方向上出现了摇摆。智谱AI的整体战略更偏向于B端市场,但其今年多线布局的策略却表明其既希望拓展ToB市场,又想在C端打造多模态互动的超级应用。在总体资源不及OpenAI和BAT等巨头的情况下,这一策略导致智谱AI资源分散,难以在一个方向上形成突出的竞争优势。
为了应对同行的价格压制和激烈的市场竞争,智谱AI采取了激进的降价策略,将模型调用价格降低到行业最低水平。这种降价策略虽然吸引了客户,但进一步压缩了利润空间,使得智谱AI只能依靠融资来维持运营。然而,在资本对于国内大模型厂商态度逐渐冷静的情况下,智谱AI想要拿到新一轮融资,必须证明自己商业化的能力。
智谱AI的多线布局策略,实际上是在商业化困境下的无奈突围。然而,这种策略也折射出中国AI创新生态与投资环境中“快”比“深”更受青睐的现实。智谱AI等国产大模型厂商普遍面临“追热点”的困境,本质上是一个“囚徒困境”。每家企业都知道深耕细作的重要性,但在激烈的市场竞争和资本压力下,不得不选择更激进的策略。