近日,智谱科技在其官方渠道宣布了一项重大进展,正式推出了GLM-4-32B-0414系列模型,这一系列模型拥有高达320亿参数,性能直逼业界领先的OpenAI GPT系列及DeepSeek的V3/R1系列。尤为引人注目的是,GLM-4-32B-0414系列模型还提供了极为友好的本地部署选项,为用户带来了更多便利。
GLM-4-32B-0414系列模型家族包括了GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414以及GLM-Z1-9B-0414四款各具特色的模型。其中,GLM-4-32B-Base-0414在预训练阶段采用了15T的高质量数据,特别注重推理类合成数据的引入,为后续的优化打下了坚实基础。在后训练阶段,该模型针对对话场景进行了人类偏好对齐,并通过拒绝采样和强化学习等技术,在指令遵循、工程代码、函数调用等方面实现了显著提升。
GLM-4-32B-0414在工程代码、Artifacts生成、函数调用、搜索问答及报告等多个领域均展现出了出色的性能,部分Benchmark测试中的表现甚至可以与规模更大的GPT-4o、DeepSeek-V3-0324(671B)等模型相媲美。这一成就不仅体现了智谱科技在AI技术上的深厚积累,也为其在市场竞争中赢得了更多优势。
GLM-Z1-32B-0414则是在GLM-4-32B-0414的基础上,通过冷启动和扩展强化学习,以及针对数学、代码和逻辑等任务的进一步训练,打造出的具有深度思考能力的推理模型。该模型在数理能力和解决复杂任务方面相较于基础模型有了显著提升,并且在训练过程中引入了基于对战排序反馈的通用强化学习,进一步增强了其通用能力。
GLM-Z1-Rumination-32B-0414则是一款具有沉思能力的深度推理模型,其设计初衷是解决更开放和复杂的问题。该模型结合了搜索工具来处理复杂任务,并通过多种规则型奖励来指导和扩展端到端强化学习训练,从而在撰写对比报告、发展规划等任务中展现出了强大的能力。
GLM-Z1-9B-0414则是一款开源的9B小尺寸模型,尽管体积较小,但在数学推理和通用任务中依然展现出了卓越的性能。其整体表现已处于同尺寸开源模型中的领先地位,为那些对计算资源有限制的用户提供了高性能的AI解决方案。
在多项基准测试中,GLM-4系列模型均表现出了优异的性能。例如,在IFeval指令遵循测试中得分高达87.6;在TAU-Bench任务自动化测试中,零售场景得分68.7,航空场景得分51.2;在SimpleQA搜索增强问答测试中得分88.1。在代码修复方面,GLM-4在SWE-bench测试中的成功率也达到了33.8%。这些成绩不仅证明了GLM-4系列模型的强大实力,也为其在AI领域的广泛应用奠定了坚实基础。
值得注意的是,GLM-4系列模型还采用了MIT许可,降低了计算成本,为研究和企业提供了更多选择和便利。这一举措无疑将推动AI技术的进一步发展,为各行各业带来更多创新和变革。