在近日举行的酷+科技峰会科技创新专场活动中,RockAI公司的首席执行官刘凡平就人工智能领域的前沿话题发表了精彩演讲。他围绕“大模型与物理空间:从单体智能到群体智能”的主题,深刻剖析了当前大模型面临的挑战、群体智能的潜力以及未来的发展路径。
演讲伊始,刘凡平便直击要害,指出当前大模型存在的问题。他表示,现有大模型多依赖于海量数据和强大算力进行单体推理,这种模式缺乏合理性。与人类的学习模式不同,大模型无法在现实生活中实时学习和交互。Transformer架构在存储带宽、训练效果、多模态能力、实时性、能耗散热等方面均存在明显短板。即便是OpenAI等拥有充足算力和数据的巨头,也面临着算法层面的困境。Transformer架构的原作者及图灵奖得主如杨立昆、辛顿等也对其提出了质疑,包括Scaling Law极限问题和计算资源浪费等。
在这样的背景下,RockAI推出了首个国产化非Transformer架构——Yan架构。刘凡平介绍,Yan架构的多模态大模型在性能和效率上显著优于同类模型,可达到Llama3 8B的水平,同时训练效率更高,推理吞吐更大。更重要的是,它能在树莓派等多种低算力设备上部署,这得益于其创新的MCSD和类脑激活机制。类脑激活机制模拟人脑神经元激活模式,选择性激活部分参数,降低了算力依赖,实现了训练与推理的同步,从而大幅提升了模型性能。
刘凡平进一步指出,通用人工智能的终局将是群体智能。他强调,群体智能在自然界中广泛存在,人类社会的发展也离不开群体智能。而实现群体智能需要具备自主学习、人机交互和适配更多终端三个条件。RockAI在大模型领域率先提出了“群体智能”的概念,并找到了实现路径。他们认为,实现群体智能需要经历创新性基础架构、多元化硬件生态、自适应智能进化和协同化群体智能四个阶段。目前,RockAI正处于第三阶段,并坚持在算法层面进行创新。
在谈到Transformer架构时,刘凡平表示,尽管它存在诸多问题,但数据采集方式已使其具备了一定的智能涌现能力。如果将大模型引入物理世界,有望实现超指数级的智能化增长。然而,Transformer架构的大模型很难成为群体智能的单元大模型,因为其存储带宽限制、训练效果不佳、多模态能力的不确定性以及实时性等问题难以解决。因此,RockAI选择了非Transformer架构作为突破口。
刘凡平还分享了RockAI在算法层面的创新成果。他介绍,MCSD模块将Transformer架构的“发动机”变成了电机,提升了响应性能。而类脑激活机制则实现了在处理推理和训练时只有少部分功能被激活,从而降低了算力。这种算法层面的创新使得RockAI的模型能够在树莓派等低算力设备上部署,并且性能和效率均优于同类模型。
最后,刘凡平强调了自主学习能力对于大模型的重要性。他认为,自主学习能力是支撑人工智能下一步发展最关键的力量。而当前Transformer架构的大模型由于缺乏自主学习能力,无法在物理世界里持续进化。因此,RockAI致力于通过算法创新,让模型具备更强的自主学习能力,从而推动人工智能向群体智能的方向发展。