【巨人财经】11月17日消息,科技领域再迎新进展。我国百川智能与鹏城实验室宣布强强联手,共同探索大模型训练和应用,合作研发了基于国产算力的128K长窗口大模型——“鹏城-百川•脑海33B”。这标志着国产算力大模型的创新和应用取得重要突破,为我国大模型技术的发展树立了积极示范。
众所周知,大模型训练对海量算力的需求巨大,而大模型性能的竞争与算力的提升密不可分。在国际环境的复杂挑战下,我国国内算力供需的差距不断扩大,因此国产算力成为大模型企业的必然选择。
据巨人财经了解,国内多家企业在通用AI芯片领域取得进展,但在基于国产算力训练大模型方面,仍然面临着生态建设、成本控制、能效比优化等问题。因此,百川智能和鹏城实验室的合作意义重大,为国产算力大模型的研发和应用提供了有力支持。
鹏城实验室秉持“国产算力+自主大模型”的创新理念,通过“鹏城•脑海”开源联合体,广泛合作企业、高校和科研机构,致力于通过开源合作为各行各业引入人工智能。百川智能作为大模型领域的领军企业,一直在推动大模型研发和开源生态建设,双方合作势必发挥各自优势,更好地满足我国智能化转型的需求,推动中国人工智能产业蓬勃发展。
百川智能表示,通过开源和合作,他们希望助力中国大模型的创新,促进本土大模型生态的繁荣。而鹏城实验室,作为国家战略科技力量的关键组成部分,一直在国内处于领先位置。这次合作推出的“鹏城-百川•脑海33B”大模型,是国产算力大模型技术创新和实际应用上的一项突破。未来,百川智能将在技术和算力等多方面深化与鹏城实验室的合作,持续推动本土大模型的创新发展。
在论坛上,百川智能和鹏城实验室展示了他们共同研发的“鹏城-百川•脑海33B”大模型。这一模型的128K长上下文窗口基于“鹏城云脑”国产算力平台训练,未来还有望升级至192K,成为基于国产算力训练的最长上下文窗口之一。
上下文窗口的长度对于模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。更长的上下文窗口能够提供更丰富的语义信息,减少歧义,从而让模型生成的内容更为准确和流畅。
为提升“鹏城-百川•脑海33B”模型的上下文窗口长度和整体性能,双方进行了全流程的优化。在数据集构建方面,他们采用了精细的数据构造,实现了段落和句子粒度的自动化数据过滤、选择和配比,提高了数据质量。在训练架构上,通过自研或引入业界领先的模型训练优化技术,对Transformer模块进行了深度优化,保证模型的收敛稳定性,全面提升了模型的优化效率和最终效果。此外,在模型工具集方面,与北京大学王亦洲、杨耀东老师团队的合作创新了带安全约束的RLHF对齐技术,有效提升了模型内容生成质量和安全性。
展望未来,百川智能和鹏城实验室将在国产算力大模型技术创新和实际应用等方面进一步加强合作,与北京大学、清华大学等相关领域的优势单位展开协同创新,助力本土大模型在性能和技术创新方面不断突破,推动本土大模型的进一步开源,为更多行业的智能化转型提供支持和助力。