在AI领域,一个名为DeepSeek的新兴公司正以其卓越的技术实力和超高的性价比引发全球关注。与此同时,一位被誉为AI“天才少女”的年轻开发者罗福莉,也因其对DeepSeek关键项目的贡献而声名鹊起。
DeepSeek最新发布的DeepSeek-V3大语言模型,以其出色的性能和极低的训练成本,在业界掀起了一场风暴。据悉,该模型的参数量高达671B,激活参数为37B,使用的预训练token量更是达到了惊人的14.8万亿。在多项评测中,DeepSeek-V3超越了包括阿里的Qwen2.5-72B和meta的Llama-3.1-405B在内的多个开源模型,其性能与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。
尤为引人注目的是,DeepSeek-V3的训练成本仅为600万美元左右,相比之下,meta的Llama-3405B的训练成本高达6000万美元以上。这一极高的性价比,使得DeepSeek-V3一经发布便赢得了国内外广泛赞誉。meta的AI研究科学家田渊栋称赞道:“在非常有限的预算下实现强劲表现,这是一项了不起的工作。”
DeepSeek的创始人梁文锋,是一位毕业于浙江大学电子工程系的80后技术专家。他带领团队以200人左右的小规模,不依赖外部融资,成功研发出了被全球主流AI界认可的大模型。梁文锋表示,他们之所以能够做到这一点,一是因为早期投入了大量资源购买算力卡进行研究;二是因为他们专注于量化领域,没有大厂的其他盈利需求,能够更专注于模型开发。
而在这场AI风暴中,罗福莉的名字也格外耀眼。作为DeepSeek开源大模型DeepSeek-V2的关键开发者之一,罗福莉以其卓越的技术能力和对AI的深刻理解,为DeepSeek的成功做出了重要贡献。据报道,小米创始人雷军已以千万年薪将罗福莉招至麾下,她将领导小米AI实验室的大模型团队。
罗福莉的学术背景同样令人瞩目。她本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。在硕士期间,她就在人工智能领域顶级国际会议ACL上发表了多篇论文,展现了其非凡的学术实力。毕业后,她先后进入阿里达摩院和幻方量化从事AI相关研究,后又加入DeepSeek担任深度学习研究员。
对于小米而言,罗福莉的加入无疑是一个重要的里程碑。小米近年来在AI领域持续发力,组建了AI实验室大模型团队,并不断提升算力储备。小米的元老级技术大牛张铎担任AI平台部负责人,致力于推动小米在AI大模型领域的突破。雷军表示,小米做大模型的思路与众不同,选择主力突破的是轻量化和本地部署。而罗福莉的加入,无疑将为小米在AI领域的探索注入新的活力。