Manus实测:AI Agent行业的新里程碑,DeepSeek时刻再现?

   发布时间:2025-03-07 10:02 作者:顾青青

近期,一款名为Manus的AI Agent产品在网络上引发了广泛关注。从一夜爆红到一码难求,再到对其高额宣发费用的质疑,整个过程中,FOMO(错失恐惧症)情绪与直觉警惕相互交织,构成了一个极具研究价值的传播学案例。

近年来,AI行业似乎总是以“爆炸性”新闻的形式出现在公众视野中。对于这一领域有所了解的人来说,这些新闻已经失去了新鲜感;而对于门外汉,则依然感到新奇不已。不过,在这股“天天炸裂”的浪潮中,也确实不乏真正具有划时代意义的突破。

Manus,无疑是这些突破中的佼佼者。它被誉为AI Agent行业的DeepSeek时刻(此处特指具有里程碑意义的转折点),尽管在文章结尾,笔者将对此评价稍作补充。

为了直观展示Manus的能力,我们先来看一个演示案例:要求Manus开发一款文字互动游戏,玩家可扮演谷歌CEO,通过模拟公司历史上的重要决策,既能享受游戏乐趣,又能深入了解公司文化。

仅用了一个小时左右,Manus便完成了这款谷歌CEO模拟器的网页游戏开发。游戏完成度高,玩家可自选难度,面对谷歌历史上的各个转折点做出决策,从而影响公司的资源变化和最终结局。一个小时内,用一句话,做出一款游戏,这便是AI Agent的强大之处。

与传统的对话式AI不同,AI Agent不再局限于提供信息层面的答案,而是能够操作电脑完成更加具体的工作任务,如编写程序、制作网页、整理报告、筛选简历等。它能自主解决过程中遇到的各种困难,并交付工作结果。当然,也存在例外情况,但我们先按下不表。

目前,主流的AI Agent服务并不多,且价格普遍较高。例如,ChatGPT Operator的Pro会员费用为每月200美元,而主打编程市场的AI工程师产品Devin,每月费用更是高达500美元。相比之下,由中国大模型团队Monica开发的Manus,目前处于免费测试阶段,单任务成本仅需2美元,仅为OpenAI的十分之一。同时,在基准测试排行榜上,Manus已经超越OpenAI,成为全球最强。

笔者有幸获得邀请码,并在短时间内耗尽了Manus的单日计算资源。其效果之震撼,令人兴奋不已。以下是几个实测案例:

首先,笔者让Manus制作了一张linktree风格的个人主页。它将任务拆分为多个步骤,搜集全网资料信息,包括笔者在各个平台的链接及代表作,然后基于linktree的设计风格编写网页代码。半小时后,一个符合要求、交互无问题的作品便呈现在眼前。如果想做得更美观,还可继续写提示词让它修改。

第二个测试案例中,笔者用Manus帮助一位工程师群友解决了实际问题。他在工厂负责维护的阿特拉斯机械臂出现故障,找售后需花费数千元。于是,他直接给出了一段描述故障的文字,让Manus看看怎么处理。Manus自行前往阿特拉斯官网下载文档,读完之后找到关键内容,仔细分析并创建程序。最终,笔者将代码发给朋友,虽有小瑕疵但手工修改后完全可用,成功省掉了一次售后呼叫。

第三个测试案例中,笔者应微博读者要求,让Manus制作了一个国家的极简编年史,并增加了漫画表现和网页设计的要求。最终作品配色虽有些不尽如人意(AI缺乏审美需反复强调),但已将英国历史分为十个不同时代,并基于时代风貌绘制了SVG图片,呈现在HTML网页端。无论是作为课外教案还是作品预览,都极为便捷。

在最后一个案例中,笔者让Manus制作一款消消乐游戏,图标需使用原神角色。然而,在尝试搜集原神图片素材时,它遇到了障碍——被一个网盘会员制度拦住,无法注册账号下载资源。于是,它发出了接管请求。本着让AI Agent独立完成工作的原则,笔者稍改需求,改用科技公司logo做游戏图标。很快,一个带积分的消消乐游戏便制作完成,玩起来也算顺畅。

通过这些实测案例,我们不难发现AI Agent在现阶段的能力和局限。Manus已具备沙盒环境,能在完成工作前自行测试,验收合格再做交付。但受限于互联网数据边界,若网络资源不足,它无法自给自足生产资源。在解决复杂问题时,细节方面的缺失仍存在。

笔者还进行了一些偏文书类的测试,用以对比AI Agent的特点。例如,让Manus根据B站最热门的10个星见雅(游戏角色)视频,给出操作技巧。它足足看完了10个视频,再精炼成所需材料,相当准确。同样任务若交给联网大模型,虽也能完成,但幻觉产生概率较高,在“老实”程度上不及AI Agent。

再如,让Manus研究PolyMarket的套利可能。它兢兢业业做足功课,列出四个套利机会。从回放来看,它每次都从最基础信息切入,先了解PolyMarket是什么,再分析预测市场玩法,结合平台规则构建风险策略。标准的实习生作风,任劳任怨,踏实耐用。

Manus的回放设计也是其亮点之一。它类似于推理模型暴露思维链的选择,很多时候,AI的思考过程比答案本身更能给人启发。Manus的每个任务都有回放功能,且可被分享。它在解决问题过程中所展现的手段,完全称得上是另一种形式的智能资产,可扮演人类老师。

笔者之所以评价Manus为AI Agent行业的DeepSeek时刻(需打补丁为DeepSeek-V2时刻),是因为DeepSeek在开源V2版本模型时并未引起太多关注,仅因价格便宜且模型能力一般,被认为只是来打价格战。直到DeepSeek-V3和R1的连续发布,人们才意识到整个大模型市场的成本逻辑被颠覆。正如《流浪地球》所言:“最初,没有人在意这场灾难,这不过是一场山火,一次旱灾,一个物种的灭绝,一座城市的消失,直到这场灾难和每个人息息相关。”AI技术的发展是连续性的,而每一次的信号强度都决定了后面的突破深度。Manus在将AI Agent服务从专业场景带向通用场景的历史转折点上,无疑是开山立派的创始品牌。

 
 
更多>同类内容
全站最新
热门内容
本栏最新