AI大模型步入多模态时代,具身智能与机器人迎新突破!

   发布时间:2024-10-25 20:16 作者:任飞扬

在人工智能领域,莫拉维克悖论揭示了AI与人类认知能力之间的显著差异:复杂逻辑对AI来说相对容易,而基本的感知运动技能却需耗费巨大计算资源。这一悖论凸显了当前AI技术的局限性。

人类作为多模态生物,通过多种感官模式感知世界,并据此进行决策和行动。随着传感器融合和AI技术的演进,现代机器人也逐步配备多模态传感器,变得愈加智能。

![图片1: 机器人配备多模态传感器](图片链接1)

Transformer模型和大语言模型(LLM)的出现,推动了多模态AI的集成化发展,使得单个模型能同时处理多种数据类型,大幅提高了AI系统的综合感知能力。

2024年,多模态技术加速发展。OpenAI发布的Sora能根据文本描述生成视频,而GPT-4o则显著提升了人机交互性能,实现了音频、视觉和文本之间的实时推理。

![图片2: OpenAI发布的Sora和GPT-4o](图片链接2)

谷歌也不甘落后,发布了Gemini 1.5,大幅扩展了上下文长度,并探讨了Project Astra的未来愿景,这是一款能处理多模态信息的通用AI助手。

多模态LLM有望改变机器人的分析、推理和学习能力,推动机器人从专用转向通用,进而产生规模化的经济效应,被更多领域采用。

![图片3: 通用机器人](图片链接3)

在具身智能方面,尽管已取得一定进展,但仍需更轻便的设计、更长的运行时间以及更强大的边缘计算平台。人形机器人因形体与人类相似,有望在人类环境中驾轻就熟,执行所需操作。

Robotics Transformer(RT)正在快速发展,它可以将多模态输入直接转化为行动编码,展现出强大的泛化能力。

![图片4: Robotics Transformer](图片链接4)

Arm作为未来机器人技术的基石,提出机器人脑应为异构AI计算系统,以提供出色性能、实时响应和高能效。Arm处理器已广泛应用于机器人领域,期待与生态系统合作,共同推动AI机器人发展。

![图片5: Arm处理器在机器人领域的应用](图片链接5)

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群