谷歌DeepMind新突破:图像文字秒变可玩3D世界,马斯克会加入吗?

   发布时间:2024-12-05 18:03 作者:柳晴雪

近日,谷歌DeepMind发布了一款名为Genie 2的突破性基础世界模型,此模型能够将图像或文字描述转化为可供人类和AI智能体互动的3D场景。

用户只需输入一张由Imagen 3生成的图片及相应文字,Genie 2即可快速生成一个可交互的3D环境。在这个环境中,用户能够自由探索,体验最长可达一分钟的沉浸式场景。这种体验通过鼠标和键盘即可实现。

Genie 2不仅保持了生成环境的一致性,还能在用户移动时精确呈现视野变化中的细节。该模型能够模拟物体交互、动画效果、光照、物理反射以及NPC行为,许多场景画质堪比3A级游戏,且在物体视角一致性和场景记忆方面表现尤为出色。

DeepMind CEO在发布后邀请马斯克共同制作AI游戏,马斯克对此表示了兴趣,简短回复“Cool”。

谷歌研究人员Jack Parker-Holder展示了Genie 2的实际应用案例。在一张包含红门和蓝门的图片中,通过输入不同的语言指令,模型能够生成不同的3D场景,允许用户选择走向红门或蓝门。

在更复杂的三门场景中,Genie 2依然能够准确理解指令并生成相应的3D动画,展现了其强大的理解和生成能力。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群