近日,谷歌DeepMind发布了一款名为Genie 2的突破性基础世界模型,此模型能够将图像或文字描述转化为可供人类和AI智能体互动的3D场景。
用户只需输入一张由Imagen 3生成的图片及相应文字,Genie 2即可快速生成一个可交互的3D环境。在这个环境中,用户能够自由探索,体验最长可达一分钟的沉浸式场景。这种体验通过鼠标和键盘即可实现。
Genie 2不仅保持了生成环境的一致性,还能在用户移动时精确呈现视野变化中的细节。该模型能够模拟物体交互、动画效果、光照、物理反射以及NPC行为,许多场景画质堪比3A级游戏,且在物体视角一致性和场景记忆方面表现尤为出色。
DeepMind CEO在发布后邀请马斯克共同制作AI游戏,马斯克对此表示了兴趣,简短回复“Cool”。
谷歌研究人员Jack Parker-Holder展示了Genie 2的实际应用案例。在一张包含红门和蓝门的图片中,通过输入不同的语言指令,模型能够生成不同的3D场景,允许用户选择走向红门或蓝门。
在更复杂的三门场景中,Genie 2依然能够准确理解指令并生成相应的3D动画,展现了其强大的理解和生成能力。