谷歌DeepMind发布AI“精灵”，可以即时创造可玩的游戏

2024.02.28

周一，谷歌的人工智能项目DeepMind展示了Genie，这是一个生成式人工智能模型，可以从简单提示中创建可玩游戏，它通过学习数十万个游戏视频的游戏机制来实现。

Genie是由谷歌和不列颠哥伦比亚大学合作开发的，全称为生成交互环境，它可以根据用户的提示（如超级马里奥兄弟和魂斗罗）创建侧面滚动的2D平台游戏，仅使用一张图片。

谷歌DeepMind表示：“过去几年出现了生成式人工智能，这些模型能够通过语言、图像甚至视频生成新颖和有创意的内容。今天，我们介绍了生成式人工智能的新范式：Genie。”

Genie可以从单张图片提示中创建交互式、可玩的环境，这得益于谷歌研究人员描述的潜在动作模型，该模型推断视频帧之间的动作，视频标记器将原始视频帧转换为离散标记，以及确定下一帧的动态模型。

谷歌DeepMind开发人员Tim Rocktäschel在Twitter上表示：“我们不是添加归纳偏差，而是专注于规模。我们使用了超过20万小时的2D平台游戏视频数据集，训练了一个110亿的世界模型…然后以无监督的方式，Genie学习了控制角色的多样潜在动作。”

Rocktäschel继续说，Genie还可以将其他媒体类型转换为游戏。在随附的谷歌DeepMind研究论文中，Genie可以根据各种输入提示生成各种可操作的虚拟世界。

Rocktäsche说：“我们的模型可以将任何图像转换为可玩的2D世界。Genie可以赋予生命人类设计的创作，比如来自Seneca和Caspian这两位有史以来最年轻的世界创作者的美丽艺术作品。”

虽然Genie擅长从文本或图像创建2D世界，Rocktäschel展示了这个人工智能模型不仅可以构建侧面滚动游戏，还包括教导其他人工智能模型或“代理人”有关3D世界的潜力。

他说：“我们还在没有动作的机器人数据（RT-1）上训练了一个Genie，并展示了我们也可以在那里学习一个可控制动作的模拟器。我们认为这是迈向通用世界模型的一个有希望的步骤。”

人工智能通用智能（AGI）又称为奇点，指的是一种能够理解并应用广泛任务学习知识的人工智能，类似于人类。

谷歌DeepMind表示，Genie的数据集是通过过滤公开可用的互联网视频生成的，具体包括那些包含“dpeedrun”或“playthrough”等标题的视频，同时排除了“movie”或“unboxing”等词语。

谷歌DeepMind表示，人工智能技术、硬件和数据集的进步已经使得能够创建连贯的对话语言和“清晰而美观”的图像。

研究人员继续说：“在选择关键词时，我们手动抽查结果，以确保它们通常生成的是2D平台游戏视频，而不是其他类型的视频，这些视频碰巧包含了类似的关键词。”

谷歌DeepMind表示：“有了Genie，我们未来的人工智能代理可以接受一个永无止境的新生成世界课程。在我们的论文中，我们证明了Genie学到的潜在动作可以转移到真实的人类设计环境，但这只是揭示了未来可能实现的可能性的冰山一角。”

去年OpenAI推出了GPT-4，这在很大程度上促使包括谷歌、微软和亚马逊在内的科技公司大举投资生成式人工智能。本月早些时候，谷歌宣布推出了基于订阅的Gemini AI模型，此前该模型经过重新品牌定位，从谷歌巴德改名而来。

免责声明:数字资产交易涉及重大风险，本资料不应作为投资决策依据，亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKx资讯仅提供信息参考，不构成任何投资建议，用户一切投资行为与本站无关。

相关推荐