论文解读系列：Generative World Explorer (Genex)

这次我们来看这一篇论文《Generative World Explorer (Genex)》。还是老样子，先给出论文的链接：

论文：https://arxiv.org/pdf/2411.11844

代码：https://github.com/Beckschen/genex

网站：https://generative-world-explorer.github.io/

1. 研究背景

这个应该是CV领域里面中一个比较常见的问题，在很多的人工智能任务中，AI 通常只能部分观察环境，例如，在无人驾驶中，车辆前方可能被遮挡，AI 无法直接看到障碍物或其他车辆的具体行为。好比你在一个双向车道的路上开车，你要超前面那辆大货车，但是要超车的话你就得借到行驶，此时你前面的视野被大货车挡道，你的AI根本没法看清对面车道的情况，没法带你的车去超前面的大货车，有可能车头刚出去对面就来了一辆车，然后你就寄了，全责没跑的。

传统方法就是要求 AI 通过物理探索来获取新的视图（实践检验真理是吧org）。这种方式存在以下问题：

效率低：探索过程需要花费大量时间。
不安全：在某些情况下（如交通场景），实际探索可能导致事故。
高成本：例如机器人探索需要额外的硬件和能源。

灵感来源：

作者创作的灵感来自于我们平时自身的想象力，不是说作者突然想像到这个方法，而是说作者借助想像这样一种思路，人类可以通过想象和推测来理解环境并更新对世界的认知，那么也可以让AI“充满想像”，其实就是让AI去对接下来的环境做一个推理，然后做出决策。例如：

在一个路口，如果看到前方的出租车突然停下，人类可以想象它可能是为了让路给救护车，从而迅速决定改变路径。
这种“心智模拟”（mental simulation）使得人类能够在不亲自观察或行动的情况下，依然有效决策。

研究目标：

这篇文章的研究目标，就是设计一种生成式世界探索方法，让 AI 能通过“虚拟探索”推测未观察到的场景，从而更新其认知和决策能力。

2. 核心方法：Generative World Explorer (Genex)

Genex 的核心在于使用生成式视频模型来完成虚拟探索。它通过训练生成高质量的全景视频，帮助 AI 更新对环境的理解，最终优化决策过程。（就不清楚有多高质量了，毕竟在现实社会里面什么情况都有可能突然发生）

2.1 框架设计

(1) 宏观设计

Genex 支持以下两种探索方式：

无目标的自由探索：
- 这一步的目的是帮助 AI 全面理解周围环境。
- 举例：假设一个家庭机器人需要了解房间布局。它可以想象自己走到未观察区域，比如墙角或沙发后面，生成相应的视图来完善对房间的理解。
目标导向的探索：
- 这种探索方式是给定具体的目标，AI能够通过获得的线索，模拟各种视图情况，然后生成针对性的探索路径。
- 举例：在无人驾驶中，AI 需要移动到蓝色汽车的位置。通过目标导向的探索，AI 会模拟从当前位置到蓝色汽车路径上的不同视图，帮助其提前规划路线。

(2) 微观设计

Genex 的生成过程分为三步：

输入表示：
- 输入是 AI 当前位置的全景图像（360°视图），捕捉环境的所有角度。
- 全景图在一个二维图像上展开，水平表示环绕视野，垂直表示上下方向。
生成器架构：
- 使用扩散模型生成新视图：
  - 扩散模型通过逐步去噪生成高质量图像。
  - 为了解决全景图生成的边缘不连续问题，Genex 引入了“球面一致性学习”（Spherical Consistent Learning），保证全景图的边界衔接流畅。
生成目标：
- 在训练过程中，模型学习将输入全景图像和目标移动方向转换为新的全景视频序列，从而模拟 AI 在环境中的探索行为。

2.2 信念更新与决策模型

在部分可观测环境中，AI 的核心任务是更新对环境的信念（belief），从而辅助决策（说实话我不知道这个应该翻译成什么好，翻译成信念确实有点怪怪的，但是又不知道哪个词合适）。

Genex 提供了两种信念更新方式：

物理探索：
- AI 通过移动并采集真实观测数据更新信念。
- 缺点：耗时且成本高。
虚拟探索（Genex 提供）：
- AI 通过生成式视频推测未观测区域，从而快速更新信念。
  
  还是刚才那个例子，假设一辆无人车需要知道前方路口的状况，但视野被一辆大卡车挡住。使用 Genex，AI 可以模拟从卡车另一侧的视角生成视频，假设那里有救护车驶来。基于这个虚拟观察，AI 决定避让，为救护车让路。

3. 实验与评估

论文通过多个实验验证了 Genex 的性能，涵盖生成质量、探索一致性和实际任务决策效果。

3.1 数据集设计

Genex-DB 数据集：
- 包含四种不同风格的虚拟场景：
  1. 真实风格：高保真的城市街景（如使用 Unreal Engine 创建）。
  2. 卡通风格：测试模型在虚拟动画场景中的适应能力。
  3. 低纹理风格：简化环境纹理，考察模型在缺少视觉细节时的表现。
  4. 几何风格：仅包含几何形状（如立方体、圆柱体），测试模型在极简环境中的导航能力。
Genex-EQA 数据集：
- 专为评估决策能力而设计，包含两类场景：
  - 单代理任务：测试 AI 在独立环境中的推理能力。例如，AI 需要想象树后是否有急救车辆。
  - 多代理任务：测试 AI 如何预测其他代理的行为。例如，AI 必须推测对面车辆是否能看到横穿的行人。

3.2 实验指标与结果

论文通过以下指标评估 Genex 的性能：

视频生成质量：
- 使用 PSNR、SSIM 等指标评估生成的视频与真实视频的相似度。
- 结果：Genex 在生成质量上优于基线模型，尤其在视频的连续性和全景一致性方面表现突出。
探索一致性：
- 引入“探索周期一致性”（Imaginative Exploration Cycle Consistency，IECC）指标，衡量 AI 在长距离探索中是否能保持生成内容与环境的一致性。
- 结果：即使在长距离探索中，Genex 生成的视频也能保持很低的误差，证明其对环境结构的理解能力。
决策准确性：
- 测试 AI 在不同场景中的决策表现，并比较以下三种设置：
  1. 仅使用文字信息：AI 根据描述决策。
  2. 结合图像信息：AI 使用全景图辅助决策。
  3. 使用 Genex：AI 结合虚拟探索的生成视频。
- 结果：
  - 单代理场景中，使用 Genex 的 AI 决策准确性从 46% 提升至 85%。
  - 多代理场景中，准确性从 21% 提升至 94%。

4. 关键贡献与应用前景

核心贡献：
- 提出了一个新框架，让 AI 通过生成视频模拟虚拟探索，更新其对环境的信念。
- 开创性地将生成式视频与部分可观测决策框架结合。
- 展示了 Genex 在单代理和多代理场景中的广泛应用。
应用前景：
- 无人驾驶：增强车辆在复杂交通场景中的推测能力，提升安全性。
- 家用机器人：帮助机器人理解房间布局，从而高效完成清洁或导航任务。
- 多代理协作：用于多机器人系统中的任务分配和路径规划。

总结与未来方向

论文展示了 Genex 的潜力，证明虚拟探索可以显著提高 AI 在部分可观测环境中的推理和决策能力。未来工作可能包括：

拓展至真实环境中的应用，例如通过视觉传感器实时生成虚拟探索视频。
结合语言模型，提升 AI 的多模态推理能力。

通过这些改进，Genex 有望进一步推动人工智能的真实世界应用！