登录
首页 > 宝马汽车 > 美国研发AI系统无需实际探索可“想象”周围环境 与人类推理方式更接近

美国研发AI系统无需实际探索可“想象”周围环境 与人类推理方式更接近

发布时间:2024-12-25 12:31:50 发布用户: guiwang

美国约翰霍普金斯大学(Johns Hopkins)的计算机科学家们打造了一个人工智能(AI)系统,能够在无需实际探索的情况下,“想象”周围环境,从而使AI在推理上与人类更相近。

ai-system-can-envision.jpg

 

“想象”周围环境的AI系统(图片来源:约翰霍普金斯大学)

该系统名为Generative World Explorer或GenEx,只需一张静止照片就可以构建出整个世界,相较于之前的系统,展现出显著的优势。之前的系统需要一台机器人或一个代理在场景中进行移动,以绘制周围环境的地图,该过程不仅成本高昂、不安全,而且十分耗时。

约翰霍普金斯大学计算认知科学彭博冠名杰出教授(Bloomberg Distinguished Professor of Computational Cognitive Science at Johns Hopkins)兼该论文资深作者Alan Yuille表示:“当你置身于一个从未涉足的环境中,会使用环境线索、过往的经验以及对世界的理解来想象转角处可能会出现的事物。类似地,GenEx也可以像人类一样‘想象’并推理其周围的环境,在无需实际考察的情况下,做出合理的决策,确定下一步的行动。”

GenEx利用复杂的世界知识生成超出可见图像的多种可能性,为每个场景分配不同的概率,而非仅做出单一的确定性猜测。此种基于有限视觉数据构建环境地图的能力,在许多现实世界应用中具有关键意义,特别是在灾难响应等场景下。例如,救援队可以采用单张监控图像,辅助远程探索危险区域,从而避免对人员或重要设备造成风险。

约翰霍普金斯大学计算机科学系博士兼首席作者Jieneng Chen表示:“该项技术还能改进导航应用程序,协助训练自动驾驶机器人,并为沉浸式游戏和VR(虚拟现实)体验提供支持。”

GenEx可以基于单张图像,生成一个真实的合成虚拟世界,其中AI代理可以依据推理和规划执行导航及决策。该代理仅需获取当前场景的视角信息、行进方向以及移动距离。如下图所示,该代理可以前进、改变方向,并可灵活地探索其所在环境。

与当前流行的、梦幻般的AI世界探索应用程序(如AI生成的Minecraft仿真器Oasis)不同,GenEx的环境保持了一致性。这是因为该模型基于采用了一种名为“球面一致性学习”(spherical consistency learning)技术的大量数据进行训练,确保其对新环境的预测均位于一个全景球体之内。

Chen博士表示:“我们通过让GenEx沿随机选择的闭合路径导航,并以固定循环回路的方式返回起点,以评估其一致性。我们的目标是确保起始视图与结束视图完全一致,从而确保GenEx世界建模的一致性。”

虽然此种一致性并非GenEx所独有的,该研究团队表示,其是首款且目前唯一一款能够支持AI代理基于新观察结果进行逻辑决策的生成式世界探索器,其探索世界的过程被计算机科学家称为“增强想象力的策略”(imagination-augmented policy)。

例如,假设驾驶员正在开车,前方的灯是绿灯,但注意到前方的出租车突然且出乎意料地停下,此时下车查看可能会不安全。不过,从出租车驾驶员的视角推测该场景,可以合理推断出其突然停车的原因:可能有急救车在靠近,而且此种情况下,驾驶员也应该让行。

Chen博士表示:“虽然人类可以利用警报等其他线索来识别此类情况,但当前应用于自动驾驶以及其他类似任务的AI模型仅可访问图像及语言输入信息。因此,在缺乏其他多模态信息的情况下,此类模型需要进行更具想象力的探索。”

约翰霍普金斯大学研究团队将GenEx输出的一致性与质量与标准视频生成结果进行了对比,研究人员还与人类用户进行实验,以确保GenEx是否以及如何提升人类用户的逻辑与规划能力,并发现当用户能够利用该模型的探索功能时,其决策更加准确且更明智。

Chen博士表示:“我们的实验结果表明,GenEx可以在长时间探索大型虚拟物理世界的过程中,生成高质量且一致的观察结果。此外,基于生成的观察结果而得到更新的信念,可以为现有的决策模型(例如大型语言模型代理)提供信息,甚至还能让人类用户做出更好的规划。”

Copyright 2016-2024 柠檬网 版权所有  京ICP备19012579-1号