中国浙江大学(Zhejiang University)、北京大学(Peking University,)与浙江绿色智行科创有限公司(Zhejiang Green Zhixing Technology co., ltd)的研究人员合作研发了一款突破性模型ScoreLiDAR,可将3D场景的构建完成速度提高5倍,为实时自动驾驶车辆感知技术的发展铺平了道路。
场景重建(图片来源:浙江大学)
背景
利用车载传感器进行高效且精确的环境识别,对于确保自动驾驶汽车的安全运行至关重要。在众多传感器中,3D激光雷达(LiDAR)因高精度和广泛的探测范围而成为一款不可或缺的组件。不过,激光雷达生成的3D点云往往比较稀疏,特别是在有遮挡或复杂驾驶场景下,这对于场景理解造成了挑战。因此,需要对激光雷达场景进行补全,即通过稀疏的输入信息重建出密集的3D场景,从而实现更好的感知。
传统的激光雷达场景补全方法包括基于深度补全和基于有符号距离场(SDF)的技术。此类方法有一定效果,但是通常存在细节丢失或受制于体素分辨率等的不足。最近,扩散模型被引入到激光雷达补全领域,并显示出强大的训练稳定性及高质量的生成结果。例如,LiDiff和扩散语义场景补全(DiffSSC)技术通过改进噪声调度和融合语义任务,显著提升了生成场景的丰富度。不过,此类模型的采样过程缓慢,限制了其应用于实时应用,而此类实时应用对于自动驾驶汽车而言至关重要。
为了解决上述问题,研究人员们推出了新型蒸馏框架ScoreLiDAR,专为基于扩散模型的激光雷达场景补全而设计。ScoreLiDAR通过将蒸馏框架引入训练过程,用一个预训练的教师扩散模型训练一个精简的学生模型,以及结合结构损失提升几何精度,极大地加快了场景补全的速度,同时保持了卓越的场景质量,而且通过广泛的实验得到了验证。
基础与方法
研究人员采用扩散模型深入探讨了3D激光雷达场景补全,该模型通过逐步添加和移除噪声,模拟复杂点云。扩散模型包含两个主要阶段:正向扩散阶段(在时间步长上逐渐向数据中添加噪声)和逆向去噪阶段(去除噪声,生成完整的场景)。该方法采用预先设定的噪声级别以及优化后的模型来预测所添加的噪音,让其可以高效地打造高质量的重建效果。
扫描结果的稀疏性为激光雷达数据处理带来了挑战。在直接归一化的过程中,传统的扩散方法常常会丢失重要的细节信息。为克服该问题,LiDiff技术采用了局部噪声偏移策略,通过逐步微扰来维持空间的保真度。从增强的扫描数据出发,通过去噪过程逐步优化噪声点云,最终构建出完整且逼真的场景。
研究人员提出的ScoreLiDAR通过将预先训练的扩散模型迁移至具有较少采样步骤的精简学生模型中,优化了场景补全。此种创新框架不仅显著提升了推理速度,还最大限度地减少了教师模型与学生模型输出分布的差距。此外,ScoreLiDAR还采用了含有场景级和点级组件的结构损失体系,增强了场景的真实感。此种场景级损失约束了全局结构,而点级损失则关注于保留局部几何细节。
此种方法确保了高效、高质量的激光雷达场景重建,结合了全局精度及精确的局部细节,同时显著降低了计算负担。
实验与分析
此次实验评估了ScoreLiDAR的性能,将其与轻量级多多尺度3D语义补全网络((LMSCNet)、局部条件化射线方程(LODE)、MID、点云-立体像素扩散(PVD)以及LiDiff等最新模型进行了比较。首先,在SemanticKITTI和KITTI-360数据集上测试了ScoreLiDAR的场景补全功能,结果显示其性能优于其他模型,尤其是教师模型LiDiff。通过集成了场景级和点级组件的结构损失,ScoreLiDAR能够更高效地捕捉几何结构,与 LiDiff 相比,倒角距离(Chamfer distance,CD)提升8%,JS散度(Jensen-Shannon divergence,JSD)提升4%,场景补全速度提高了5倍。在KITTI-360数据集上,ScoreLiDAR进一步展示了其优势,分别在CD和JSD指标上比LiDiff高出12%和2%。
此外,研究人员进行的消融研究证实了结构损失的重要性,因为不采用结构损失时,所有评估指标都表现出较低的性能。此外,具有多种采样步数的实验表明,ScoreLiDAR与LiDiff相比,即使在步数减少的情况下,也维持了较优的性能。具体而言,单步采样可在1.1秒内完成场景,从而有效地实现了质量与速度之间的平衡。
研究人员们还进行了定性分析,结果表明ScoreLiDAR具备生成与实际场景高度相似的详尽图像的能力,而且物体清晰度更高,偏差降至最低。此外,一项用户研究表明,相比LiDiff,65%的参与者更偏好ScoreLiDAR的输出结果,进一步验证了其卓越的感知质量。
结论
综上所述,ScoreLiDAR通过解决基于扩散的方法的缓慢采样问题,显著增强了自动驾驶汽车的3D激光雷达场景补全能力。通过引入一种创新蒸馏方法及集成结构损失,其显著提升了场景补全的速度,同时保持了高水平的几何精度。在SemanticKITTI和KITTI-360等多个数据集上进行的广泛实验表明,ScoreLiDAR在处理时间和场景质量方面,均超越了LiDiff等现有的模型。该方法实现了单步采样的能力,完成场景补全的时间仅需1.1秒,使其成为一个适用于实时激光雷达场景重建、具有发展前景的解决方案,满足了自动驾驶车辆感知系统的关键需求。