yl6809永利检测中心

学术动态

当前位置: 网站首页 > 科学研究 > 学术动态 > 正文

yl6809永利检测中心ICRA2026论文前瞻快报(一)

作者: | 点击量: | 发布时间:2026-02-01 17:36:24

春节将至,从国际机器人学术舞台传来佳音。北京时间1月31日晚,2026国际机器人与自动化会议(IEEE International Conference on Robotics and Automation,ICRA)论文录用结果正式发布。学院郭迟教授、李淼教授等多支科研团队的多篇论文被大会接收。ICRA是国际机器人领域规模最大、影响力最强的顶级学术会议之一。今年的会议将于6月1日在奥地利维也纳召开。本届会议收到来自全球86个国家和地区4947篇投稿论文,最终录用1882篇,表明了国际机器人学术研究的热度持续升高。学院将陆续报道武汉大学在本届ICRA会议上发表的成果,这些工作涵盖机器人感知、规划、决策与控制等多个前沿方向。


1. D-GVIO:一种面向多智能体系统的、缓冲区驱动的高效分布式GNSS-视觉-惯性状态估计器

论文标题:D-GVIO: A Buffer-Driven and Efficient Decentralized GNSS-Visual-Inertial State Estimator for Multi-Agent Systems

作  者:Luo Yarong, Lu Wentao, Li Ming, Guo Chi*

论文摘要:对于多智能体集群应用(如协作探索与搜救任务)而言,协同定位至关重要。然而,在资源受限的平台上保持协同定位系统的实时性、鲁棒性仍面临巨大挑战。为解决这些难题,该论文提出了D-GVIO:一种基于缓冲区驱动的完全去中心化GNSS-视觉-惯性里程计(GVIO)框架。该框架通过创新的缓冲策略实现高效鲁棒的分布式状态估计。其核心在于四大机制:首先,通过协方差分割、协方差交集与缓冲策略,将分布式状态估计中的传播与更新步骤模块化,显著降低计算与通信开销;其次,采用左不变扩展卡尔曼滤波(L-IEKF)进行信息融合,其状态转移矩阵独立于系统状态,相较于传统扩展卡尔曼滤波器(EKF)具有更优越的状态估计性能;第三,结合L-IEKF设计基于缓冲区的重传播策略,能够高效精准处理延迟观测数据,避免高昂的重复计算;最后,提出自适应缓冲区驱动的异常值检测方法,动态剔除GNSS异常数据,有效增强GNSS受限环境下的系统鲁棒性。

29F5E

github地址:https://github.com/braveryyyy/D-GVIO


2. ReThinkNav:基于开源大语言模型,通过上下文推理与回环恢复实现零样本视觉语言导航

论文标题:ReThinkNav: Zero-Shot Vision-and-Language Navigation with Open-Source LLMs via Contextual Reasoning and Loop Recovery

作  者:Li Aolin, Yan Yixian, Luo Hongkun, Zhan Jiao, Guo Chi*

论文摘要:零样本视觉语言导航要求智能体在未经特定任务训练的前提下,仅依据自然语言指令完成导航。现有工作表明,大语言模型在零样本视觉语言导航中展现出良好潜力,但仍存在两大关键局限:(1)对指令的精确遵循能力不足;(2)在空间受限或语义高度相似区域中易陷入循环。为此,该论文提出ReThinkNav,旨在进一步提升大模型在零样本设置下的导航性能。ReThinkNav引入上下文推理机制以增强大模型指令理解与进度评估能力,使其能够同时准确推断导航动作。此外,该论文还设计了循环检测与恢复模块,用于识别导航过程中的循环行为并相应地调整决策。在R2R-CE基准上的实验结果表明,ReThinkNav 在零样本设置下取得了优异性能;同时,在基于宇树科技Unitree G1机器人的真实物理实验中进一步证明了该方法的实际可用性与泛化能力。

973B4


3. 常识引导的对象图谱推理与策略正则化:面向目标对象导航

论文标题:Commonsense-guided Object Graph Reasoning with Policy Regularization for Object Goal Navigation

作  者:Meng Yiyue, Li Aolin, Zhan Jiao, Li Shenxin, Guo Chi*

论文摘要:物体目标导航任务要求智能体仅凭第一人称视觉观察,在未知环境中找到指定类别的目标物体。这要求智能体提升场景理解能力并训练稳健的导航策略。为此,该论文提出了两种互补技术:常识引导的物体图推理(COGR)与策略正则化(PR)。具体而言,COGR通过整合物体关系(包括类别邻近性与空间关联性)来提升智能体的场景理解能力。该方法从大型语言模型(LLM)中提取目标物体的共现嵌入作为常识知识,引导物体图推理,使智能体能够超越训练环境中观察到的视觉共现关系进行推理。PR是一种受知识蒸馏启发的正则化机制,通过无常识模型对常识引导模型的导航策略进行正则化。论文提出PR以缓解LLM知识偏见可能导致的性能退化,从而训练出更稳健的导航策略。在AI2Thor和RoboThor环境中的实验验证了该方法的有效性与高效性,实际部署进一步证实了其迁移能力。

82BF1


4. 具身智能安全新突破:Bera框架为机器人系统构筑“免疫防线”

论文标题:When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

作  者:Xuetao Li, Pinhan Fu, Wenke Huang, Nengyuan Pan, Songhua Yang, Kaiyan Zhao, Guancheng Wan, Mengde Li, Jifeng Xuan, Miao Li*

7546A

论文摘要:随着视觉-语言-动作(VLA)模型的下游微调技术日益成熟,其显著增强了机器人的智能化水平,但随之而来的后门攻击风险也成为不容忽视的安全隐患。攻击者可通过在有毒数据上预训练VLA模型,植入极具隐蔽性的后门,这些后门平时潜伏,一旦在推理阶段被特定条件触发,便会导致机器人执行有害行为。面对这一严峻挑战,现有的防御手段往往陷入两难境地:要么缺乏对多模态后门深层机理的洞察,要么受制于全模型重训练带来的高昂计算成本。针对这一行业痛点,该论文深入剖析并揭示了一种“深层注意力劫持(Deep-layer Attention Grabbing)”机制,即后门攻击通过重定向模型的后期注意力,在接近正常流形的区域形成紧凑的嵌入簇,从而操纵模型行为。

62595

基于这一关键机理发现,该论文提出了名为“Bera”的测试时后门擦除框架。该框架无需对VLA模型进行任何重训练或更改训练流程,通过潜空间定位技术精准检测具有异常注意力的Token,利用深层线索对可疑区域进行掩码处理,并重构出无触发器的图像。这一过程成功打破了“触发器-不安全动作”的映射关系,在毫发无损模型原有性能的同时,恢复了机器人的正确行为。

在多个具身智能平台及任务上的广泛实验表明,Bera不仅有效保持了模型的名义性能,更显著降低了攻击成功率,能够从被后门污染的输出中稳定恢复良性行为。Bera的提出,为机器人系统的安全部署提供了一种强健、高效且极具落地价值的防御机制。


5. 物理世界的“隐形陷阱”:通用对抗物体如何让VLA机器人“举步维艰”?

论文标题:Exploiting Vulnerabilities: Universal Adversarial Attacks on Vision-Language-Action Models in Robotics

作  者:Songhua Yang, Yuanwei Liu, Ziyu Liu, Xuetao Li, Xuanye Fei, He Huang, Zheng WANG, Miao Li*

论文摘要:近年来,视觉-语言-动作(VLA)模型以其卓越的端到端学习能力,将视觉感知、语言理解与动作生成无缝融合,引领了机器人操作领域的革命性变革。然而,由于此类模型被设计用于直接与物理世界及人类进行交互,其安全性显得尤为至关重要。在实际应用中,即便是微小的安全漏洞,也可能引发灾难性的系统故障。针对这一潜在危机,该论文提出并构建了“通用对抗物体(Universal Adversarial Object)”。这是一种表面经过特殊纹理优化的球体,仅需将其置于机器人的视野范围内,便能对模型的感知与决策造成严重干扰。具体而言,论文创新性地引入了一套多层次攻击框架,能够从轨迹规划、任务执行到动作控制三个维度协同破坏机器人的操作流程。通过在仿真环境与真实物理场景中的双重严苛验证,实验结果令人警醒:针对 Pi0 和 RDT 两类代表性前沿VLA模型,该对抗物体导致其平均任务成功率大幅下降了 31.2% 至 39.9%;而在复杂场景下,模型的成功率甚至暴跌至几近归零。这一发现深刻揭示了当前具身智能系统在面对物理对抗攻击时的脆弱性,为未来的安全防御研究敲响了警钟。

4EE8E