【技术前沿】NVIDIA Research 推出免训练三维推理框架 SpatialClaw:代码即动作(Code-as-action)
内容要点:
• 代码作为底层动作接口:NVIDIA Research 推出 SpatialClaw 框架,摒弃了昂贵且需要重训的多模态微调,采用让 VLM 动态编写并执行 Python 代码的方式操纵感知工具。
• 闭环验证与链式感知调用:智能体能通过生成的代码调用深度估计、三维物体分割等物理世界探测工具,进行循环链式感知,并在执行后对空间抓取结果进行校验。
• 三维空间任务准确率大幅跨越:在 20 项包含空间抓取、堆叠和避障等三维复杂空间推理任务测试中,SpatialClaw 实现了 59.9% 的准确率,远超传统闭源 VLM 模型。
久湛洞察:
具身智能和视觉大模型在三维物理世界中的“空间推理”痛点,通过“代码作为接口(Code-as-action)”的工程架构得到了优雅解决。这一理念说明,大模型并不需要独自学习所有三维物理规律,而是可以通过“编写代码操纵专用工具”来实现能力的延伸。这种“大模型+可生成代码+专业计算工具”的闭环方法,对工业视觉检测、物流机器人和精密制造的 AI 化升级具有极强的行业指导意义。
> 权威源:NVIDIA Research 官方技术博客及开源论文(2026年6月中旬)
> 关键词:SpatialClaw、NVIDIA Research、VLM、代码即动作、三维空间推理、具身智能
> 真实链接:NVIDIA Research Blog...