NVIDIA Research归档 - 上海久湛信息科技有限公司

内容要点： • 代码作为底层动作接口：NVIDIA Research 推出 SpatialClaw 框架，摒弃了昂贵且需要重训的多模态微调，采用让 VLM 动态编写并执行 Python 代码的方式操纵感知工具。 • 闭环验证与链式感知调用：智能体能通过生成的代码调用深度估计、三维物体分割等物理世界探测工具，进行循环链式感知，并在执行后对空间抓取结果进行校验。 • 三维空间任务准确率大幅跨越：在 20 项包含空间抓取、堆叠和避障等三维复杂空间推理任务测试中，SpatialClaw 实现了 59.9% 的准确率，远超传统闭源 VLM 模型。久湛洞察：具身智能和视觉大模型在三维物理世界中的“空间推理”痛点，通过“代码作为接口（Code-as-action）”的工程架构得到了优雅解决。这一理念说明，大模型并不需要独自学习所有三维物理规律，而是可以通过“编写代码操纵专用工具”来实现能力的延伸。这种“大模型+可生成代码+专业计算工具”的闭环方法，对工业视觉检测、物流机器人和精密制造的 AI 化升级具有极强的行业指导意义。 > 权威源：NVIDIA Research 官方技术博客及开源论文（2026年6月中旬） > 关键词：SpatialClaw、NVIDIA Research、VLM、代码即动作、三维空间推理、具身智能 > 真实链接：NVIDIA Research Blog...

标签： NVIDIA Research

【技术前沿】NVIDIA Research 推出免训练三维推理框架 SpatialClaw：代码即动作（Code-as-action）