【行业洞察】斯坦福 SALT 实验室发布 JobBench：定义首个基于“专家 delegate 意图”的智能体基准

25 5 月, 202625 5 月, 2026 由 inforstack评论关闭

评测重构：斯坦福大学 SALT 实验室于 2026 年 5 月正式上线了全新的 AI 智能体评估基准 JobBench。
真实委托：区别于以往死板的学术跑分（如 MMLU），JobBench 完全构建在 WORKBank 数据库之上，其考题全部来源于真实世界中各行业专家（包括科研、IT、法律）真正想要“委托（Delegate）”给 AI 执行的复杂多步骤多系统任务。
劳动力重塑：伴随该基准发布的数据指出，全美已有近 80% 的白领劳动力面临至少 10% 的日常任务被 AI 智能体结构性接管。

久湛洞察：AI 的评估正在从“修辞学（它能写得多漂亮）”走向“行为学（它能把事办成几件）”。JobBench 的出现对企业级软件生命周期管理具有极强的指导价值。
关键词： JobBench、斯坦福 SALT、WORKBank、意图委托

权威源（Stanford Future of Work 官网）： https://futureofwork.saltlab.stanford.edu/