• 评测重构: 斯坦福大学 SALT 实验室于 2026 年 5 月 正式上线了全新的 AI 智能体评估基准 JobBench。
  • 真实委托:区别于以往死板的学术跑分(如 MMLU),JobBench 完全构建在 WORKBank 数据库之上,其考题全部来源于真实世界中各行业专家(包括科研、IT、法律)真正想要“委托(Delegate)”给 AI 执行的复杂多步骤多系统任务。
  • 劳动力重塑: 伴随该基准发布的数据指出,全美已有近 80% 的白领劳动力面临至少 10% 的日常任务被 AI 智能体结构性接管。
  • 久湛洞察:AI 的评估正在从“修辞学(它能写得多漂亮)”走向“行为学(它能把事办成几件)”。JobBench 的出现对企业级软件生命周期管理具有极强的指导价值。
  • 关键词: JobBench、斯坦福 SALT、WORKBank、意图委托

权威源(Stanford Future of Work 官网): https://futureofwork.saltlab.stanford.edu/