OpenClaw运行在聊天软件中的全能 AI 代理

1. 缘起:从 Clawdbot 到 OpenClaw Clawdbot 最初由奥地利开发者 Peter Steinberger 发起,其灵感源于将 Anthropic 的 Claude 模型能力与本地操作系统深度结合。凭借其“让 AI 真正动手做事”的极客特性,该项目迅速在 GitHub 斩获数万星标,并于 2026 年正式更名为 OpenClaw。 尽管名称演变,但其核心使命从未改变:打造一个 24/7 全天候运行、具备物理操作权限、且完全受用户控制的私有 AI 雇员。 2. 核心架构:连接“大脑”与“感官” 不同于常规的 Web 端机器人,Clawdbot/OpenClaw 的架构设计包含三个关键层级: 2.1 统一网关 (Gateway) 这是智能体的“中枢神经系统”。它作为一个轻量级的本地服务端,负责: 路由分发: 将来自不同聊天频道的指令转化为模型可理解的任务。 状态持久化: 在本地(如 ~/.openclaw)以 Markdown 和 YAML 格式存储长期记忆、用户偏好与技能配置。 2.2 多渠道交互 (Multi-Channel Interface) Clawdbot 的破圈之处在于它不再局限于浏览器,而是直接寄生于你最常用的社交软件中: 支持频道: WhatsApp, Telegram, Slack, Signal, Discord 甚至 iMessage。 随时随地控制: 无论你在通勤路上还是午餐期间,只需发送一条消息,就能指挥家中的电脑执行复杂任务。 2.3 技能执行层 (Actionable Skills) 这是智能体的“双手”。通过内置的技能引擎,它能够: Shell 权限: 执行终端命令,进行环境配置或代码编译。 浏览器自动化: 自主访问网页、提取信息、甚至代为填写表单。 文件系统操作: 跨目录整理文档、分析日志或重构代码。 [Image: Clawdbot/OpenClaw Architecture - Connecting Chat Apps to Local OS via LLM] (视觉建议:展示一条闭环路径:用户通过手机 Telegram 发送请求 -> 运行在 Mac/PC 上的 OpenClaw 网关接收 -> LLM 思考决策 -> 调用本地工具执行 Shell/文件操作 -> 将结果回传给手机) 3. 为什么 Clawdbot 备受推崇? 隐私优先 (Local-First): 所有的对话摘要、上下文索引和私密凭证都存储在你的硬件(如 Mac Mini 或 VPS)上,而非云端厂商的数据库中。 主动性 (Proactivity): 通过心跳检测机制,它不仅能响应指令,还能根据预设频率主动监控任务(如“如果服务器报错,请立即在 Telegram 通知我”)。 自我进化能力: 作为一款“自我改进型”智能体,它能够根据用户需求自主编写新技能代码并完成安装,实现能力的动态增长。 4. 安装与安全警示 作为一个具备系统级权限的“极客玩具”,官方建议在配置时严格遵循以下安全准则: 沙盒运行: 尽可能在隔离的虚拟机或专用设备上运行。 权限白名单: 开启消息配对(Pairing)功能,确保只有授权账号能向智能体下达指令。 成本预警: 监控 API 消耗,防止自主智能体在循环执行任务时产生巨额账单。 5. 结语 从早期的 Clawdbot 原型到如今功能完备的 OpenClaw,这个项目代表了个人 AI 助手的新阶段——它不再仅仅是“会说话的百科全书”,而是能够理解你的工作习惯、住在你的社交列表里、并随时待命的数字孪生执行官。 资源链接 项目更名公告: 从 Clawdbot 迈向 OpenClaw 的演进之路 快速部署: curl -fsSL https://openclaw.ai/install.sh | bash...
阅读更多

OpenClaw —— 专为开发者打造的开源 AI 命令行科研与工程平台

1. 什么是 OpenClaw? OpenClaw 是一款前沿的开源 AI 命令行工具(CLI),旨在为开发者提供一个透明、高效且高度可定制的 AI 协作环境。 不同于市面上常见的闭源聊天网页,OpenClaw 直接植根于开发者的终端(Terminal)。它不仅支持调用云端顶级模型(如 Claude 3.5, GPT-4o),更深度优化了对本地模型(如 Gemma 4, Llama 系列)的支持。通过将强大的推理能力与本地文件系统、执行环境无缝结合,OpenClaw 成为了连接“模型大脑”与“开发双手”的桥梁。 [Image 1: OpenClaw CLI Interface Concept] (视觉建议:展示一个深色的终端窗口,左侧是代码流,右侧是 OpenClaw 的智能提示与执行反馈,体现极简与高效) 2. 核心设计哲学 OpenClaw 的设计遵循三大核心原则,确保其在激烈的 AI 工具竞争中脱颖而出: 2.1 数据主权与隐私(Data Sovereignty) 在处理敏感的商业代码或科研数据时,隐私是首要考量。OpenClaw 支持完全的本地化部署,配合 LossLess-Claw 等存储增强插件,确保您的对话历史、代码上下文和索引数据始终留在您的受控服务器或工作站中,实现“数据可用不可见”的安全边界。 2.2 极致的工程化透明度 作为一个开源项目,OpenClaw 的所有 Prompt 模板、工具调用逻辑和系统预设都是公开可见的。开发者可以清晰地观察到 AI 是如何思考、如何拆解任务以及如何调用工具的。这种透明度不仅方便了 Debug,更让开发者能根据特定项目需求进行深度微调(Fine-tuning)。 2.3 插件驱动的无限扩展 OpenClaw 不仅仅是一个工具,更是一个生态。通过 Agent Skills 系统,您可以轻松接入自定义的搜索工具、数据库连接器或特定领域的分析脚本,让 OpenClaw 进化为深谙您业务逻辑的领域专家。 3. OpenClaw 的关键能力 多模态深度集成: 支持图像识别与代码生成联动,例如通过截图直接还原 React 组件架构。 长文本无损记忆: 结合层次化摘要技术,支持在超长开发周期内保持背景信息的精准召回。 多模型自由切换: 预设支持 Ollama, vLLM, Anthropic 等主流后端,支持在推理成本与模型能力之间灵活平衡。 自主执行(Agentic Workflow): 具备读写文件、运行测试、搜索网络及自动修复 Bug 的闭环操作能力。 4. 为什么选择 OpenClaw? 对于 AI 架构师、系统集成商或高级开发者而言,OpenClaw 提供了一个**“本地优先”**的实验场。无论您是在构建新型电力系统的技术语料库,还是在进行复杂的生物信息分析,OpenClaw 都能提供稳定、可追溯且高性能的 AI 辅助支持。 5. 快速开始 仅需一行命令,即可开启您的 OpenClaw 之旅: Bash # 使用 npm 或官方脚本一键安装 npm install -g @openclaw/cli # 初始化配置 openclaw onboard 探索更多 官方文档: 快速入门指南 社区支持: GitHub 仓库与讨论区...
阅读更多

探索 OpenClaw 智能体技能 —— 从“对话助手”向“执行专家”的跨越

1. 什么是 OpenClaw Agent Skills? 在传统的 AI 交互中,大语言模型(LLM)往往受限于“言语”层面。而 OpenClaw 的核心使命是通过 Agent Skills(智能体技能) 体系,赋予模型直接操作外部世界的能力。 所谓“技能”,本质上是一套标准化的 工具调用(Tool Calling) 协议。它允许 OpenClaw 在感知到用户需求后,自主决定调用哪些本地或远程工具(如搜索、文件读写、代码运行、数据库查询等),从而完成复杂的闭环任务。 [Image 1: The "Brain to Hands" Evolution] (视觉建议:左侧展示一个孤立的大脑代表模型,右侧展示大脑通过多条机械臂连接到服务器、终端和 API,代表 Agent Skills) 2. 核心架构:插件化技能系统 OpenClaw 的技能系统采用了高度解耦的插件化设计,其卓越性体现在以下三个维度: 2.1 动态发现与自描述 每一个 Skill 都包含一个精密的 manifest.json 描述文件。模型在启动时会自动扫描这些技能,并理解它们的入参格式、返回类型及适用场景。这种“即插即用”的设计意味着开发者无需修改核心代码即可扩展功能。 2.2 跨平台兼容性 无论是本地运行的 Ollama,还是云端的 Claude 3.5 或 Gemma 4,OpenClaw 都能将复杂的插件逻辑抽象为模型可理解的 Function Calling 格式,确保技能在不同底座模型间的一致性表现。 2.3 安全沙盒机制 所有的执行类技能(如 shell_execute)均运行在受控的沙盒环境中。用户可以通过配置文件定义权限白名单,确保 AI 在自动执行任务时不会触碰敏感数据或核心系统设置。 3. 典型技能示例与实战应用 目前 OpenClaw 已原生内置并支持扩展多种高价值技能: 代码审计技能 (code_analyzer): 自动扫描当前目录下的源代码,识别潜在的 Bug 或性能瓶颈,并给出重构建议。 多模态感知技能 (vision_interpreter): 结合 Gemma 4 的能力,分析屏幕截图或设计稿,自动生成 React 或 Tailwind CSS 代码。 实时调研技能 (web_researcher): 自动爬取多个技术网站,汇总最新行业动态并输出结构化报告。 4. 如何开发你的第一个自定义技能? 为 OpenClaw 编写技能非常简单,只需三步: 定义逻辑: 使用 Python 或 TypeScript 编写工具函数。 编写描述: 为函数添加详细的 Docstring,明确每个参数的含义(模型将依靠这些描述来决定何时调用该工具)。 注册加载: 将脚本放入 ~/.openclaw/skills/ 目录,重启即生效。 TypeScript // 示例:一个简单的天气获取技能定义 export const getWeather = {   name: "get_weather",   description: "获取指定城市的实时天气信息",   parameters: {     type: "object",     properties: {       location: { type: "string", description: "城市名称,如:上海" }     },     required: ["location"]   },   execute: async ({ location }) => {     // 调用外部 API 的逻辑   } }; 5. 结语:构建你的私有技能库 OpenClaw Agent Skills 不仅仅是一个功能模块,它是开发者构建“自动化数字分身”的基础工具。随着技能库的不断丰富,你的 OpenClaw 将从一个简单的聊天窗口,进化为一个深谙你工作流、能自主解决问题的工程专家。...
阅读更多

聚焦数字技术研发 赋能科创平台建设 久湛科技与G60联席办开展合作交流

3月19日上午,上海久湛信息科技有限公司总经理、创始人高军考察G60科创走廊,双方围绕深化产业协同、服务科创中心建设、优化科创生态等开展深入交流。G60联席办副主任、松江区科创发展办主任陈超,G60联席办科创组组长、松江区科创发展办副主任宋苏伟参加座谈。 陈超指出,G60科创走廊作为一个区域化科创平台,持续完善概念验证、中试基地等载体功能,打响科技成果拍卖会特色品牌,开展产业与科创功能服务,推动G60科创走廊走深走实,品牌效应持续放大,高效服务上海(长三角)国际科技创新中心建设。他强调,依托上海市出台的《关于支持长三角G60科创走廊策源地建设的若干措施》,G60科创走廊与松江大学城科创源协同,强化科创要素资源供给,完善配套政策措施,科创生态体系不断完善。他表示,希望企业与G60科创走廊深化合作,G60也将发挥科技成果转化、联动九城资源等优势,不断拓展合作新场景,为企业高质量发展搭建舞台。 高军介绍了久湛科技公司情况。他表示,公司将充分发挥技术与资源优势,围绕产业行业细分领域,探索数据与AI为企业、政府、园区提供服务新路径,探讨建设技术研究分中心,为G60科创走廊创新平台建设贡献力量。 据悉,上海久湛科技创立于2013年2月,以丹纳赫IDBS(世界领先的研发数据管理专业软件商)中国研发中心为基础。公司聚焦数字技术领域的研发创新和创新实践,在物联网、大数据、人工智能和高性能计算领域,持续推进自研平台的技术研发与专业服务,为政府部门,管理机构、央企国企、研究机构、教育部门提供技术平台与知识赋能。(来源:长三角G60科创走廊)...
阅读更多

LossLess-Claw-Enhanced —— 为 OpenClaw 打造具备“永恒记忆”的第二大脑

1. 引言:告别 AI 的“健忘症” 在长时间的代码重构、复杂的项目规划或跨周的调研任务中,开发者常遇到一个棘手的痛点:随着对话轮次的增加,AI 智能体会因为“滑动窗口”限制而遗忘早期的关键决策和背景信息。 LossLess-Claw-Enhanced 是一款专为 OpenClaw 生态设计的上下文管理增强插件。它不仅仅是一个简单的存储工具,更通过层次化的摘要架构,赋予了智能体几乎无限的精准记忆能力,确保即便在数十万 Token 的超长对话中,早期的细节依然“触手可及”。 2. 核心技术特性 2.1 真正的无损上下文管理(Lossless Architecture) 传统方案往往通过直接截断或丢弃旧消息来腾出上下文空间。而 LossLess-Claw-Enhanced 采用了基于 DAG(有向无环图)的层次化摘要系统: 全量持久化: 所有原始交互数据均实时存入本地 SQLite 数据库。 递归压缩: 当上下文接近临界点时,系统会自动将旧消息压缩为高阶摘要,并保留指向原始数据的索引。 动态重构: 当智能体需要引用早期细节时,系统能根据需求动态展开摘要,实现 100% 的关键信息召回率。 2.2 深度中文与多语言优化 针对中文、日文等 CJK 字符在 Token 计算中常被低估导致内存溢出的问题,增强版进行了专项优化: 精准 Token 估算: 修正了原版对非英文文本的计数偏差,有效防止因上下文“隐形溢出”导致的模型响应异常。 语义对齐: 在生成摘要时,更精准地保留中文语境下的专有名词与逻辑关联。 2.3 智能体“搜索”技能集成 该插件为 OpenClaw 原生注入了多项记忆检索工具,使 Agent 具备了主动回溯的能力: lcm_grep: 跨历史记录进行全文搜索。 lcm_expand: 针对特定的摘要节点进行深度还原。 lcm_describe: 快速获取当前长对话的全局架构视图。 3. 安装与快速配置 您可以直接通过 OpenClaw 的插件管理命令行完成部署: Bash # 克隆增强版仓库 git clone https://github.com/win4r/lossless-claw-enhanced.git # 安装并注册插件 openclaw plugins install -l ./lossless-claw-enhanced # 验证安装状态 openclaw plugins inspect lossless-claw 在 config.json 中,建议将 contextEngine 切换为 lossless-claw,并配置高性能模型(如 Gemma 4 31B 或 Claude 3.5 Sonnet)作为摘要引擎,以获得最佳的记忆压缩效果。 4. 典型应用场景 多周项目跟踪: 即使跨越数个星期的开发周期,Agent 依然记得三周前关于系统架构选型的讨论细节。 自动化审计与合规检查: 完整保存每一步指令执行、代码变更与决策链路,形成天然的可追溯审计日志。 复杂代码重构: 在处理数万行规模的遗留代码还原时,保持对全局依赖关系的持续感知。 5. 结语 LossLess-Claw-Enhanced 的出现,标志着 OpenClaw 从一个“即时助手”向“长期协作伙伴”的进化。通过赋予 AI 稳定的长效记忆,我们正在让每一位开发者的数字分身变得越用越聪明。...
阅读更多

技术深度解析:解密 Claude Code 核心架构与源码工程化实践

1. 概述 Claude Code 是 Anthropic 推出的新一代命令行 AI 协作工具。不同于传统的 Chat 界面,它直接深入终端,具备文件系统操作、代码执行及实时调试能力。通过对其实战表现及底层逻辑的深度剖析,我们可以一窥未来 AI 原生(AI-Native)开发工具的设计范式。 2. 核心架构逻辑 Claude Code 的强大源于其精密的多层协作机制。其核心逻辑并非简单的 API 调用,而是一套完整的上下文管理系统: 智能上下文感知: 系统能够自动识别项目结构,通过静态分析提取代码依赖树,确保 AI 在处理复杂逻辑时拥有精准的局部与全局视野。 工具调用循环(Agentic Loop): 采用 ReAct 框架理念,模型不仅输出建议,还能自主执行 ls、grep、cat 等指令,并在执行结果的基础上进行自我修正。 安全沙盒设计: 为了保障代码安全,所有的执行与分析过程均遵循高度受控的权限校验逻辑,防止非预期的文件篡改。 3. 源码工程化挑战:从混淆到可读 在深入研究此类复杂工具的源码时,开发者常面临生产环境代码(Production Build)带来的挑战。为了将编译后的代码还原为高质量的开发态源码,我们需要关注以下技术路径: 3.1 模块与依赖重构 生产代码通常经过 Webpack 或 Babel 的深度处理,导致 createElement 调用变得晦涩难懂。高效的还原方案包括: 组件还原: 将 external_react_default().createElement 等指令精准恢复为 JSX 语法。 样式抽离: 识别 Styled-components 的混淆片段,将其重新映射回易读的模板字符串格式。 变量解构: 修正局部变量与全局引入的 Import/Export 逻辑,恢复代码的模块化语义。 3.2 类型安全与 TypeScript 转换 在将混淆代码迁移至现代 React 工程时,类型定义是核心痛点。通过对源码中闭包逻辑的分析,可以推导出组件的 Props 接口,从而完成从 JS 到 TypeScript 的高质量重构。 4. 关键应用场景 旧代码库重构: 利用 Claude Code 的分析能力,快速扫描遗留项目中的反模式(Anti-patterns),并提供自动化重构方案。 自动化测试生成: 结合源码逻辑,智能补全单元测试(Unit Test)与集成测试用例,覆盖复杂的边界条件。 实时 Debug 协作: 在命令行中直接描述报错信息,由 AI 结合上下文进行诊断并提供一键式修复建议。 5. 结语 Claude Code 的出现标志着开发者与 AI 的协作从“对话式”迈向了“工程式”。通过对这类工具底层逻辑的拆解与源码级理解,我们不仅能提升日常开发效率,更能为构建更智能、更安全的开发工作流提供宝贵参考。 技术贴士: 在处理经过 Webpack 混淆的代码还原时,建议优先使用 Babel 插件进行 AST 转换,以确保代码逻辑的一致性并避免正则替换带来的副作用。...
阅读更多

在OpenClaw中深度集成 Gemma 4 模型 —— 实现本地与前沿 AI 能力的无缝结合

随着 Google DeepMind 正式发布 Gemma 4 系列模型,开源社区迎来了多模态理解与推理能力的新巅峰。为了让开发者能够更灵活地在受控环境下使用这些强大的模型,OpenClaw 现已全面支持 Gemma 4 全系列(从轻量级的 E2B/E4B 到高性能的 31B 模型)。本文将详细介绍如何在 OpenClaw 环境中配置并优化 Gemma 4,以实现最佳的本地推理表现。 1. 核心技术优势 将 Gemma 4 集成至 OpenClaw 不仅仅是简单的接口对接,更是对本地 AI 工作流的一次全面升级: 原生多模态支持: Gemma 4 能够同时处理文本、图像及音频输入。在 OpenClaw 的插件系统中,用户现在可以直接通过 Gemma 4 进行复杂的跨模态分析。 长文本上下文: 凭借高达 256K 的上下文窗口(Context Window),Gemma 4 使 OpenClaw 在处理大规模代码库分析或长文档总结时表现得游刃有余。 结构化思考模式: Gemma 4 引入了全新的 Thinking 推理模式。OpenClaw 现已支持解析 <|think|> 标记,让用户在获得最终答案前,能够观察到模型的内部推理逻辑。 2. 配置与集成指南 2.1 依赖环境准备 在开始集成前,请确保您的本地环境满足以下要求: OpenClaw 版本: v1.4.2 或更高版本。 后端驱动: 推荐使用 Ollama 或 vLLM 作为底层推理引擎,以获得对 Gemma 4 权重的最佳兼容性。 2.2 配置步骤 您可以通过修改 ~/.openclaw/openclaw.json 配置文件或使用 onboard 命令快速完成集成: Bash # 使用命令行快速引导 openclaw onboard --auth-choice ollama 若手动配置,请在 providers 中添加以下模型定义: JSON {   "id": "gemma4:latest",   "name": "Gemma 4 (8B)",   "reasoning": true,   "contextWindow": 131072,   "maxTokens": 8192 } 3. 性能优化建议 (Best Practices) 为了在不同硬件条件下压榨出 Gemma 4 的最高性能,我们建议采取以下策略: 采样参数优化: 官方建议将 temperature 设置为 1.0,top_p 设为 0.95,以平衡生成结果的创造性与稳定性。 显存管理: 如果您运行的是 31B 较大的变体,建议在 vLLM 中使用 --gpu-memory-utilization 0.95 来最大化 KV 缓存,从而提升多轮对话的响应速度。 模态优先原则: 在进行多模态输入时,建议将图像或音频数据放置在提示词(Prompt)的最前端,这能显著提高模型对全局信息的感知效率。 4. 结语 Gemma 4 与 OpenClaw 的结合,为开发者提供了一个兼具隐私性与高性能的本地 AI 沙盒。无论是构建自主智能体(Agentic Workflows)还是进行复杂的代码重构,这一组合都展现出了极强的工程实用价值。...
阅读更多

久湛科技作为特别赞助商深度参与“AI FOR DISCOVERY”学术峰会 携手深算院共促人工智能与科学计算融合创新

“人工智能”正从技术名词加快演变为驱动基础科研与产业升级的“新质生产力”。在这一背景下,2026年3月23日,“AI FOR DISCOVERY:从范式革命到产业重构”学术峰会在港科大上海中心北杨基地成功举办。作为本次大会的特别赞助商,上海久湛信息科技有限公司深度参与会议组织与生态共建,充分展现了企业在人工智能赋能科学发现和产业升级领域的积极布局与创新实力。 本次大会由香港科技大学首席副校长、久湛信息联合创始人郭毅可教授担任大会主席。作为长期深耕人工智能、数据科学与产业创新融合发展的领军学者,郭毅可教授的深度参与,进一步凸显了本次峰会在学术引领、技术前瞻和产业协同方面的重要价值,也体现了久湛科技在高水平创新生态中的独特优势和战略地位。 峰会上释放出重要信号:香港科技大学正在上海积极推进AI for Science应用落地,加快推动前沿科研成果向现实生产力转化。会议期间,深圳计算科学研究院与上海久湛信息科技有限公司正式签署战略合作协议。未来,双方将依托崖山大数据底座,联合推进人工智能与科学计算的融合创新,围绕科学研究、算力支撑、模型应用与场景落地等方向开展深入合作,为科技创新与产业转型提供更强支撑。 此次战略签约,不仅是久湛科技面向AI for Science前沿方向的重要布局,也是企业持续深化“人工智能+科研”“人工智能+产业”融合创新的又一关键举措。通过与深圳计算科学研究院这样具有科研与平台优势的机构携手合作,久湛科技将进一步夯实自身在大模型应用、科学智能平台建设和行业场景赋能等方面的能力基础,推动人工智能技术在更广范围、更深层次实现落地应用。 值得一提的是,久湛科技还是港科大上海中心北杨基地重点入孵企业。此次以特别赞助商身份深度参与大会,并与深圳计算科学研究院达成战略合作,进一步印证了港科大上海中心“孵化赋能、生态协同”科创模式的成效。依托港科大上海中心的平台资源、创新网络与产业链接能力,久湛科技不断加强与高校、科研机构、创新企业和产业伙伴的协同互动,持续拓展人工智能技术的应用边界和产业价值空间。 面向未来,久湛科技将以此次峰会和战略合作为契机,继续发挥自身在人工智能、大模型、科学智能平台及产业应用融合方面的优势,依托港科大上海中心的创新生态和合作网络,持续深化与顶尖高校、科研院所及产业伙伴的协同创新,积极推动人工智能与科学计算、基础科研和产业升级深度融合,为培育新质生产力、建设开放协同的科技创新生态贡献更大力量。...
阅读更多

大语言模型火爆的今天,我们为什么还要拥抱世界模型?

图灵奖得主杨立昆认为,目前AI界持续追捧的大语言模型并非十全十美,它隐藏着四个难以突破的致命弱点:一是理解物理世界,二是拥有持久记忆,三是具备推理能力,四是复杂规划能力。 而能够克服第一个“致命弱点”的技术,叫作世界模型。 这听起来或许很抽象,但你一定知道谷歌的3D游戏、特斯拉的自动驾驶。 世界模型意味着机器能够像人一样辨别物理空间、理解物理规律、根据经验做出推理决策。 与大语言模型不同的是,世界模型不再遵循从海量文本语料生成概率的逻辑,而是在深度分析大规模现实世界视频后推测因果。 就像人类世界的婴儿一样,在交互学习中构建对这个世界的认知。 想象一个刚出生的婴儿,她的眼睛尚未完全聚焦,却能通过触摸、温度、声音的碎片拼凑出世界的轮廓。人类大脑用数百万年进化出这种能力——将感官信息转化为对物理规律的理解。 而这恰是今天人工智能所欠缺的,世界模型正在努力发展的——从数据中重构对重力、时间等知识的理解。 世界模型的概念最早可追溯至1980s到1990s的认知科学和控制理论,那时的研究者受心理学影响,提出AI系统需要构建对环境的内部模拟,从而进行预测和决策,即AI的环境建模能力。 这里有一个重要的要素:环境。 从生物学上来讲,不论是微生物、动物还是人,行为都遵循着一个最基本的规则:刺激-反应模式,即生物反应是对环境刺激的直接响应。 随着生物千亿年漫长的进化,动物发展出感觉和心理,通过视觉、听觉、嗅觉等感官感知外界,产生出兴奋、恐惧等简单情绪;人类进一步发展出自我意识,而人类意识和动物感觉最大的区别是能否自主规划、有目的地进行决策和行动。 拿生物进化过程和AI的发展历程相比,我们不难发现,其实AI的终极形态AGI就是要发展出自主感知现实、自我规划、有目的决策的能力。 世界模型的雏形就萌芽于心理学家对人类和动物认知理解世界并做出决策的观察。这个理论叫作心智模型,1990年由David Rumelhart提出,强调智能体需对环境形成抽象表征。 以我们自身举例,人类大脑对周围世界有一种习得的内在认知框架,根据经验做决策,如看到乌云就联想到下雨。再比如,我们不会记住每片树叶的形状,却能瞬间判断树枝能否承受体重。同理,世界模型就是让机器构建起对周围环境和世界的理解和预测能力,比如看到火就联想到烫伤。这种抽象能力,正是这一时期学者希望机器具有的禀赋。 但是,这阶段的世界模型研究停留在理论构想阶段,虽有了较为清晰的定义和目标,仍没有具体的技术路径。 世界模型研究开始落地是2000s到2010s的计算建模阶段,随着强化学习和深度学习的深入发展,学者开始尝试用神经网络构建可训练的世界模型。 强化学习通过奖惩机制让其在与环境交互过程中不断习得策略,类似于“训狗”,深度学习通过分层特征提取让其从海量数据中自动学习规律,类似于“炼金”。 2018年,DeepMind 《World Models》(Ha & Schmidhuber)论文首次用“VAE+RNN+控制器”的三段式架构,构建可预测环境的神经网络模型,成为现代世界模型的里程碑。 这一过程类似于“造梦”——先通过自动编码器VAE将现实场景压缩成数据,再利用RNN循环神经网络推演未来可能的情节,最后用精简的控制器指导行动。这意味着世界模型首次具备了颅内推演的能力,像人类一样在行动前预判后果,大大降低了试错成本。 2022年后,世界模型进入大模型时代,借助Transformer的序列建模能力和多模态学习技术,应用范围从单一模态扩展到跨模态仿真,世界模型的推演也从2D走向3D(如OpenAI的GATO、DeepMind的Genie)。 近期研究如Meta的VC-1、Google的PaLM-E进一步将世界模型的概念带入公众视野,将世界模型与大语言模型结合以实现更通用的环境推理成为一种技术发展路径。 Google的PaLM-E(5620亿参数)模型成功将语言模型与视觉、传感器数据等物理世界信息结合,机器人能够理解复杂指令(如“捡起掉落的锤子”)并适应新环境执行任务。Meta Llama系列的开源多模态框架(如MultiPLY)进一步促进了对物理环境的3D感知研究。 由上,从概念推演到落地实践,世界模型在发展中逐步摸索,渐渐走出一条从混沌到清明的路。 Transformer架构的进化、多模态数据的爆发,让世界模型走出训练场,走进游戏场,再走向真实世界——谷歌、腾讯通过其生成逼真的游戏场景,特斯拉用神经网络预测车辆轨迹,DeepMind通过建模预测全球天气。 就这样,在实验室中蹒跚学步的世界模型开始了他对现实物理规律的探索之路。 就像人类幼年通过游戏感受规则完成社会化一样,世界模型的第一关也是游戏。 初期的模型应用仰赖规则明确的虚拟环境和边界清晰的离散空间,如Atari游戏(DQN)、星际争霸(AlphaStar),采用表格型模型(如Dyna),后期结合CNN/RNN处理图像输入。 进化至3D版后,谷歌DeepMind的Genie 2可通过单张图片生成可交互的无限3D世界,时长达1min,用户可自由探索动态环境(如地形变化、物体互动)。由腾讯、港科大、中国科大联合推出的GameGen-O模型可一键生成西部牛仔、魔法师、驯兽师等游戏角色,还能以更高保真度、更复杂的物理效果生成海啸、龙卷风、激光等各种场景。 经过大量训练后,世界模型由游戏过渡到工业场景。 游戏引擎的核心能力在于构建高保真、可交互的3D虚拟环境。这种能力被直接迁移到工业场景中,用于模拟工业场景中各种可能出现故障的复杂场景。 机器人公司波士顿动力在虚拟环境中预演机器人动作(如摔倒恢复),再迁移到实体机器;特斯拉2023年提出的世界模型直接整合了游戏引擎的仿真技术,利用合成数据训练自动驾驶系统,减少对真实路测数据的依赖;蔚来的智能世界模型能够在极短时间内推演数百种可能情境并做好预案和决策。 最近,世界模型还走进了基础研究领域。 DeepMind的GraphCast靠世界模型处理百万级网格气象变量,预测天气能力比传统数值模拟快1000倍,能耗降低1000倍。它通过图神经网络架构,能够直接从历史再分析数据中学习天气系统的复杂动力学,精准、高效预测全球天气。 从游戏般的虚拟场景到自动驾驶等现实场景,世界模型的本质是通过大量多模态资料理解物理世界的规律。未来,“世界模型+大语言模型”可能成为AGI的核心架构,让AI不仅能聊天,还能真正理解并做出决策改变现实世界。 不过,我们为何需要世界模型?在大语言模型火爆全球的今天,是什么让其显得不可替代呢? 让AI真正从模仿表征到感知本质,克服其各种恐怖谷效应的关键是:让它真正理解这个世界,了解现实空间和物理规律,进而理解它为什么会做这件事,而不是机械地根据海量数据的关联概率推测下一个token是什么。 这是基于大规模文本语料的大语言模型和不断试错优化寻找最优路径的强化学习做不到的,只有世界模型能做到。 传统AI是数据驱动型的被动反应系统,而世界模型通过构建内部虚拟环境理解了物理、碰撞等现实规律,能够像人类一样通过想象预演行动后果,并在游戏、机器人等领域共享底层推理算力。 首先是通过底层建模和多模态整合构建出跟人类一样的心智模型。外部,世界模型不仅模拟物理规律,还试图理解社会规则和生物行为,从而在复杂场景中趋利避害。内部,世界模型根据感知、预测、规划和学习的协同,形成类似人类心智的时空认知能力。 其次是因果预测和反事实推理能力。世界模型能够基于当前状态和行动,预测未来的演变结果。其具备类似人类的常识库,能填补缺失信息并进行反事实推理(what if),即使未直接观察某事件,也能推断“如果采取不同行动会如何”。这种能力使其在数据稀缺时仍能有效决策,减少对海量标注数据的依赖,在自动驾驶领域应用较多。 最后,世界模型通过自监督学习构建对世界的通用表征,获得了跨任务、跨场景的泛化能力,而传统模型通常需针对特定领域的具体任务微调。 但是,这些能力,为什么火极一时的大语言模型做不到呢? 要弄清为什么世界模型的预测能力和大语言模型的推测token能力不一样,我们需要弄清一个概念:相关性≠因果性。前者是概率关联、后者是因果推理。 大语言模型(如GPT系列)侧重于大数据驱动的自回归学习,通过海量文本数据训练模型以生成文本,本质是预测概率,而世界模型学派认为自回归的Transformer无法通往AGI。AI需要具备真正的常识性理解能力,这些能力只能通过深度分析大量照片、音视频等多模态数据对世界的内在表征来获得。 模型结构层面,大语言模型主要依赖Transformer架构,通过自注意力机制处理文本序列。世界模型则包含多个模块,如配置器、感知、世界模型、角色等,能够估计世界状态、预测变化、寻找最优方案。 通俗地讲,大语言模型训练出的文本天才是纸上谈兵的文将,对常识可能一窍不通。而世界模型更像在建模环境里身经百战的武将,可以凭直觉和经验预判对手如何出招。 世界模型虽前景可期,目前依然面临着一些瓶颈。 算力上,训练世界模型所需要的计算资源远超大语言模型,且存在“幻觉”(错误预测)问题;泛化能力上,如何平衡模型复杂度与跨场景适应性仍需突破;训练集上,多模态的数据规模更少,且需深度标注,质量把关是重中之重。 如果说类似GPT一样的大语言模型已经到了能言善辩的青春期,世界模型实则还处于牙牙学语的幼年期。 总的来讲,世界模型是深度学习之外的另一条探索道路。如果未来深度学习陷入发展瓶颈,世界模型可能是一种备选方案。但现阶段,世界模型仍在探索期,我们仍要将主心骨放在大语言模型和深度学习这条技术线上。 多点发力,协同并进,才能让AI的成长有更多道路可走。...
阅读更多

AI时代,所有行业都值得再做一遍

AI似乎为我们展现了一幅光怪陆离的画卷,在这幅画卷之下,人们看待所有行业的方式都不再是互联网式的。  正是因为人们跳出了互联网的牵绊,因此,在很多看上去业已尘埃落定的行业,开始有了新的起色,开始有了新的可能性。  正是由于这样一种可能性,我们完全有理由相信,在AI时代,几乎所有的行业都值得我们再做一遍。  或许是看到了AI时代带来的无限可能性,因此,我们才看到了阿里巴巴对于AI的大手笔投入,我们才看到了腾讯在腾讯元宝推广上的没有上限。  不出意外的话,随着越来越多的玩家们杀入到AI赛道,特别是当他们开始以AI为主要竞争焦点,一场全新的战局将会拉开序幕。  如同互联网时代深度改造了与我们生活相关的诸多领域和场景一样,在AI时代,同样的场景或许将会出现。  AI之所以会有如此巨大的魔力,AI之所以被如此多的玩家们推崇,并不仅仅只是因为它是一个新生的概念,而是因为它提供了一种全新的解决方案,按照这样一种解决方案,我们可以找到新的红利,我们可以获得新的发展,我们可以将几乎所有的行业重新做一遍。  本文试图通过AI之于行业的内在改造逻辑来探究AI视角下所有行业都值得再做一遍的深层次原因。  AI提供了一种提升效率的可能性  互联网时代,之所以会有如此多的玩家投身其中,之所以会有如此多的行业会与互联网产生联系,其中一个很重要都原因在于,借助互联网式的去中间化,借助“互联网+”模式,各个行业都能够获得效率上的提升。  电商如此,金融如此,其他类型的“互联网+”模式,同样如此。  然而,当互联网在去中间化的效率上开始展现出越来越多的痛点和难题,特别是随着玩家们边界的拓展,以及随着流量的见顶,以互联网为代表的效率提升方式开始遭遇到了越来越多的问题和挑战。  可以说,仅仅只是借助互联网的方式,仅仅只是借助去中间化的方式,开始越来越无法带来效率的提升,亦或是在提升效率上所耗费的成本越来越高。  拿电商为例,站在面对海量的产品,用户的主要痛点早已不再是买不到货的问题,而是在如此多的供应商里如何找到适合自己的商品的问题。  在这样一个大背景下,找到互联网的替代品,以更好地,更低成本地实现效率的提升,成为了一种必然。  正是在这个时候,我们才看到了AI的横空出世,我们才看到了越来越多的玩家开始将关注的焦点聚焦在了AI上。  通过AI技术,原本看似无法再度提升的效率有了新的可能性,原本看似无法再度缩短的中间化,有了再度缩短的可能性。  正是因为如此,我们才有理由相信AI可以为我们提供一种全新的效率提升解决方案,并且由此孪生出新的商业模式,释放新的发展红利。  AI提供了实现商业进化的可能性  当互联网时代的发展开始进入到一个全新的阶段,特别是当互联网玩家们开始感受到越来越多的发展瓶颈,它们便开始探索新的发展模式,它们便开始探索新的商业模式。  在这个过程中,我们看到了新零售的出现,我们看到了工业互联网的萌芽,我们看到了诸多新概念的出现。  那么,缘何这些新概念并未真正得以持续发展呢?缘何这些新概念昙花一现呢?  深入分析,不难看出,这些新概念、新提法,并未真正衍生出新的商业,并未真正实现互联网式的商业模式的颠覆,才是导致它们昙花一现的关键所在。  当AI时代来临,特别是当AI开始催生出新的商业进化,实现了互联网式的商业模式的迭代和创新,我们便看到了与以往的发展模式完全不同的发展模式。  以AI为新的视角,玩家们的商业模式不再是以平台和中心为主导的,不再是以边界的拓展和规模的增长为驱动力的,不再是由外而内的。  如果我们对于这样一种发展状态进行总结和定义的话,商业上有了新的进化,有了新的创新,不再仅仅只是困囿于传统意义上的商业模式,不再困囿于互联网意义上的商业模式,或许才是AI之所以为人们打开新的发展思路的关键。  毫不夸张地说,AI的成熟与落地,让人们看到了衍生出新的商业的可能性。  如果对于AI所衍生出来的这样一种新商业进行总结和定义的话,不再以虚拟经济和实体经济为界,不再是平台和用户为界,而是真正达成了共生、共存,彼此协同,最终蜕变出来了一种全新的商业状态,无疑是再合适不过的了。  随着AI的逐渐落地,特别是随着AI对于B端和C端的改造开始变得深入而全面,所有行业的构成元素、运行逻辑都将发生一次深刻而全面地改变。  在这样一种改变的大背景下,新的商业将会萌生,我们看到的零售、金融、制造、教育等诸多行业都将发生一次彻底而深入的改变。  正是得益于此,我们才有理由相信在AI时代,几乎所有的行业都值得重新再做一遍。  AI提供了行业重构的新机会  所有的行业都值得重新再做一遍,需要一个先决条件,即,在看似业已确定的市场格局之下,蕴藏着新的机会。  当新的机会开始出现,几乎所有的玩家们并不是以它们在互联网时代的市场地位和规模来衡量的,而是站在了同一个起跑线上。  如果对于这一现象进行总结和定义的话,行业的重构,无疑是再合适不过的了。  那么,现在正在开启的这样一种行业的重构,究竟是如何引起的呢?  笔者认为,AI的逐步成熟和完备,特别是AI在商业上的逐渐展开,行业的元素、行业的运行逻辑、行业的格局都开始一场深刻而全面的改变。  可以说,当人们开始用AI来改造自身,当人们开始用AI来重塑以往的行业运行逻辑的时候,新的机会,便开始打开。  这一点,我们可以从deepseek的横空出世之后,以及由此所带来的对于原本市场格局的打破上,看出一丝端倪。  我们都知道,当deepseek开始出现,原本各个玩家研发自身的大模型,甚至将大模型看出是打造自身护城河和生态体系的发展模式开始被打破,越来越多的玩家们开始通过主动接入deepseek来占得发展的先机。  在这样一个过程当中,我们看到了百度、腾讯等诸多玩家们开始主动接入到deepseek,可以说,这个时候,玩家们站在了同一个起跑线上。  以此为开端,传统行业不仅将会面临一次重构的机会,而且互联网行业同样将会面临一次重构的机会。  可以想象,当AI开始大规模地落地,现在业已形成的行业格局将会被打破,随着「AI+」的逐渐丰富和完善,那些真正将不同的行业、场景接入到AI的玩家,并且实现了这样一种AI生态的打造的玩家,才能在新的发展过程当中,占得先机。  最后的话  当AI开始成熟,特别是当AI开始对传统行业和互联网行业开启一场深度而全面地改造,我们看到的是,一场全新浪潮的来临。  可以说,在AI时代,几乎所有的行业都值得我们再做一遍。  这一点,我们业已从AI新生代玩家们的强势崛起上,看出一丝端倪;这一点,我们业已从互联网玩家们对于AI的全面拥抱上,看出一丝端倪。  当AI所开启的这样一场新浪潮汹涌而来,一幅更加生动而鲜活的商业新场景开始出现。  在这样一个新场景下,新的商业将会衍生,新的玩家将会崛起,新的生活方式,同样将会出现。...
阅读更多