首页 > 基础资料 博客日记
openclaw 思考
2026-04-10 14:30:02基础资料围观1次
一些建议
- GUI or CLI
- 内部对龙虾的引入和使用,主要是 GUI的方式:绑定美信,安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。
- 外部公司已经趋向CLI:钉钉已经彻底 CLI 化了、一键接入OpenClaw,谷歌开源CLI狂揽15k Stars,智能体接管Workspace
- CLI相对于GUI:以编程思维解决任务;通过大模型推理来做任务规划,并自主调用指令和API来解决任务。
- 数字化的基础设施完全是面向开发者和人来构建,无法很好地适配到智能体和大模型上去,龙虾这类智能体能发挥的空间有限
- API开放、数据库、信息安全、认证、知识库接口等,都是较大的开发成本
- 改造内部基础设施,使其适合通用AI能力的发挥;不用强制通用AI能力纳入人工体系,限制其发挥应有能力。
- 领域或垂直大模型。这个思路未必正确,所有的AI能力都是通用能力,不会有跛脚的领域AI
- 对实时性有要求的场景是例外,但这种实时性效果需要付出较大的人力和时间成本,且场景无法直接从通用模型进展中获益;
Pi、OpenClaw与Claude code
https://yun123.io/blog/cli-coding-agents-comparison/
|
维度 |
Claude Code + Skill |
OpenClaw + Pi |
|
核心定位 |
通用模型 + 领域技能,偏“知识/流程专家” |
本地自托管 Agent 运行时,偏“执行型操作系统” |
|
技术核心 |
文件系统 Skill(指令/模板/脚本),按需加载 |
嵌入 Pi AgentSession + 自建 Gateway、Queue、Memory、Sandbox |
|
状态管理 |
以对话历史 + 按需读 Skill 文件为主,状态弱 |
JSONL transcript + Memory.md + Session Tree,状态强且可审计[4][8][9] |
|
工具体系 |
以 Excel/PowerPoint/Docx/PDF 等文档操作为核心[1][2] |
Shell、FS、Browser、消息通道、定时任务等全系统工具[4][8][9] |
|
安全治理 |
主要靠运行环境限制(API/Code/CLI 模式各自约束)[1] |
工具白名单、结构化命令过滤、沙箱容器执行[8][9] |
|
使用方式 |
在 IDE、CLI 或 Claude Web 里加载技能,执行特定流程 |
安装在本机/服务器上,通过消息/终端持续调用,像“常驻数字员工” |
|
典型场景 |
财务建模、数据分析、文档撰写与审阅、领域报告 |
邮件/日程自动化、DevOps 运维、浏览器操作、跨应用工作流 |
从技术本质来看:
- 都是“能写代码并调用工具的模型 + 执行环境”。
- 区别不在“是不是智能体”,而在于:
- Claude Code 把“领域知识 + 办公工具”封装成可插拔技能 → 在具体办公/金融场景形成巨大生产力飞跃。
- OpenClaw 把“编程智能体内核 + 操作系统级控制”封成一个可部署基础设施 → 变成所有行业都能套的 Agent Runtime。
OpenClaw 为何能出圈?
OpenClaw 是建在 Pi coding agent 之上的本地自托管 AI Agent 运行时:它不是“又一个聊天机器人”,而是一个真正控制电脑 / 服务器执行任务的编程智能体平台[4][5]。
1. Pi Agent:极简但可扩展的“编程大脑”
Pi 本身的特征(从 Pi 文档和集成说明)[4]:
- 提供
createAgentSession()创建一个完整的 Agent 会话: - 负责 prompt、上下文管理、工具调用、思维链、历史压缩等
- 通过事件流(message_start / tool_execution_start / turn_end 等)暴露整个 Agent 运行过程[4]
- 内置 coding 工具(读写文件、bash、编辑器指令),非常适合做编程类智能体内核。
Pi 的定位:一个最小可用的“AI 编程内核”,你可以在上面自己搭一整套 agent 系统。OpenClaw 就是这样做的。
2. OpenClaw 的关键技术设计:从「模型」到「可控系统」
OpenClaw 没有把 Pi 当作“外部进程 RPC 调用”,而是:
- 直接在 TypeScript/Node 里 嵌入 Pi 的 AgentSession(
runEmbeddedPiAgent)[4] - 在其外面再包一整套“工程级外壳”:
(1)Agent Loop & Gateway:把“对话”变成「全流程执行」
架构上,OpenClaw实现了一个标准化的 agent loop[4][6][8]:
- 输入统一化(Channel Adapter)
- 来自 WhatsApp / Telegram / Slack / Web 的消息都转成统一结构[6][8]。
- Gateway & Lane Queue
- Gateway 把会话放进「Lane」(队列),每个会话一个 lane,默认串行执行,防止状态冲突[8]。
- 避免多轮并行调用导致文件状态或进程状态被写乱,这一点在“能执行 shell / 文件操作”的 agent 中极其关键。
- Agent Runner
- 调用 Pi 的会话、构造系统提示、挂载工具、控制思考模式、处理模型切换与 Failover 等[8]。
- Agentic Loop
- 模型输出 → 工具调用 → 执行结果写回上下文 → 下一个决策,直到任务完成为止[6][8]。
- 输出与审计
- 所有交互写入 JSONL transcript,可重放、可审计[8][9]。
这套 loop 实际上是**“一个能真正跑生产的 Agent 操作系统”**,而不是“一个好玩的编程助手”。
(2)工具体系:从「会写代码」到「会操作系统 / 浏览器 / 消息通道」
OpenClaw 在 Pi 的基础工具(read/write/bash/edit)之上,自行构建了完整的工具层[4][8][9]:
- 重写/包装原有工具:
- bash → 受控的
exec/process(可选择在宿主机或 Docker 沙箱中执行)[4][8] - 文件读写 → 根据是否启用 sandbox,限制访问路径
- 新增一大堆工具:
- 消息类:Telegram、Slack、Discord、WhatsApp 操作
- 浏览器类:基于可访问性树(ARIA)的页面语义快照和点击/输入能力,降低 token 成本、提高解析精度[9]
- 调度类:定时任务(cron)、会话跨设备、网关控制等
- 工具策略层:
- 每个工具都通过策略过滤(按 profile、provider、agent、group、sandbox 等)[4],防止误用高风险指令。
这就让 Pi 从一个“编程助手”,变成了一个能真正操控电脑 / 服务器 / 浏览器 / 消息平台的操作层智能体。
(3)记忆与可观测性:工程级的“可追溯智能体”
OpenClaw在记忆和观测上做了两件关键事[8][9]:
- 双层记忆结构
- JSONL transcript:事实级审计日志——所有请求、工具调用、模型输出都在这里,适合审计/重放[8][9]。
- Markdown Memory(MEMORY.md):更抽象的经验总结、偏好、项目进度等[9]。
- 上面再叠加混合检索:向量搜索 + SQLite FTS5 关键词索引[9]。
- Context Guard & 自动压缩
- 监控 token 用量,触发自动压缩历史、合并对话、保留关键信息[4][8]。
- 提供“compaction-safeguard”和“context-pruning”等 Pi 扩展,按任务重要性/TTL 过滤保留内容[4]。
直接效果:
- 长期运行的 agent 不再靠“不断堆叠聊天记录”,而是有结构化记忆。
- 企业可以把 OpenClaw 当成“一个持续在线、可审计的数字员工”,符合金融、政企对合规和可追责的要求。
(4)安全与多模型治理
- Shell 安全:
- 白名单命令模式:只允许特定形态(如 git / npm / ls 等)[9]
- 阻断带
>,$(),&&,||等高风险结构的命令[9] - 多模型、多 Key 管理:
- Auth Profile Store:管理多个 API Key,自动轮换、遇到错误自动 failover[4]
- Model Resolver:根据 provider(Anthropic / OpenAI / Gemini 等)和任务类型选择合适模型[4][8]
这一套东西本质是:把 LLM 当作一个不可靠组件,套上工程级治理与防护。
这就是为什么安全圈和大厂架构师在分析 OpenClaw 架构时,会认为它是「真正适合进生产的 Agent 框架」,而不是单点工具[8][9]。
3. 为什么它能在几个月内成为 GitHub 最多 Star 的“实际软件项目”?
从公开数据看:
- OpenClaw 从 2025 年 11 月开源,到 2026 年 3 月已经超过 25 万 Star,成为 GitHub 上 Star 数最高的非“列表类”软件项目[10]。
- React 用了 13 年才达到了 24万+ Star,而 OpenClaw 约 100 天就达到了类似量级[10]。
这不是纯粹“炒作”,而是技术形态决定了它的传播路径:
- 定位是“能真正替你干活”的本地 Agent:
- 自托管、本地-first,极大缓解企业和开发者对隐私、合规的担忧[4][8]。
- 可以运行在家用 Mac mini / 树莓派 / VPS 上,门槛极低[4]。
- 开发者直接感知价值:
- 开箱可以:清理邮箱、管日程、登录网站、下载文件、运行脚本、跑 CI 等[4][6][8]。
- 对很多个人开发者/小团队,等于突然免费多了一个全栈 DevOps + 助理。
- 社区易于扩展:
- 工具有统一适配层(
toToolDefinitions+splitSdkTools),写一个工具基本就是写一个普通 TypeScript 函数[4]。 - 结合 Pi 的扩展体系,可以很快做出新类型 agent(开发团队、客服团队、运营团队等)。
一句话:OpenClaw 做的是“把 Pi 编程智能体做成一个完整的、可落地的系统”,刚好踩在“大家都在问:我能不能让 AI 真正替我干活?”这个需求点上。
实现原理
OpenClaw的架构由三个模块组成:Agent Loop、Tools、Gateway。
Agent Loop是龙虾的大脑,它负责决策和思考,它会根据当前任务判断下一步要做什么,并在需要的时候调用各种工具来完成行动。
Tools是龙虾的手脚,为Agent Loop提供各种能力,比如浏览网页、执行命令、调用 API、处理文件等,让龙虾真正具备干活的能力。
Gateway是龙虾的身体,它让整个系统能够持续在线,接收来自不同渠道的消息(比如 Telegram、飞书等),并把任务交给Agent Loop处理,再把结果返回给用户。
Agent Loop
Agent Loop,是AI接到一个任务之后,自己一步一步把事情做完的机制。
OpenClaw的Agent Loop是基于Pi SDK的,这是一个独立的开源项目:https://github.com/badlogic/pi-mono
Agent Loop不是OpenClaw的独家优势,Claude Code和Codex都有Agent Loop的逻辑,光从脑子的设计来看,OpenClaw跟Claude Code、Codex没什么本质区别。
Tools
第一层是基础工具。
这是最底层的一些能力,比如:读写文件、执行命令、浏览网页、搜索和抓取信息,这些工具让 AI 能够真正操作电脑,而不是只停留在聊天里。
第二层是 Skills。
Skills本质上是在教AI怎么像人一样干活。
它会告诉AI在任务场景下应该怎么做、应该调用哪些工具、步骤是什么。
比如:写代码前先扫描项目结构、修改文件前先做备份、写完代码之后自动运行测试,这些经验都可以写成 Skills,让AI在类似任务里自动复用。
第三层是外部工具。
这一层主要是接各种第三方服务,比如:调用外部 API、接入 SaaS 服务、扩展新的工具能力。
所以从底层来看,OpenClaw 的手脚并不是简单的一堆工具,而是一整套:基础工具 + Skills + 外部扩展组成的能力体系。
但工具体系本身并不是OpenClaw的独家优势,像Claude Code和Codex,都有同样的工具体系。
Gateway
第一,不关机。
龙虾是常驻在线的,就算系统崩了也会自动恢复,重启之后还能记住之前的对话。
比如凌晨3点服务器突然挂了,Gateway会自动把龙虾重新拉起来,并恢复之前的对话上下文,继续处理那些还没做完的任务。
等你第二天早上再来看,它就像从来没有断过一样,一直在工作。
第二,接所有平台。
Telegram、飞书、钉钉等20多个平台的消息,都可以统一接收和处理。
这意味着什么?你不需要为飞书单独写一个 bot,也不需要再为钉钉写个 bot。
Gateway在中间做了一层消息适配,不管消息来自哪个平台到AI 这里都会被转换成同一种格式。
你在飞书上给它发消息,它就在飞书上回复;在钉钉上发,它也会在钉钉上回你。
第三,会话隔离。
每个聊天窗口都是独立的,你和它的对话不会被别人的任务干扰。
比如你让它帮你查一份数据,同时又在另一个群里让它写一段文案。这两个任务在Gateway里是完全隔离的,各自有各自的上下文,不会串。
就像两个独立的员工在分别处理两件事,各干各的。
第四,排队控制。
同一时间只处理一个任务,不会因为消息太多而搞混。
比如说在一个飞书群里,我和同事同时发消息给龙虾,Gateway的处理策略很简单:谁先来做谁的,后面的任务排队。
这个设计看起来有点笨,但其实很聪明。
因为 LLM 的推理本来就不太适合并发,同时处理多个任务反而更容易出错,最后可能两个任务都做不好。
第五,心跳巡查。
心跳巡查是龙虾可以主动做任务的核心。
OpenClaw的主动执行能力主要靠两套机制:Heartbeat负责周期性巡检,Cron负责精确定时调度。
Gateway会定时主动检查有没有待办任务,如果有它就自己去执行,不需要你催它。
举个例子,你让它每天早上8点整理一份AI资讯摘要推送给你。
到了时间,Gateway的心跳机制就会自动触发这个任务,AI会自己去搜集信息、整理内容,然后发到你的飞书上。
你什么都不用做,打开飞书就能看到结果。
不过这里也有一个需要注意的地方:有时候 AI 会口头答应你已经配置好任务了,但实际上压根没写到待办里,这也就是很多时候龙虾不主动执行任务的原因。
第六,记忆刷盘。
当对话太长需要压缩时,它会先把重要内容存到记忆文件里,再进行压缩,避免关键信息丢失。
这点做的蛮好的,当我们和AI聊了很长一段时间,讨论了项目方案,也确认了不少关键决策。
如果直接压缩旧对话,这些结论就可能丢掉,下次它又得重新问我们。
Gateway的做法是:在压缩之前先把重要的结论和决策存到记忆文件里,这样即使上下文被压缩,关键信息也能随时找回来。
参考
[1] Agent Skills - Claude API Docs. https://platform.claude.com/docs/en/agents-and-tools/agent-skills/overview
[2] Use Claude for Excel. https://support.claude.com/en/articles/12650343-use-claude-for-excel
[3] Top 8 Claude Skills for Finance and Quantitative Developers. https://snyk.io/pt-BR/articles/top-claude-skills-finance-quantitative-developers/
[4] Pi Integration Architecture - OpenClaw Docs. https://docs.openclaw.ai/pi
[5] Pi: The Minimal Agent Within OpenClaw. https://lucumr.pocoo.org/2026/1/31/pi/
[6] Agent Loop - OpenClaw Docs. https://docs.openclaw.ai/concepts/agent-loop
[7] Turn your Raspberry Pi into an AI agent with OpenClaw. https://www.raspberrypi.com/news/turn-your-raspberry-pi-into-an-ai-agent-with-openclaw/
[8] OpenClaw Architecture, Explained: How It Works. https://ppaolo.substack.com/p/openclaw-system-architecture-overview
[9] OpenClaw Architecture Guide | High-Reliability AI Agent Framework. https://vertu.com/ai-tools/openclaw-clawdbot-architecture-engineering-reliable-and-controllable-ai-agents/
[10] OpenClaw Just Passed React. Here's What the GitHub Star Leaderboard Actually Looks Like. https://dev.to/andreagriffiths11/openclaw-just-passed-react-heres-what-the-github-star-leaderboard-actually-looks-like-3d5g
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:

