首页 > 基础资料博客日记

openclaw 思考

2026-04-10 14:30:02基础资料围观1次

极客资料网推荐openclaw 思考这篇文章给大家，欢迎收藏极客资料网享受知识的乐趣

一些建议

GUI or CLI

内部对龙虾的引入和使用，主要是 GUI的方式：绑定美信，安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。
外部公司已经趋向CLI：钉钉已经彻底 CLI 化了、一键接入OpenClaw，谷歌开源CLI狂揽15k Stars，智能体接管Workspace
CLI相对于GUI：以编程思维解决任务；通过大模型推理来做任务规划，并自主调用指令和API来解决任务。

数字化的基础设施完全是面向开发者和人来构建，无法很好地适配到智能体和大模型上去，龙虾这类智能体能发挥的空间有限

API开放、数据库、信息安全、认证、知识库接口等，都是较大的开发成本
改造内部基础设施，使其适合通用AI能力的发挥；不用强制通用AI能力纳入人工体系，限制其发挥应有能力。

领域或垂直大模型。这个思路未必正确，所有的AI能力都是通用能力，不会有跛脚的领域AI

对实时性有要求的场景是例外，但这种实时性效果需要付出较大的人力和时间成本，且场景无法直接从通用模型进展中获益；

Pi、OpenClaw与Claude code

https://yun123.io/blog/cli-coding-agents-comparison/

维度	Claude Code + Skill	OpenClaw + Pi
核心定位	通用模型 + 领域技能，偏“知识/流程专家”	本地自托管 Agent 运行时，偏“执行型操作系统”
技术核心	文件系统 Skill（指令/模板/脚本），按需加载	嵌入 Pi AgentSession + 自建 Gateway、Queue、Memory、Sandbox
状态管理	以对话历史 + 按需读 Skill 文件为主，状态弱	JSONL transcript + Memory.md + Session Tree，状态强且可审计[4][8][9]
工具体系	以 Excel/PowerPoint/Docx/PDF 等文档操作为核心[1][2]	Shell、FS、Browser、消息通道、定时任务等全系统工具[4][8][9]
安全治理	主要靠运行环境限制（API/Code/CLI 模式各自约束）[1]	工具白名单、结构化命令过滤、沙箱容器执行[8][9]
使用方式	在 IDE、CLI 或 Claude Web 里加载技能，执行特定流程	安装在本机/服务器上，通过消息/终端持续调用，像“常驻数字员工”
典型场景	财务建模、数据分析、文档撰写与审阅、领域报告	邮件/日程自动化、DevOps 运维、浏览器操作、跨应用工作流

从技术本质来看：

都是“能写代码并调用工具的模型 + 执行环境”。
区别不在“是不是智能体”，而在于：

Claude Code 把“领域知识 + 办公工具”封装成可插拔技能 → 在具体办公/金融场景形成巨大生产力飞跃。
OpenClaw 把“编程智能体内核 + 操作系统级控制”封成一个可部署基础设施 → 变成所有行业都能套的 Agent Runtime。

OpenClaw 为何能出圈？

OpenClaw 是建在 Pi coding agent 之上的本地自托管 AI Agent 运行时：它不是“又一个聊天机器人”，而是一个真正控制电脑 / 服务器执行任务的编程智能体平台[4][5]。

1. Pi Agent：极简但可扩展的“编程大脑”

Pi 本身的特征（从 Pi 文档和集成说明）[4]：

提供 createAgentSession() 创建一个完整的 Agent 会话：

负责 prompt、上下文管理、工具调用、思维链、历史压缩等

通过事件流（message_start / tool_execution_start / turn_end 等）暴露整个 Agent 运行过程[4]
内置 coding 工具（读写文件、bash、编辑器指令），非常适合做编程类智能体内核。

Pi 的定位：一个最小可用的“AI 编程内核”，你可以在上面自己搭一整套 agent 系统。OpenClaw 就是这样做的。

2. OpenClaw 的关键技术设计：从「模型」到「可控系统」

OpenClaw 没有把 Pi 当作“外部进程 RPC 调用”，而是：

直接在 TypeScript/Node 里嵌入 Pi 的 AgentSession（runEmbeddedPiAgent）[4]
在其外面再包一整套“工程级外壳”：

（1）Agent Loop & Gateway：把“对话”变成「全流程执行」

架构上，OpenClaw实现了一个标准化的 agent loop[4][6][8]：

输入统一化（Channel Adapter）

来自 WhatsApp / Telegram / Slack / Web 的消息都转成统一结构[6][8]。

Gateway & Lane Queue

Gateway 把会话放进「Lane」（队列），每个会话一个 lane，默认串行执行，防止状态冲突[8]。
避免多轮并行调用导致文件状态或进程状态被写乱，这一点在“能执行 shell / 文件操作”的 agent 中极其关键。

Agent Runner

调用 Pi 的会话、构造系统提示、挂载工具、控制思考模式、处理模型切换与 Failover 等[8]。

Agentic Loop

模型输出 → 工具调用 → 执行结果写回上下文 → 下一个决策，直到任务完成为止[6][8]。

输出与审计

所有交互写入 JSONL transcript，可重放、可审计[8][9]。

这套 loop 实际上是**“一个能真正跑生产的 Agent 操作系统”**，而不是“一个好玩的编程助手”。

（2）工具体系：从「会写代码」到「会操作系统 / 浏览器 / 消息通道」

OpenClaw 在 Pi 的基础工具（read/write/bash/edit）之上，自行构建了完整的工具层[4][8][9]：

重写/包装原有工具：

bash → 受控的 exec/process（可选择在宿主机或 Docker 沙箱中执行）[4][8]
文件读写 → 根据是否启用 sandbox，限制访问路径

新增一大堆工具：

消息类：Telegram、Slack、Discord、WhatsApp 操作
浏览器类：基于可访问性树（ARIA）的页面语义快照和点击/输入能力，降低 token 成本、提高解析精度[9]
调度类：定时任务（cron）、会话跨设备、网关控制等

工具策略层：

每个工具都通过策略过滤（按 profile、provider、agent、group、sandbox 等）[4]，防止误用高风险指令。

这就让 Pi 从一个“编程助手”，变成了一个能真正操控电脑 / 服务器 / 浏览器 / 消息平台的操作层智能体。

（3）记忆与可观测性：工程级的“可追溯智能体”

OpenClaw在记忆和观测上做了两件关键事[8][9]：

双层记忆结构

JSONL transcript：事实级审计日志——所有请求、工具调用、模型输出都在这里，适合审计/重放[8][9]。
Markdown Memory（MEMORY.md）：更抽象的经验总结、偏好、项目进度等[9]。
上面再叠加混合检索：向量搜索 + SQLite FTS5 关键词索引[9]。

Context Guard & 自动压缩

监控 token 用量，触发自动压缩历史、合并对话、保留关键信息[4][8]。
提供“compaction-safeguard”和“context-pruning”等 Pi 扩展，按任务重要性/TTL 过滤保留内容[4]。

直接效果：

长期运行的 agent 不再靠“不断堆叠聊天记录”，而是有结构化记忆。
企业可以把 OpenClaw 当成“一个持续在线、可审计的数字员工”，符合金融、政企对合规和可追责的要求。

（4）安全与多模型治理

Shell 安全：

白名单命令模式：只允许特定形态（如 git / npm / ls 等）[9]
阻断带 >, $(), &&, || 等高风险结构的命令[9]

多模型、多 Key 管理：

Auth Profile Store：管理多个 API Key，自动轮换、遇到错误自动 failover[4]
Model Resolver：根据 provider（Anthropic / OpenAI / Gemini 等）和任务类型选择合适模型[4][8]

这一套东西本质是：把 LLM 当作一个不可靠组件，套上工程级治理与防护。

这就是为什么安全圈和大厂架构师在分析 OpenClaw 架构时，会认为它是「真正适合进生产的 Agent 框架」，而不是单点工具[8][9]。

3. 为什么它能在几个月内成为 GitHub 最多 Star 的“实际软件项目”？

从公开数据看：

OpenClaw 从 2025 年 11 月开源，到 2026 年 3 月已经超过 25 万 Star，成为 GitHub 上 Star 数最高的非“列表类”软件项目[10]。
React 用了 13 年才达到了 24万+ Star，而 OpenClaw 约 100 天就达到了类似量级[10]。

这不是纯粹“炒作”，而是技术形态决定了它的传播路径：

定位是“能真正替你干活”的本地 Agent：

自托管、本地-first，极大缓解企业和开发者对隐私、合规的担忧[4][8]。
可以运行在家用 Mac mini / 树莓派 / VPS 上，门槛极低[4]。

开发者直接感知价值：

开箱可以：清理邮箱、管日程、登录网站、下载文件、运行脚本、跑 CI 等[4][6][8]。
对很多个人开发者/小团队，等于突然免费多了一个全栈 DevOps + 助理。

社区易于扩展：

工具有统一适配层（toToolDefinitions + splitSdkTools），写一个工具基本就是写一个普通 TypeScript 函数[4]。
结合 Pi 的扩展体系，可以很快做出新类型 agent（开发团队、客服团队、运营团队等）。

一句话：OpenClaw 做的是“把 Pi 编程智能体做成一个完整的、可落地的系统”，刚好踩在“大家都在问：我能不能让 AI 真正替我干活？”这个需求点上。

实现原理

OpenClaw的架构由三个模块组成：Agent Loop、Tools、Gateway。

Agent Loop是龙虾的大脑，它负责决策和思考，它会根据当前任务判断下一步要做什么，并在需要的时候调用各种工具来完成行动。

Tools是龙虾的手脚，为Agent Loop提供各种能力，比如浏览网页、执行命令、调用 API、处理文件等，让龙虾真正具备干活的能力。

Gateway是龙虾的身体，它让整个系统能够持续在线，接收来自不同渠道的消息（比如 Telegram、飞书等），并把任务交给Agent Loop处理，再把结果返回给用户。

Agent Loop

Agent Loop，是AI接到一个任务之后，自己一步一步把事情做完的机制。

OpenClaw的Agent Loop是基于Pi SDK的，这是一个独立的开源项目：https://github.com/badlogic/pi-mono

Agent Loop不是OpenClaw的独家优势，Claude Code和Codex都有Agent Loop的逻辑，光从脑子的设计来看，OpenClaw跟Claude Code、Codex没什么本质区别。

Tools

第一层是基础工具。

这是最底层的一些能力，比如：读写文件、执行命令、浏览网页、搜索和抓取信息，这些工具让 AI 能够真正操作电脑，而不是只停留在聊天里。

第二层是 Skills。

Skills本质上是在教AI怎么像人一样干活。

它会告诉AI在任务场景下应该怎么做、应该调用哪些工具、步骤是什么。

比如：写代码前先扫描项目结构、修改文件前先做备份、写完代码之后自动运行测试，这些经验都可以写成 Skills，让AI在类似任务里自动复用。

第三层是外部工具。

这一层主要是接各种第三方服务，比如：调用外部 API、接入 SaaS 服务、扩展新的工具能力。

所以从底层来看，OpenClaw 的手脚并不是简单的一堆工具，而是一整套：基础工具 + Skills + 外部扩展组成的能力体系。

但工具体系本身并不是OpenClaw的独家优势，像Claude Code和Codex，都有同样的工具体系。

Gateway

第一，不关机。

龙虾是常驻在线的，就算系统崩了也会自动恢复，重启之后还能记住之前的对话。

比如凌晨3点服务器突然挂了，Gateway会自动把龙虾重新拉起来，并恢复之前的对话上下文，继续处理那些还没做完的任务。

等你第二天早上再来看，它就像从来没有断过一样，一直在工作。

第二，接所有平台。

Telegram、飞书、钉钉等20多个平台的消息，都可以统一接收和处理。

这意味着什么？你不需要为飞书单独写一个 bot，也不需要再为钉钉写个 bot。

Gateway在中间做了一层消息适配，不管消息来自哪个平台到AI 这里都会被转换成同一种格式。

你在飞书上给它发消息，它就在飞书上回复；在钉钉上发，它也会在钉钉上回你。

第三，会话隔离。

每个聊天窗口都是独立的，你和它的对话不会被别人的任务干扰。

比如你让它帮你查一份数据，同时又在另一个群里让它写一段文案。这两个任务在Gateway里是完全隔离的，各自有各自的上下文，不会串。

就像两个独立的员工在分别处理两件事，各干各的。

第四，排队控制。

同一时间只处理一个任务，不会因为消息太多而搞混。

比如说在一个飞书群里，我和同事同时发消息给龙虾，Gateway的处理策略很简单：谁先来做谁的，后面的任务排队。

这个设计看起来有点笨，但其实很聪明。

因为 LLM 的推理本来就不太适合并发，同时处理多个任务反而更容易出错，最后可能两个任务都做不好。

第五，心跳巡查。

心跳巡查是龙虾可以主动做任务的核心。

OpenClaw的主动执行能力主要靠两套机制：Heartbeat负责周期性巡检，Cron负责精确定时调度。

Gateway会定时主动检查有没有待办任务，如果有它就自己去执行，不需要你催它。

举个例子，你让它每天早上8点整理一份AI资讯摘要推送给你。

到了时间，Gateway的心跳机制就会自动触发这个任务，AI会自己去搜集信息、整理内容，然后发到你的飞书上。

你什么都不用做，打开飞书就能看到结果。

不过这里也有一个需要注意的地方：有时候 AI 会口头答应你已经配置好任务了，但实际上压根没写到待办里，这也就是很多时候龙虾不主动执行任务的原因。

第六，记忆刷盘。

当对话太长需要压缩时，它会先把重要内容存到记忆文件里，再进行压缩，避免关键信息丢失。

这点做的蛮好的，当我们和AI聊了很长一段时间，讨论了项目方案，也确认了不少关键决策。

如果直接压缩旧对话，这些结论就可能丢掉，下次它又得重新问我们。

Gateway的做法是：在压缩之前先把重要的结论和决策存到记忆文件里，这样即使上下文被压缩，关键信息也能随时找回来。

参考

[1] Agent Skills - Claude API Docs. https://platform.claude.com/docs/en/agents-and-tools/agent-skills/overview

[2] Use Claude for Excel. https://support.claude.com/en/articles/12650343-use-claude-for-excel

[3] Top 8 Claude Skills for Finance and Quantitative Developers. https://snyk.io/pt-BR/articles/top-claude-skills-finance-quantitative-developers/

[4] Pi Integration Architecture - OpenClaw Docs. https://docs.openclaw.ai/pi

[5] Pi: The Minimal Agent Within OpenClaw. https://lucumr.pocoo.org/2026/1/31/pi/

[6] Agent Loop - OpenClaw Docs. https://docs.openclaw.ai/concepts/agent-loop

[7] Turn your Raspberry Pi into an AI agent with OpenClaw. https://www.raspberrypi.com/news/turn-your-raspberry-pi-into-an-ai-agent-with-openclaw/

[8] OpenClaw Architecture, Explained: How It Works. https://ppaolo.substack.com/p/openclaw-system-architecture-overview

[9] OpenClaw Architecture Guide | High-Reliability AI Agent Framework. https://vertu.com/ai-tools/openclaw-clawdbot-architecture-engineering-reliable-and-controllable-ai-agents/

[10] OpenClaw Just Passed React. Here's What the GitHub Star Leaderboard Actually Looks Like. https://dev.to/andreagriffiths11/openclaw-just-passed-react-heres-what-the-github-star-leaderboard-actually-looks-like-3d5g

文章来源:https://www.cnblogs.com/limingqi/p/19845912
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：算法分享02——调度场算法【简单】
下一篇：Hermes Agent爆火，聊聊与OpenClaw 到底区别在哪

首页 > 基础资料博客日记

openclaw 思考

一些建议

Pi、OpenClaw与Claude code

OpenClaw 为何能出圈？

1. Pi Agent：极简但可扩展的“编程大脑”

2. OpenClaw 的关键技术设计：从「模型」到「可控系统」

（1）Agent Loop & Gateway：把“对话”变成「全流程执行」

（2）工具体系：从「会写代码」到「会操作系统 / 浏览器 / 消息通道」

（3）记忆与可观测性：工程级的“可追溯智能体”

（4）安全与多模型治理

3. 为什么它能在几个月内成为 GitHub 最多 Star 的“实际软件项目”？

实现原理

Agent Loop

Tools

Gateway

参考

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

openclaw 思考

一些建议

Pi、OpenClaw与Claude code

OpenClaw 为何能出圈？

1. Pi Agent：极简但可扩展的“编程大脑”

2. OpenClaw 的关键技术设计：从「模型」到「可控系统」

（1）Agent Loop & Gateway：把“对话”变成「全流程执行」

（2）工具体系：从「会写代码」到「会操作系统 / 浏览器 / 消息通道」

（3）记忆与可观测性：工程级的“可追溯智能体”

（4）安全与多模型治理

3. 为什么它能在几个月内成为 GitHub 最多 Star 的“实际软件项目”？

实现原理

Agent Loop

Tools

Gateway

参考

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记