首页 > 基础资料博客日记

LLM | 项目推荐：LLM 后训练 / Agent 相关的小规模开源项目

2026-04-02 16:00:02基础资料围观1次

这篇文章介绍了LLM | 项目推荐：LLM 后训练 / Agent 相关的小规模开源项目，分享给大家做个参考，收藏极客资料网收获更多编程知识

以下项目均开源在 GitHub，主题与 LLM 后训练 / LLM 应用 / Agent 的最新进展相关。

经初步调研，均可以使用 8 卡 A100 复现。

项目列表
Agent-R1 和 Claw-R1
RAGEN
TinyZero
SWE-agent
Search-R1
其他项目的信息

项目列表

EasyR1：https://github.com/hiyouga/EasyR1
RAGEN：https://github.com/mll-lab-nu/RAGEN
Search-R1：https://github.com/PeterGriffinJin/Search-R1
TinyZero：https://github.com/Jiayi-Pan/TinyZero
Agent-R1：https://github.com/AgentR1/Agent-R1
Claw-R1：https://github.com/AgentR1/Claw-R1
verl-tool：https://github.com/TIGER-AI-Lab/verl-tool
verl-agent：https://github.com/langfengq/verl-agent
rllm：https://github.com/rllm-org/rllm
LightRAG：https://github.com/HKUDS/LightRAG
SWE-agent：https://github.com/SWE-agent/SWE-agent
SeeClick：https://github.com/njucckevin/SeeClick

Agent-R1 和 Claw-R1

Agent-R1 和 Claw-R1 是中科大同一个团队开源的项目，非常新，分别是 26 年 2 月和 3 月发布的，star 已经达到 1.3k，并且还在持续维护中。

Agent-R1 关注 LLM 与外部环境的 multi-turn 交互，（个人理解）感觉这个能力对 agent 来说是必要的。具体算法还没读。

复现 Agent-R1，使用 verl 的 conda 环境就可以了，不需要装其他包。（不过现在我跑的好像有些 bug，正在 debug）

Claw-R1 的故事好像是：Agent-R1 已经提供了 agent RL 训练的框架了，而 Claw-R1 可以为 agent RL 训练收集各个环境的数据，是一种“middleware”；具体还没仔细 check。

RAGEN

先前读过 ragen 这个工作，参考博客：CSDN | RAGEN 与 StarPO 框架：如何让 LLM 在多轮交互中自我进化？

ragen 也关注 multi-turn RL，是一个提供了 1. 几个 multi-turn 环境 2. StarPO 算法实现的框架。一个师兄好像跑过 ragen，证明这个框架是能跑的。

不过印象里，ragen 里面提供的环境都比较 toy，类似于 grid world 推箱子这种，所以目前对这个项目兴趣不大。

TinyZero

TinyZero 旨在使用最少的计算资源（1-4 张 24GB GPU）、最小的模型（1.5B），复现 deepseek-r1 的 aha moment。这个项目证明了，即使是 1.5B 参数的小模型，通过 RL 也能自发产生自我验证和搜索能力。

据初步调研，这个项目的复现难度是最低的。

不过，目前这个项目已经不维护（archive）了，项目作者建议使用 verl 官方库来进行复现。

SWE-agent

SWE-agent 是一个非常有名的项目，关注 code agent 或 cli agent，希望能让 agent 自动修 GitHub 里的 issue。据调研，mini-SWE-agent 可能是一个更适合复现、更轻量级的版本。

并且，SWE-agent 貌似不强制使用本地大模型，而是可以用 API。

具体还没 check。

Search-R1

据调研，search-r1 是 OpenAI DeepResearch 的开源替代思路，训练模型学会 deep research，学会何时搜索、如何推理。

这个我也很感兴趣，但还没 check。

其他项目的信息

EasyR1：
- 这个项目的作者是 llamafactory 的作者，这是一个轻量级多模态 RL 的框架。不过目前我不太关注多模态，希望优先关注 agent。
rllm：
- 伯克利 Sky Computing Lab 开源的通用 Agent RL 训练框架，核心理念是让任何 Agent 框架（如 LangGraph SmolAgent）只需极少代码修改就能接入 RL 训练。
- 这听起来像是 agent 领域的 verl；但我还不太了解这些 agent 框架…
LightRAG：
- 有完整 WebUI 和多种存储后端（Neo4j, MongoDB 等），既支持经典 vector RAG，又集成知识图谱（Graph storage）。不过目前我不太关注 RAG，更优先希望了解 agent 核心技术流。
verl-tool：
- 似乎是 verl 的子模块，专注工具调用场景的 RL 训练，支持异步多轮 rollout。
verl-agent：
- 针对长序列 Agent 任务（如 ALFWorld 需 50 步）设计的 RL 框架。提出了 GiGPO (Group-in-Group Policy Optimization) 算法和分布独立的 Rollout。
- GiGPO 先前也读过：CSDN | GiGPO：为 LLM 智能体注入细粒度信用分配，突破长视野决策瓶颈
SeeClick：
- 是一个视觉 GUI 点击的 agent 项目。

更多细节暂时还没 check，后面会继续 check 的。

文章来源:https://www.cnblogs.com/moonout/p/19811804
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：祝贺 Apache SeaTunnel PMC 新成员张圣航！
下一篇：java Day07-1

首页 > 基础资料博客日记

LLM | 项目推荐：LLM 后训练 / Agent 相关的小规模开源项目

项目列表

Agent-R1 和 Claw-R1

RAGEN

TinyZero

SWE-agent

Search-R1

其他项目的信息

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

LLM | 项目推荐：LLM 后训练 / Agent 相关的小规模开源项目

项目列表

Agent-R1 和 Claw-R1

RAGEN

TinyZero

SWE-agent

Search-R1

其他项目的信息

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记