首页 > 基础资料博客日记

裁员后我被迫负责运维，用AI从0搭建了可观测性平台

2026-04-07 11:00:01基础资料围观1次

这篇文章介绍了裁员后我被迫负责运维，用AI从0搭建了可观测性平台，分享给大家做个参考，收藏极客资料网收获更多编程知识

三个月前，我还是一个纯后端开发。

公司给所有人配了Cursor，开发效率提升了，然后开始裁员。

部门重组之后，我和我的leader被划进了一个新的盘子：数仓 + 运维。

两个板块，都不是我的主业。

leader看着新的组织架构图，问我：

"可观测性平台这块，你来负责？"

我当时脑子里只有一个念头：

我连Prometheus和Grafana有什么区别都说不清楚。

但我说了"好"。

因为没有别的选择。

一、第一天：我到底不知道什么

接下来的事，比想象中要快。

原因只有一个：AI。

但在说AI怎么帮我的之前，我想先说第一天我做的一件事——

把自己不知道的东西，全部列出来。

可观测性平台，这个词我听过，但说不清楚。于是我直接问Claude：

我是一个Java后端开发，没有运维背景。
公司让我从0搭建可观测性平台。
请告诉我：
1. 可观测性平台到底是什么，解决什么问题
2. 行业里主流的方案有哪些
3. 一个非运维背景的人，应该按什么顺序学习这个领域

AI给了我一个我能看懂的解释：

可观测性平台的核心是三件事：

Metrics（指标）：系统现在健不健康？CPU、内存、QPS

Logs（日志）：系统发生了什么？错误日志、请求日志

Traces（链路追踪）：一个请求经过了哪些服务，慢在哪里？

把这三件事做好，出了问题你才能快速定位。

三个词，我记住了。

然后AI给了我一张"知识地图"，告诉我行业里的主流方案：Prometheus + Grafana（指标）、ELK（日志）、SkyWalking / Jaeger（链路）、以及云厂商的一站式方案（阿里云云监控、腾讯云 CLS 等）。

第一天结束，我从"完全不知道"变成了"知道自己需要搞清楚什么"。

这是AI在这个阶段最大的价值：帮我把一个陌生领域快速结构化。

二、调研阶段：用AI读懂我读不懂的东西

接下来一周，是密集的调研期。

我们初步圈定了三个方向：

阿里云云监控 2.0：托管方案，接入成本低
ELK（Elasticsearch + Logstash + Kibana）：日志方向成熟方案，开源自建
SkyWalking：链路追踪主流选择，开源自建

每个方案，我都要搞清楚：能做什么、不能做什么、适合什么规模、成本怎么算。

这些东西，官方文档几十页，英文夹中文，充斥着我不熟悉的术语。

我的做法是：把文档喂给AI，让它帮我翻译成"Java后端能理解的语言"。

举个具体例子。

SkyWalking的官方文档里有一段关于存储后端选型的说明，涉及到H2、MySQL、ElasticSearch、TiDB几种存储，每种都有适用场景。

我直接把这段贴给Claude：

我是Java后端，没有运维背景。
以下是SkyWalking存储选型的官方说明，请帮我：
1. 用大白话解释每种存储的适用场景
2. 我们公司日活5万，数据量不大，你推荐哪种？为什么？
3. 有什么坑是文档没写但实际部署会遇到的？

AI的回答让我避开了一个真实的坑：

H2是内存存储，重启数据全没，只适合本地开发测试，生产环境绝对不能用。你们日活5万，数据量不大，MySQL完全够用，而且你们团队肯定有MySQL运维经验，不要为了"上ElasticSearch"而上，增加不必要的复杂度。

如果我自己读文档，大概率不会注意到H2的这个限制，或者觉得"存储选型是后面的事"先跳过了。

AI帮我把"文档里没写清楚的坑"提前挖出来了。

整个调研周，我用这个方法把三个方案全部啃完，还让AI帮我生成了一张对比表格的初稿：

+--------------+-------------------------------+------------------------+------------------------+
| 维度         | 阿里云云监控2.0               | ELK自建                | SkyWalking自建         |
+--------------+-------------------------------+------------------------+------------------------+
| 覆盖范围     | Metrics + Logs + Traces一站式 | 主打Logs               | 主打Traces             |
| 接入成本     | 低，有SDK直接接               | 中，需要配置Logstash   | 中，Java Agent自动注入 |
| 运维成本     | 极低，托管                    | 高，需要自己运维ES集群 | 中，需要维护OAP Server |
| 初期费用     | 按量付费，小规模便宜          | 主要是服务器成本       | 主要是服务器成本       |
| 规模化后费用 | 数据量大后成本高              | 相对固定               | 相对固定               |
| 定制化空间   | 有限                          | 高                     | 高                     |
+--------------+-------------------------------+------------------------+------------------------+

这张表格，后来成了汇报老板的核心素材。

三、选型决策：AI帮我想清楚一个关键问题

调研完，摆在我们面前的是一个真实的决策：

用阿里云，还是自建？

两个选择都有道理。

我把这个问题原原本本丢给了Claude：

我们公司情况：
- 日活5万，数据量不算大
- 团队没有专职运维，只有我们两个后端兼着做
- 公司希望尽快上线，最好1个月内有结果
- 预算没有明确限制，但老板关注长期成本

阿里云云监控2.0 vs 开源自建（ELK + SkyWalking），
请帮我分析：
1. 两种方案的实际落地周期差距有多大
2. 成本在什么规模下会出现拐点（自建比阿里云便宜）
3. 对于我们这种"没有运维背景的小团队"，各自的真实风险是什么

AI给了我一个我没想到的视角：

成本拐点不只是钱的问题，还有人的成本。自建ELK，ElasticSearch集群出问题的时候，你们有能力快速修复吗？如果不能，业务中断的成本可能远大于你省下的服务器钱。建议分两阶段：

初期用阿里云，1个月上线，先把监控体系跑通，积累经验

中后期当你们对这个领域熟悉了、数据量也上来了，再评估自建的时机

这不是"懒"，这是适合你们当前阶段的最优解。

这个"两阶段"的思路，不是我想到的，是AI提出来的。

但我们讨论之后觉得，这就是答案。

四、汇报老板：用AI把技术决策翻译成商业语言

选型确定之后，要给老板汇报。

这是我最没把握的环节。

老板不是技术出身，他不关心Prometheus和Grafana的区别，他关心的是：

要花多少钱？
什么时候能用？
出了问题怎么办？

我让AI帮我做了一件事：把技术选型报告翻译成老板能听懂的语言。

以下是我们的技术选型结论和理由，请帮我重新组织：
目标读者是非技术背景的老板，他关心成本、周期、风险。
请把技术细节转化为业务语言，去掉他不需要知道的术语。
格式：结论先行，理由支撑，风险说明。

[粘贴技术选型文档]

AI给出的版本，开头是这样的：

结论：初期采用阿里云云监控，预计3周上线；中后期视数据量增长评估切换自建方案。为什么这么选：初期我们团队没有运维经验，自建方案出问题修复成本高。阿里云方案接入简单，可以让我们在1个月内把监控体系跑起来，同时积累经验，为后续自建打基础。费用预估：初期月费约XXX元（按当前数据量估算），随数据量增长线性增加。当月费超过YYY元时，自建方案更划算，届时我们也有足够经验支撑自建。

汇报当天，老板听完直接拍板：按这个方案走。

他说了一句话：

"你们想得比我预期的要全。"

五、落地执行：AI是我的"运维顾问"

选型通过之后，开始接入。

我没有运维基础，每遇到一个不懂的概念，就问AI。

几个真实的例子：

问题1：阿里云的Agent安装失败，报错看不懂

阿里云云监控Agent安装时报错：
"Failed to start cloudmonitor.service: Unit not found"
我是第一次装，不知道从哪里排查

AI给了我三步排查路径，第二步就找到了原因：系统版本和Agent版本不匹配。

问题2：Grafana看板怎么配置

我完全不会写PromQL（Prometheus查询语言），直接让AI帮我写：

我想在Grafana里展示：
- 过去1小时的接口平均响应时间，按接口分组
- 响应时间超过500ms的接口，用红色标注
请帮我写PromQL查询语句，并说明怎么在Grafana里配置

AI不只给了查询语句，还告诉我Panel类型选Time Series，阈值怎么设置颜色。

问题3：告警规则怎么定

我想配置告警：CPU使用率超过80%持续5分钟就告警。
但我不知道"持续5分钟"在云监控里怎么配，
也不知道告警应该发到哪里（钉钉群还是短信）

AI给了我配置路径，还提醒我：

建议设置两级告警：

CPU > 80% 持续5分钟 → 钉钉群通知（低优先级）

CPU > 95% 持续2分钟 → 短信通知（高优先级，需要立即处理）

很多团队只设一级，结果要么告警太多被忽略，要么反应太慢出事故。

这个"两级告警"的建议，是我自己不会想到的。

六、三周后的结果

三周，可观测性平台上线。

覆盖了：

所有后端服务的核心指标监控（CPU、内存、JVM、接口响应时间）
慢接口自动告警
关键业务链路的日志集中查询
Grafana看板，一屏看清系统状态

上线第一天，监控就发现了一个问题：有个定时任务每天凌晨3点CPU会飙到90%，持续约8分钟。

原来一直有这个问题，只是没人知道。

七、我总结出来的方法论

这段经历之后，我把AI辅助学习陌生领域的方法整理成了五步：

第一步：结构化入门

不要直接看文档，先让AI给你画地图：这个领域有哪些核心概念、主流方案有哪些、一个外行应该按什么顺序学。

我是[你的背景]，完全不懂[陌生领域]。
请给我：
1. 这个领域的3-5个核心概念，用我能理解的语言解释
2. 主流方案有哪些，各自适合什么场景
3. 建议我按什么顺序学习

第二步：带着问题读文档

不要从第一页读到最后一页。先搞清楚自己的场景，再带着问题去读文档，遇到看不懂的直接喂给AI翻译。

以下是[方案]的官方文档片段，
我的场景是[描述你的具体情况]，
请帮我解释这段话对我意味着什么，有哪些坑要注意。

第三步：用AI做决策对比

面对多个方案需要选型时，不要让AI直接告诉你答案，而是把你的具体约束条件告诉它，让它帮你分析trade-off。

我的约束条件：[团队规模/预算/时间/技术栈]
需要在以下方案中选择：[方案A vs 方案B]
请分析各自的实际落地风险，以及适合我的选择。

第四步：翻译技术语言

需要向非技术人员汇报时，让AI帮你把技术结论翻译成业务语言。结论先行，去掉术语，重点说清楚：花多少钱、多久有结果、有什么风险。

第五步：AI做实时顾问

落地执行阶段，把AI当"随叫随到的领域专家"。遇到报错、不懂的配置、最佳实践的问题，直接问，比翻文档快得多。

写在最后

三个月前，我不知道可观测性平台是什么。

三个月后，我主导搭了一套跑在生产上的监控体系，还给老板汇报通过了技术选型。

不是因为我突然变成了运维专家。

是因为AI把"入门一个陌生领域需要的时间"，从3个月压缩到了3周。

但有一件事AI做不到——

它不知道你们公司的实际情况。

团队没有运维能力这个事实，是我告诉AI的。老板关注长期成本这个信息，是我告诉AI的。两阶段方案里"初期用阿里云"的决策，最终是我和leader拍的。

AI给你速度，但判断还是要你自己来。

你有没有被迫负责过不熟悉的技术领域？ 你是怎么快速上手的？

欢迎评论区聊聊。

后端AI实验室 不讲概念，只谈实战代码开源，每周更新

文章来源:https://www.cnblogs.com/taohaijun/p/19828730
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：为什么使用 Skillsbase 维护自己的 Skills 收藏仓库
下一篇：大学生挑战全网超详细web笔记05弹

首页 > 基础资料博客日记

裁员后我被迫负责运维，用AI从0搭建了可观测性平台

一、第一天：我到底不知道什么

二、调研阶段：用AI读懂我读不懂的东西

三、选型决策：AI帮我想清楚一个关键问题

四、汇报老板：用AI把技术决策翻译成商业语言

五、落地执行：AI是我的"运维顾问"

六、三周后的结果

七、我总结出来的方法论

写在最后

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

裁员后我被迫负责运维，用AI从0搭建了可观测性平台

一、第一天：我到底不知道什么

二、调研阶段：用AI读懂我读不懂的东西

三、选型决策：AI帮我想清楚一个关键问题

四、汇报老板：用AI把技术决策翻译成商业语言

五、落地执行：AI是我的"运维顾问"

六、三周后的结果

七、我总结出来的方法论

写在最后

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记