System Ops · Cloud Ops · Ops Dev

是垚不是土 Triyaotu

系统运维 / 云计算运维 / 运维开发

深耕 Linux、容器化、监控告警、日志链路、数据库中间件与自动化发布。 关注 DevOps 与 AIOps 体系建设,擅长将复杂运维场景沉淀为标准化、自动化、可观测的工程能力。

进入博客 GitHub
70+ 运维技术文章
10w+ 累计阅读量
40% 故障响应缩短

从实践到沉淀

四个阶段构建运维能力

我不希望个人主页只是罗列工具,而是把自己的成长路径讲清楚: 从真实问题出发,用工程方法解决,再沉淀为可复用体系,最终向 AIOps 能力演进。

01
第一阶段

现场实践输入

从开发、测试、生产环境的真实问题出发,处理系统部署、资源监控、基础网络、 Docker、Redis、Kafka、MySQL 等日常运维场景。

关键词:环境运维、故障排查、服务部署、资源监控
02
第二阶段

工程化能力沉淀

把重复操作转化为脚本、流程和流水线,通过 Shell、Ansible、Jenkins Pipeline、 Supervisor 等工具降低人工发布和回滚风险。

关键词:自动化脚本、CI/CD、发布回滚、标准化流程
03
第三阶段

可观测闭环建设

让系统运行状态可见、告警可达、日志可查、链路可追踪。 通过 Prometheus、Nightingale、OpenTelemetry等工具 缩短故障定位时间。

关键词:监控告警、日志检索、链路追踪、故障定位
04
第四阶段

AIOps 能力演进

通过 Hermes、MCP Server、Prometheus、Elasticsearch等与飞书机器人联动, 让 AI 能读取真实运维数据,辅助告警分析和故障定位。

关键词:Hermes、MCP、智能助手、自然语言排障
自述

拾取每一份实践中的思考碎片,捕捉每一次沉淀后的成长灵感,用专注与坚守, 构筑属于自己的成长天地,步履不停,向阳生长,在热爱与坚守中, 沉淀出独有的价值与光芒。

技术栈

按真实运维场景拆解能力,突出“能解决什么问题、如何落地、使用哪些工具”。

01

系统运维与基础网络

解决问题

保障开发、测试、生产环境稳定运行,处理服务部署、系统异常、网络接入和基础故障定位。

  • Linux 环境维护:熟悉 CentOS / Ubuntu 日常管理,能处理权限、进程、端口、磁盘、日志、定时任务、服务启停等基础问题。
  • 服务部署与托管:负责 Linux 平台下系统应用部署和管理,能够完成开发、测试、生产环境的基础运维工作。
  • Nginx 与网络接入:能配置 Nginx 反向代理、负载均衡、网关接入,处理基础连通性、端口暴露、域名解析和黑盒监控问题。
  • 脚本化处理:使用 Shell 编写巡检、备份、批处理和辅助排障脚本,减少重复性人工操作。
实际落地

在公司负责开发、测试、生产三套环境基础运维,以及生产服务器资源监控、基础网络问题处理;在物联网平台中设计 DDNS 与网络黑盒监控方案,保障设备上报链路稳定。

Linux CentOS Ubuntu Nginx Shell DNS DDNS
02

容器化与服务交付

解决问题

让业务服务从手工部署走向容器化、标准化、多节点部署,降低环境差异和上线风险。

  • Docker 应用部署:熟练使用 Docker 完成应用部署、容器状态排查、日志查看、资源限制和基础网络处理。
  • Compose 编排:使用 Docker Compose 编排中间件、监控链路组件和微服务依赖,降低多组件部署复杂度。
  • 多节点服务运维:负责 Java / Go 应用多节点部署、容器运维和中间件环境搭建,具备分布式服务运维思维。
  • Kubernetes 基础:掌握 Kubernetes 基础资源配置和常用命令,了解容器化应用在 K8s 中的运维方式。
实际落地

在新能源汽车物联网综合服务平台中,完成 Java / Go 应用多节点部署、Docker 容器运维、中间件环境搭建与性能调优,推动服务从单节点向分布式集群转变。

Docker Docker Compose Kubernetes Maven Java Go 微服务
03

监控告警、日志与链路追踪

解决问题

让系统运行状态可见、告警可达、日志可查、链路可追踪,缩短故障定位时间。

  • 指标监控:搭建 Prometheus、Nightingale、Categraf 监控体系,编写告警规则并对接飞书通知。
  • 告警治理:围绕主机资源、微服务、基础组件和业务状态设计告警规则,避免监控只展示、不响应。
  • 日志分析:结合 Elasticsearch / EFK 做日志检索与异常定位,解决跨服务日志分散的问题。
  • 链路追踪:基于 Jaeger、OpenTelemetry 构建微服务链路追踪体系,辅助定位调用链、慢请求和跨服务异常。
实际落地

落地全链路监控体系后,故障响应时间缩短 40%;结合 EFK 日志体系,跨服务问题排查从小时级压缩至分钟级。

Prometheus Nightingale Categraf Grafana Jaeger OpenTelemetry Elasticsearch EFK 飞书告警
04

数据库与中间件稳定性

解决问题

保障核心中间件稳定运行,处理同步、备份、高可用、性能调优和常见故障。

  • MySQL:熟悉 GTID 主从同步,能编写自动备份、多重校验和远程备份脚本,保障数据可恢复。
  • Redis:具备 Redis 哨兵集群运维经验,理解主从切换、高可用和基础故障处理。
  • Kafka:具备 Kafka 部署调优、常见故障排查和诊断工具化探索经验。
  • 稳定性保障:围绕数据库、中间件、备份、恢复、监控告警建立基础运维闭环。
实际落地

搭建 Redis 哨兵集群与基于 GTID 的 MySQL 主从同步方案,编写 MySQL 自动备份、多重校验和远程备份脚本。

MySQL GTID Redis Sentinel Kafka Backup Script Kdoctor
05

自动化运维与发布工程

解决问题

减少人工发布风险,标准化构建、部署、回滚和批量任务处理流程。

  • Shell 自动化:编写巡检、备份、批处理和辅助排障脚本,提高重复性任务处理效率。
  • Ansible 批量管理:用于批量配置下发、主机管理和任务执行,降低多主机维护成本。
  • Jenkins Pipeline:构建前后端自动化发布流程,标准化构建、部署、回滚和日志追踪。
实际落地

构建前后端 CI/CD 流水线,基于 Jenkins Pipeline 与 Supervisor 实现微服务自动化发布;标准化发布/回滚后,部署频率提升 3 倍,回滚耗时控制在 3 分钟内。

Shell Ansible Jenkins Pipeline Supervisor Git CI/CD
06

Hermes AIOps 运维链路

解决问题

把监控、日志、链路、MCP 工具和智能助手串联起来,让 AI 能读取真实运维数据并辅助排障。

  • 数据接入:接入 Prometheus 指标、Elasticsearch 日志、Jaeger 链路数据,让 AI 分析不只停留在自然语言层面。
  • MCP 工具层:开发 MCP Server 后端,封装监控查询、日志检索、状态查询等工具能力,提供给 Hermes 调用。
  • 智能交互:基于 Hermes、Dify、Langbot 等构建智能交互入口,并通过飞书机器人支持自然语言运维指令。
  • 平台联动:通过 Hermes 调用云电脑等环境实现"研运一体化"思想,实现一个运维/开发共用的强大智能体。
  • 输出目标:实现系统状态查询、监控数据分析、告警解释、故障定位建议和排障经验沉淀。
Prometheus / ES / Jaeger MCP Server Hermes / Dify / Langbot 飞书机器人 / 监控页面 告警分析 / 故障定位建议
实际落地

主导 AIOps 运维体系设计、MCP 工具设计与工具链搭建;开发 MCP Server 对接 Prometheus、Elasticsearch,使 AI 具备调用运维数据能力,并通过飞书端 AIOps 助手实现自然语言分析和故障定位。

Hermes AIOps MCP Server Prometheus API Elasticsearch Jaeger Dify Langbot 飞书机器人 Nginx Embed

工作经历

工作和项目经历强调职责、工程落地和业务结果。

2025.09 - 至今

吉林省远逸云科技有限公司 - 运维工程师

负责 Linux 平台应用部署、生产资源监控、微服务监控、Docker、Redis、Kafka、MySQL 运维及故障处理。

LinuxDockerRedisKafkaMySQL监控告警
2025.09 - 至今

新能源汽车物联网综合服务平台

负责 Java / Go 应用多节点部署、Docker 容器运维、中间件搭建、Nginx 负载均衡调优和 DDNS 方案落地。

JavaGoNginxDDNSBlackbox Exporter
2025.03 - 至今

AIOps 探索与体系建设

设计 MCP 工具链和 AIOps 运维助手,对接 Prometheus、Elasticsearch、Dify、Langbot、Hermes 与飞书机器人。

HermesMCPPrometheusElasticsearchDifyFeishu Bot
2024 - 至今

运维领域技术创作

累计撰写技术文章 70+,内容聚焦系统运维、自动化、微服务和 AIOps 实践。

技术博客系统运维自动化AIOps

校园经历与荣誉

以下是作者在大学期间的一些经历与荣誉,展示个人价值与持续学习的能力。

2024 技能竞赛

沈阳市“舒心传技”职业技能大赛云计算赛道

获得优胜选手,聚焦云计算基础能力与工程实践,对云计算有了初步的概念。

2024.09 - 2025.06 培养经历

沈阳职业技术学院 - 校企联合培养

完成校企联合培养,重点发展云计算运维/开发领域;获得优秀毕业生/优秀结业相关荣誉。

2025.06 认证

沈阳市人工智能训练师高级认证

完成人工智能训练师方向认证,补充 AI 工具应用、数据处理和智能交互能力,悉知了人工智能的数据清洗与优化。

2025.09 奖学金

国家励志奖学金

综合分数院系前十,专业前三,体现持续学习和综合表现,同时获得沈阳市政府奖学金。

2025.06 省级赛事

2025 辽宁省职业院校技能大赛金奖

智能家居 + AI 项目参赛,省赛阶段获得金奖。

2025.09 国家级赛事

2025 世界职业院校技能大赛铜奖

前往江苏常州参加国内总决赛,以云原生 + AI + AIoT 项目参赛,以队长身份带领团队经历半年备战拿下最终荣誉。

联系

这个页面只作为个人展示和入口聚合,沟通请通过以下方式。