Prometheus 完全指南
Prometheus 完全指南
从零开始掌握云原生时代最主流的监控系统
前言
Prometheus 是由 SoundCloud 于 2012 年发起的开源监控系统,2016 年加入 CNCF(Cloud Native Computing Foundation),成为继 Kubernetes 之后第二个毕业项目。如今,它已成为云原生生态中事实上的监控标准。
本教程共 18 章,从基础概念到生产实践,涵盖安装部署、数据模型、查询语言、告警管理、长期存储、可视化集成等全方位内容。适合运维工程师、SRE、后端开发人员系统学习。
目录
| 章节 | 标题 | 简介 |
|---|---|---|
| 01 | Prometheus 简介 | 历史背景、Pull vs Push 模型、适用场景 |
| 02 | 安装与部署 | 二进制安装、Docker 部署、配置文件详解 |
| 03 | 架构与原理 | TSDB 存储引擎、抓取模型、服务发现 |
| 04 | 指标类型 | Counter、Gauge、Histogram、Summary |
| 05 | PromQL 基础 | 选择器、运算符、聚合函数 |
| 06 | PromQL 进阶 | 子查询、预测函数、录制规则 |
| 07 | 告警管理 | Alertmanager、路由、抑制、静默 |
| 08 | 告警规则编写 | 规则语法、模板、常见告警示例 |
| 09 | 录制规则 | 预聚合、性能优化 |
| 10 | 服务发现 | 静态配置、Consul、Kubernetes、DNS |
| 11 | Exporter 生态 | Node、MySQL、Redis、Blackbox、自定义 |
| 12 | Pushgateway | 短期任务、批处理监控 |
| 13 | 联邦集群 | 跨集群聚合、分层架构 |
| 14 | Thanos | 长期存储、全局查询、降采样 |
| 15 | 容器化部署 | Docker Compose、Kubernetes 部署 |
| 16 | Grafana 集成 | 数据源配置、Dashboard、告警 |
| 17 | 故障排查 | 常见问题、TSDB 排查、性能调优 |
| 18 | 最佳实践 | 指标命名、标签设计、容量规划 |
学习路线建议
入门: 01 → 02 → 03 → 04 → 05
进阶: 06 → 07 → 08 → 09 → 10 → 11
实战: 12 → 13 → 14 → 15 → 16
运维: 17 → 18
环境要求
| 组件 | 最低版本 | 推荐版本 |
|---|---|---|
| Prometheus | 2.40+ | 2.52+ |
| Go(自编译) | 1.20+ | 1.22+ |
| Docker | 20.10+ | 25.0+ |
| Kubernetes | 1.25+ | 1.29+ |
| Grafana | 9.0+ | 10.4+ |