news 2026/4/3 6:31:48

Prometheus告警处理详解:从Alertmanager部署到告警实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Prometheus告警处理详解:从Alertmanager部署到告警实战

一、Alertmanager介绍

Prometheus 内置了一个报警模块——Alertmanager,它负责接收来自 Prometheus 的告警信息,并支持对告警进行去重、降噪、分组、路由,同时具备丰富的通知渠道集成能力,是一款高效的告警通知系统。

告警流程架构

在 Prometheus 中,告警功能分为两部分:

  1. Prometheus:定义告警规则并周期性计算,触发告警后发送给 Alertmanager。

  2. Alertmanager:接收告警并按照配置进行后续处理与通知。

下图展示了告警流程架构:


二、部署Alertmanager

Alertmanager 使用 Go 编写,无第三方依赖,支持跨平台部署。

1. Linux安装步骤

(1)下载安装包

bash

wget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gz

(2)创建配置文件

解压后默认配置文件为alertmanager.yml,主要内容如下:

yaml

route: group_by: ['alertname'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'web.hook' receivers: - name: 'web.hook' webhook_configs: - url: 'http://127.0.0.1:5001/' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
(3)启动Alertmanager

bash

./alertmanager

支持启动参数:

  • --config.file:指定配置文件路径

  • --storage.path:指定数据存储路径

(4)查看运行状态

访问http://<IP>:9093可进入Alertmanager控制台。


2. Docker安装步骤

bash

mkdir -p /etc/alertmanager/ mkdir -p /etc/alertmanager/template vim /etc/alertmanager/alertmanager.yml # 内容同上 docker run -d -p 9093:9093 \ -v /etc/alertmanager:/etc/alertmanager \ -v /etc/localtime:/etc/localtime \ prom/alertmanager

三、配置Receiver接收告警信息

Alertmanager 支持多种通知方式,包括邮件、Slack、Webhook、PagerDuty 等。

集成QQ邮箱告警示例

1. 申请QQ邮箱授权码

参考:QQ邮箱授权码申请指南

2. 配置alertmanager.yml

yaml

global: resolve_timeout: 5m smtp_smarthost: 'smtp.qq.com:465' smtp_from: '276****211@qq.com' smtp_auth_username: '276****211@qq.com' smtp_auth_password: 'xxxxxxxxx' # 授权码,非QQ密码 smtp_require_tls: false templates: - '/etc/alertmanager/template/*.tmpl' route: group_by: ['service','alertname','cluster'] group_wait: 30s group_interval: 10s repeat_interval: 5m receiver: 'email' receivers: - name: 'email' email_configs: - to: '276****211@qq.com' send_resolved: true html: '{{ template "email.html" . }}' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
3. 创建自定义邮件模板

bash

vim /etc/alertmanager/template/email.tmpl

模板内容如下(支持Go模板语法):

go

{{ define "email.html" }} {{ range $i, $alert :=.Alerts }} ========监控报警==========<br> 告警状态:{{ .Status }}<br> 告警级别:{{ $alert.Labels.severity }}<br> 告警类型:{{ $alert.Labels.alertname }}<br> 告警应用:{{ $alert.Annotations.summary }}<br> 告警主机:{{ $alert.Labels.instance }}<br> 告警详情:{{ $alert.Annotations.description }}<br> 触发阀值:{{ $alert.Annotations.value }}<br> 告警时间:{{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05"}}<br> ========end=============<br> {{ end }} {{ end }}

注意:

  • StartsAt为UTC时间,需加28800e9转换为北京时间

  • 2006-01-02 15:04:05为Go语言固定时间格式


四、启用Alertmanager模块与Rules告警规则

1. 配置Prometheus连接Alertmanager

编辑prometheus.yml,添加以下内容:

yaml

global: scrape_interval: 5s evaluation_interval: 5s alerting: alertmanagers: - static_configs: - targets: - 192.168.3.100:9093 rule_files: - "/etc/prometheus/rules/*.rules"

重启Prometheus后,访问http://<IP>:9090/config确认配置生效。

2. 创建告警规则文件

示例规则:CPU与内存使用率告警

bash

mkdir -p /etc/prometheus/rules vim /etc/prometheus/rules/alerts.rules

内容如下:

yaml

groups: - name: hostStatsAlert rules: - alert: hostCpuUsageAlert expr: (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance))*100 > 85 for: 1m labels: severity: critical annotations: summary: "Instance {{ $labels.instance }} CPU usage high" description: "{{ $labels.instance }} CPU usage above 85% (current value: {{ $value }})" - alert: hostMemUsageAlert expr: (1 - (node_memory_MemAvailable_bytes{} / (node_memory_MemTotal_bytes{})))* 100 > 70 for: 1m labels: severity: critical annotations: summary: "Instance {{ $labels.instance }} MEM usage high" description: "{{ $labels.instance }} MEM usage above 70% (current value: {{ $value }})"

重启Prometheus后,可通过以下地址查看规则与告警状态:

  • 规则列表:http://127.0.0.1:9090/rules

  • 告警状态:http://127.0.0.1:9090/alerts

3. 模拟告警触发测试

创建CPU负载脚本:

bash

vim load_cpu.sh #!/bin/bash while true; do : done chmod +x load_cpu.sh ./load_cpu.sh

运行后观察:

  1. Prometheus 检测到CPU使用率 >85%

  2. 告警状态先变为PENDING(持续1分钟后)

  3. 触发FIRING状态并发送至Alertmanager

  4. Alertmanager 根据路由发送邮件通知


总结

本文完整介绍了从 Alertmanager 部署、配置邮件接收、编写Prometheus告警规则到模拟告警测试的全过程。通过合理配置路由、抑制规则与通知模板,可构建一套稳定、易用的监控告警系统。

后续可继续扩展:

  • 集成企业微信、钉钉、Slack等通知

  • 配置告警分级与静默规则

  • 使用Webhook对接自愈系统

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/14 2:54:48

软著材料整理怎么做更快:从项目描述到可导出初稿(软著通)

写一句项目描述&#xff0c;先拿到一套软著材料初稿。 后续在同一个工作台里补信息、改内容、导出文件——把最费时间的“整理与排版”变成可控流程。软著通&#xff08;RuanZhu.ink&#xff09; 一句话介绍 软著通是一款面向个人开发者与小团队的软著材料生成与整理平台&#…

作者头像 李华
网站建设 2026/4/1 18:54:54

小马智行与摩尔线程战略合作,强强联合能改变什么?

2月6日&#xff0c;“全球Robotaxi第一股”小马智行与国产全功能GPU领军企业摩尔线程正式宣布达成战略合作。双方将聚焦L4级自动驾驶技术落地与规模化应用&#xff0c;围绕小马智行的技术核心&#xff0c;世界模型及虚拟司机系统的训练与优化展开深度协同&#xff0c;以安全可靠…

作者头像 李华
网站建设 2026/3/27 21:26:19

密码学(一):sm4+ofb

SM4 算法 SM4 是中国国家密码管理局发布的对称加密标准&#xff08;原名 SMS4&#xff09;&#xff0c;主要用于无线局域网标准&#xff08;WAPI&#xff09;及各类政务、金融应用。它在结构上属于分组密码算法。 1. 核心规格 分组长度&#xff1a;128 位&#xff08;16 字节&a…

作者头像 李华
网站建设 2026/3/31 6:51:22

基于莱维飞行灰狼算法优化DV-Hop定位附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 &#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室 &#x1f447; 关注我领取海量matlab电子书…

作者头像 李华
网站建设 2026/4/2 17:10:51

WordPress从经典编辑器升级到古腾堡编辑器

WordPress 5.0 推出后&#xff0c;古腾堡&#xff08;Gutenberg&#xff09;编辑器正式取代经典编辑器&#xff0c;成为默认的内容编辑工具。这一变化引发了广泛讨论&#xff0c;许多用户对新编辑器的使用仍感到不适应。事实上&#xff0c;从建站到内容发布&#xff0c;WordPre…

作者头像 李华
网站建设 2026/4/1 21:52:52

【工具变量】国家跨境电商综合试验区DID-省/市/上市公司(2000-2025年)

中国跨境电子商务综合试验区是国务院批准设立的创新试点区域。其核心逻辑在于通过技术标准、业务流程、监管模式的先行先试&#xff08;如“六体系、两平台”建设&#xff09;&#xff0c;解决跨境电商在通关、结汇、退税等环节的制度性障碍 自2015年设立杭州首个综合试验区以来…

作者头像 李华