1 概述

1.1 版本

服务器版本
v6.9.4及之后版本

1.2 功能简介

当运维项目遇到高负载、宕机风险、磁盘空间不足等问题时,需要及时通知管理员或运维人员。
乐创者平台提供告警配置功能,提供内置的默认告警。用户也可自定义告警,定义告警触发条件。

2 功能入口

平台管理员登录系统,执行「智能运维>智能告警>告警配置」菜单,如下图:

包括系统告警和自定义告警的配置,用户可按需选择。

3 系统告警

系统内置的告警包括知识库连接告警、MOngoDB连接告警、Redis连接告警,如下图:

默认均启用,启用时需要设置触发周期和有效时段:
沉默周期:指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。即:如果同一个告警消息发送后,在沉默周期内不会再发送消息,若过了沉默周期,该告警仍然存在则会再次发送消息。
有效时段:指在该时间段内才会对该指标进行监控,产生告警时立即进行告警通知。
这三种系统告警具体监控内容如下:

系统告警类型 说明
知识库连接告警 对知识库的访问连接数和连接状态进行监控,当访问连接数大于知识库配置的最大连接数时、或知识库数据连接无法正常连接时,都将会触发告警。
MOngoDB连接告警 对MongoDB连接状态进行监控,当MongoDB连接无法正常连接时将会触发告警。
Redis连接告警 对Redis连接状态进行监控,当Redis连接无法正常连接时将会触发告警。

4 自定义告警

切换到“自定义告警”tab,可以添加自定义告警,并支持对自定义告警进行启用禁用等操作,查看告警信息,包括:告警的名称、监控指标、告警规则和状态,创建的告警默认状态是启用的。

4.1 添加告警

点击「添加告警」按钮,进入配置界面。如下图:

配置项具体说明如下:

配置项 说明
名称 该告警规则的名称,不支持重名。
监控指标 需要进行监控并产生告警的指标,支持CPU、内存、硬盘、连接数等多种指标,可按需进行选择。
规则 监控指标告警的级别(包括紧急、警告和普通)以及对应告警的触发条件,包括判断条件和触发时长。
沉默周期 报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
有效时段 指标的监控时段,只在该时间段内才会对该指标进行监控。

注:监控指标中的硬盘只针对当前服务所在盘进行监控。

4.2 管理告警

1)告警状态
告警有两种状态:
启用中:告警已启用,在有效时段将对该告警的监控指标进行监控。
已禁用:告警已停用,该告警规则无效。
2)修改告警
可点击「修改」按钮,可修改本条告警的基础信息和告警规则。如下图:

修改告警,不改变告警任务原本的启停状态。
3)告警启停删除
对于自定义告警,支持启动、禁用和删除操作。如下图:

4)查看告警历史
列表上显示该告警的告警数量(指的是触发该告警规则且未处理的所有告警),数量非0时,可点击“告警历史”,查看曾触发本条告警规则的明细信息,了解触发条件、触发时间等。如下图:

作者:fancy  创建时间:2023-12-04 10:04
最后编辑:fancy  更新时间:2025-04-24 11:27