控制器负载高
创建时间:2024-11-01 最近修改时间:2024-11-01
#1. 控制器负载高
- 告警触发条件:控制器负载5分钟持续达到限制的70%
- 计算方法:CentOS系统中通过top命令查询到的最近1分钟load值与服务器CPU逻辑核数的比值
- 处理方法:
- 点击告警事件中的控制器主机名,或访问
系统管理-控制器页面并点击控制器名字 - 查看控制器最近24小时系统负载曲线
- 若超过5%的时间达到服务器CPU逻辑核数量的70%,则需要进行服务器扩容
- 否则,查看同时是否有其他告警事件,解决其他告警即可
- 点击告警事件中的控制器主机名,或访问
#2. 控制器磁盘空间不足
- 告警触发条件:控制器任何一块磁盘使用空间大于70%
- 处理方法:
- 点击告警事件中的控制器主机名,或访问
系统管理-控制器页面并点击控制器名字 - 查看控制器最近24小时磁盘用量曲线,评估是否需要进行磁盘或服务器扩容
- 点击告警事件中的控制器主机名,或访问
#3. 控制器失联
- 告警触发条件:主控制器无法通过RESTful API连通故障控制器
- 计算方法:
- 主控制周期调用
http://{host}:20014/v1/health/探测,若收到回复则认为正常 - 若超过一分钟从未收到回复信息,则认为异常
- 主控制器每隔3秒扫描一次所有控制器和数据节点
- 主控制周期调用
- 处理方法:
- 运维人员收到告警后应当尽快通过带外的方式登录控制器进行恢复
点击查看
控制器失联时,采集器自动切换连接的控制器,默认切换时间为1分钟(由系统管理-采集器-配置页面的最长同步间隔决定)。
点击查看
若有控制器或数据节点失联,控制器探测的时间间隔可能由于等待超时大于3秒。
提示
默认情况下通过22端口探测SSH服务,若部署环境使用其他SSH端口需要修改/etc/manager.yaml中的check_port并重启manager进程。