升级到v5.6.3之后的操作

创建时间:2024-04-02 最近修改时间:2024-04-02

#1. 升级到v5.6.3之后的操作

  • 完成告警适配topN报警:

    • 停止alarm服务
    • 删除旧版本索引模板
      curl -X DELETE 'http://127.0.0.1:20042/_template/dfi_alarm_event'
      请求结果:
      {"acknowledged":true}
      
      1
      2
      3
    • 删除旧版本索引
      curl -X DELETE 'http://127.0.0.1:20042/dfi_alarm_event*'
      请求结果:
      {"acknowledged":true}
      
      1
      2
      3
    • 启动alarm服务
  • 日志索引变更处理

    • 主控制器上执行如下操作初始化流日志,HTTP日志和DNS日志索引:
      # 执行下面命令,若返回"Remove all incorrect indices? [y/N]",请输入'y'
      mt elasticsearch.initialize
      
      1
      2
  • 确认droplet写流日志的限速值为1000

    • 在控制器将saltstackpillar中的throttle配置项的值设置为1000
      # 查看当前throttle值,若是1000,则无须处理
      cat /usr/local/deepflow/saltstack/pillar/deepflow.sls | grep throttle
      # 若值非1000,则设置为1000, 并刷新tsdb节点的配置
      sed -i 's/ throttle:.*/ throttle: 1000/g' /usr/local/deepflow/saltstack/pillar/deepflow.sls
      salt-run state.orch tsdb_run
      
      1
      2
      3
      4
      5
  • 参考各类型采集器中的采集配置章节矫正采集网口隧道解封装的配置,以展现虚拟网络链路追踪能力

    • 注意:K8s容器环境下,不再需要采集cni0/flannel.1/tunl0接口的流量,需要将此类接口从配置中去除
  • 升级到v5.6.3R3及以后版本,需要手动调整各采集器组配置,避免默认配置被 高亮 显示

    • 具体调整操作:如果配置项是使用默认配置,则将对应配置项清空
    • 各配置默认值:
类别 配置 单位 空值(默认值)
资源限制 内存限制 M字节 768
CPU限制 逻辑核 1
分发流限速 Mbps 1000
采集包限速 Kpps 200
分发熔断监控间隔 10
分发熔断阈值 Mbps 0
日志发送速率 条/秒 300
日志打印等级 INFO
基础配置参数 采集网口 ^tap.*
采集包长 字节 65535
流量采集方式 自适应
解封装隧道类型
虚拟机MAC解析 接口MAC
虚拟机XML文件 /etc/libvirt/qemu/
最长同步间隔 60
最长逃逸时间 3600
裸UDP最大MTU 字节 1500
裸UDP外层VLAN 0
是否请求NAT IP
日志存储时长 30
全景图配置参数 数据套接字 UDP
PCAP套接字 UDP
HTTP日志代理客户端 X-Forwarded-For
HTTP日志TraceID X-B3-TraceId
应用层日志解析包长 字节 256
流日志采集速率 10000
应用层日志采集速率 10000
包分发配置参数 分发套接字 裸UDP
内层附加头
基础功能开关 同步资源信息 关闭
日志发送 开启
全景图功能开关 指标数据 开启
非活跃端口指标数据 开启
应用层指标数据 开启
包统计数据类型 播送类型
流统计秒级数据 开启
包统计秒级数据 开启
过滤流日志 全部
过滤应用层日志 全部
包分发功能开关 全局去重 开启
  • 若将之前已存在的从控制器,改为其他从区域的主节点控制器,需要将此控制器的区域主节点标识改为是,具体操作如下所示:

    use deepflow;
    update controller set node_type=1 where ip="控制器ip";
    
    1
    2
  • 使用超管账户登录系统后通过 系统->配置管理->web配置 来添加文件传输模块默认配置项 file_storageradius_account_switch。参考文档 部署扩容->控制器与数据节点部署->页面定制配置 中的 web安全配置 章节,来添加缺失的 file_storageradius_account_switch配置节点。如果不添加该参数,系统会默认使用硬编码的配置项(和该节点的配置参数一致)。

  • Windows系统trident升级

    • 新的功能要求trident安装路径不包含空格,如之前安装在默认路径(C:\Program Files\trident)或带了空格的路径中,需要先卸载再安装。
  • 升级到v5.6.3R3及以后版本, 各区域性能统计数据本地化存储处理以及支持监控进程启停

    • 开放MySQL的grafana用户访问权限,使从区域的grafana-server可以访问
    • 从区域InfluxDB创建telegraf数据库和启动grafana-server
    • 新增部署procsnoopd服务和重新渲染monitor和droplet的配置并重启相关服务
      # 主区域主控制器处理
      salt -N controller cmd.run "mysql -e \"update mysql.user set host='%' where user='grafana'; flush privileges;\""
      salt \* state.sls telegraf.install
      salt \* state.sls telegraf.start
      salt-run state.orch monitor_config
      salt \* cmd.run "systemctl restart telegraf; systemctl restart influxdb-relay; systemctl start procsnoopd"
      salt-run state.orch tsdb_config
      salt -N tsdb cmd.run "systemctl restart droplet"
      
      # 从区域主节点处理
      tsdb-dump -e "create database telegraf"
      tsdb-dump -e "alter retention policy autogen on telegraf duration 168h shard duration 24h default"
      salt-run state.orch monitor_install
      salt-run state.orch monitor_config
      salt-run state.orch monitor_start
      salt \* cmd.run "systemctl restart telegraf; systemctl restart influxdb-relay; systemctl start procsnoopd"
      salt-run state.orch tsdb_config
      salt -N tsdb cmd.run "systemctl restart droplet"
      systemctl start grafana-server
      
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
  • SSL/TLS协议信息泄露漏洞(CVE-2016-2183)修复

    # 主区域主控制器处理
    salt -N controller state.sls openresty
    # 从区域主节点处理
    salt -N controller state.sls openresty
    
    1
    2
    3
    4