应优先采集与持续关注的核心指标包括:流量(pps/bps)、连接数(conns)、清洗比率、带宽利用率、CPU/内存与网络丢包率。监控策略建议采用分层采集:节点级采集(每10s-1m)、站群聚合(每1m-5m)与业务侧应用指标(自定义心跳)。同时启用流量基线学习,结合时序数据库做历史比对,确保能区分突发攻击与业务高峰。
告警设置应采用动态阈值+静态阈值结合。静态阈值用于明显的异常(如带宽>峰值的120%),而动态阈值基于历史周期性波动(按小时/日/周建模)。引入多级告警(信息/警告/严重),并配置抑制规则(抖动窗口、重复合并)以降低误报。对关键业务设置更严格的SLA告警与自动化动作触发。
应构建告警联动矩阵:当检测到大流量/多源攻击时,触发自动化清洗策略并同时通知值班人员。通知渠道采用短信、邮件、企业微信/Slack与运维控制台同步推送。关键点是配置自动化工单与分级召唤,例如严重告警自动升级并将责任人拉入应急群组;同时保留人工确认步骤以避免误执行全量拦截。
应急预案应包含分级响应流程、流量切换策略、黑白名单规则模板与回滚路径。演练建议至少季度一次,包含桌面推演与实战演练(小流量模拟清洗与切流测试)。验证点包括告警触发时延、自动清洗成功率、业务可用性恢复时间(RTO)与日志完整性。演练后必须更新预案并记录问题清单。
首先确保日志留存与同步策略已开启(网络流量、WAF/清洗日志、系统事件)。一旦发生事件,应立即做三件事:1) 保存当前周期的原始流量样本与清洗决策快照;2) 使用聚合日志快速定位异常源与攻击类型;3) 按预案执行分流、速率限制或黑名单策略并启动业务回切验证。事后要进行取证归档、攻击溯源报告与防护规则优化。