设为首页   锐捷官网
用其他帐号登录:
查看: 777|回复: 1

[运维管理技巧] 安全防护卫士-防火墙升级改造的八步曲|运维实战家

[复制链接]

151

主题

151

帖子

888

积分

版主

Rank: 7Rank: 7Rank: 7

积分
888
发表于 2020-12-18 11:16:57 | 显示全部楼层 |阅读模式
“运维实战家”专栏,从技术到实践,
和您聊聊运维的那些事儿,讲述运维人的“昨天、今天和明天”

作者:风起儿

01 前言

01 防火墙演化史


防火墙的发展历史也经历了从低级到高级、从功能简单到功能复杂的过程。在这一过程中,随着网络技术的不断发展,新需求的不断提出,防火墙在原有的路由交换的基础上扩展和往协议上层功能不断的丰富的道路上演进和发展,形成今天这样功能丰富多样的功能集合一体化的形态,见下图:



02 防火墙的数据包处理流程

防火墙在网络中就是一个多面手基本什么都可以干,能不能像路由交换那样的报文来了就转,主要看防火墙的特点:功能多,多意味着大杂烩,如果没有合理的配料和工序就会变成了一锅粥,防火墙根据实际客户业务需求给自己的核心定位是控制,而路由交换的核心在转发,防火墙的数据报转发流程就是它完成自己合理配料和工序的过程。见下图 :



02 正片

谈完防火墙的身世,那就来看看防火墙的吐槽……











“背锅”不是防火墙的专利,“逃跑”不是防火墙的特技,掌握我们的防火墙的升级改造的八步曲,让我们依旧坚挺下去的秘密,下面让我们一起修炼秘笈吧:


01 了解需求背景

先和接口的售前、销售了解项目的方案、设备清单、需求列表,项目注意事项以及客户和集成商的相关人等;基于前面的基础再和客户以及集成商一起确认清楚需求清单、分工责任界面、工期等,主要是形成一版需求跟踪矩阵和干系人管理,把事和人搞清楚下面的具体的事情就好开展了。


02 业务环境调研  

网络拓扑能够在大框下直观地反馈网络架构和业务关系,但是往往网络拓扑因为客户水平的参差不齐和拓扑的绘制标准缺少明确规定,很难给出准确的业务走向和实际物理状况这个时候就需要业务信息收集。


业务访问关系的信息收集尤其在新建项目和安全等级要求比较高的项目中特别重要,它是业务开通与否的依据,也是测试验证的参考,仅供参考列表如下:


序号
业务名称
源IP
目IP
端口
1
CRM测试
192.168.1.2
192.168.10.4
10000~65535
协议类型
起止日期
申请人
UDP
2020.1.1-2020.3.31
张山

防火墙的设备的配置和状态对于遇到升级改造非常重要,它是设备测试验证和业务上线的前提,锐捷防火墙基础信息收集的命令如下:


序号
名称
执行命令
信息类别
1
备份配置
exec backup config
配置
2
系统配置文件
show configuration
配置
3
系统基本信息
get sys status
硬件状态信息
4
系统状态信息
get sys performance status
硬件状态信息
5
设备硬件信息
get hardware status
硬件状态信息
6
硬件性能使用情况
diag sys top
硬件状态信息
7
查看 ntp 状态
diagnose sys ntp status
硬件状态信息
8
查看硬盘状态
diagnose hardware deviceinfo disk
硬件状态信息
9
查看硬盘情况
exec disk list
硬件状态信息
10
查看 ha 配置
show full-configuration system ha
HA信息
11
查看 ha 状态
get sys ha status
HA信息
12
查看 ha 信息
diagnose sys ha dump
HA信息
13
检查配置文件是否同步
diagnose sys ha showcsum
HA信息
14
单接口状态
diagnose hardware deviceinfo nic 接口名
网络基础状态信息
15
聚合接口状态
diagnose netlink aggregate name 聚合接口名
网络基础状态信息
16
限速接口状态
diagnose netlink device list
网络基础状态信息
17
接口状态统计
get sys interface physical
网络基础状态信息
18
ARP表
get sys arp
网络基础状态信息
19
ARP详细信息
diagnose ip arp list
网络基础状态信息
20
查看路由表
get router info routing-table all
网络基础状态信息
21
查看转发表
get router info kernel
网络基础状态信息
22
系统进程
diagnose sys top 5 99
系统进程状态
23
查看日志
exec log display
日志记录

业务可用性记录在防火墙升级改造的时候可以在设备上抓取,它是测试验证的参考项,同时也是割接后评判业务关系的凭据,锐捷防火墙业务相关信息收集的命令如下:


序号
名称
执行命令
信息类别
1
查看防火墙策略
show firewall  policy
策略
2
查看会话表
get system  session list
业务会话
3
查看会话表前过滤
diagnose sys  session list
业务会话
4
会话表过滤
diagnose sys  session filter
业务会话
5
查看整体会话状态
diagnose sys  session full-stat
业务会话
6
查看会话统计
get system  session-info statistics
业务会话

备注:锐捷防火墙升级改造需要有以上命令适用,替换友商的设备提供类似命令


03 软硬件环境准备

1>硬件环境


  • 检查根据实际情况进行增减,参考表格如下:

  • 环境要求:安防门和锁、静电地板、湿度、装修、卫生保洁、空调等

  • 机柜:物理位置、机柜规格参数、资源使用情况等

  • 供电:PDU供电标准、插头规格、电源线长度等

  • 线缆:运营商、光纤跳线、双绞线,ODF架资源等

  • 工具:记号笔、螺丝刀、标签纸和标签机、卡扣、测试仪器等



2>软件准备


  • 其中包含软件新旧系统版本及其补丁包和版本相关文档说明,软件工具类如下

  • 升级工具:如FTP软件3CDaemon

  • 调试工具:如CRT、Xshell

  • 测试工具:如HostMonitor、网关监控系统等



3>测试搭建


在测试环境允许条件下,尽可能的搭建1比1的测试环境,模拟业务做功能和业务需求的相关测试,测试记录表格可以参考如下:


测试项目
VPN(IPSec)对接阿里云站点
测试目的
检测IPSEC VPN隧道对接功能
测试方法
1、基本上网配置
2、创建VPN
3、修改VPN参数
4、配置路由和策略
5、测试业务
预期结果
可以对接阿里云VPN需求,满足业务访问需求
测试工具
无特殊工具
测试记录


测试结果
达到预期效果

04 模拟测试验证

1>网络连通性测试


防火墙的相关常用命令如下:


RG-WALL #execute ping-options source 192.168.1.200//指定ping数据包的源地址 192.168.1.200

RG-WALL#execute ping 8.8.8.8 //继续输入ping的目标地址,即可通过192.168.1.200的源地址执行ping操作

RG-WALL #execute  traceroute   8.8.8.8 //进行路径探测               

RG-WALL #execute  telnet 2.2.2.2      //进行telnet访问                  

RG-WALL #execute  ssh  2.2.2.2        //进行ssh 访问


2>业务可用性测试


这部分主要是让业务一些关键业务如:CRM,OA等;特殊业务和应用比如:语音,长链接等需要配合上线前验证测试;其他普通业务也可以使用ping,telnet端等方式模拟访问业务可以在防火墙进行查看相关记录。


如命令抓报:

命令格式:diagnose sniffer packet <interface> <'filter'> <verbose> <count>


1 interface   

<interface> 指定实际的接口名称,可以是真实的物理接口名称,也可以是VLAN 的逻辑接口名称,当使用“any”关键字时,表示抓全部接口的数据包。

2 verbose显示内容   

<verbose> 指控制抓取数据包的内容。常用选项4和6。

3 count   

<count> 抓取的数据包的数量。

4 filter  包过滤参数   


举例:

diagnose sniffer packet any 'host 192.168.1.11'  4  2

diagnose sniffer packet  wan1 'icmp and host 8.8.8.8' 1 10; 


如会话日志记录:



勾选后可以在会话日志中查询相关测试记录。



3>网络高可用架构参考如下



备注:根据实际情况进行测试和演练。


05 风险评估

1>网络影响范围


防火墙新建项目业务风险相对比较低,如果是升级整改过程一般会涉及很多应用和业务属于重要变更,由于业务实际情况单纯从网络层面是不完整的,一些特殊的业务可能无法正常使用,在实施割接提内部变更评审流程,在流程上和技术原理上确认网络影响风险范围后,还需要告知甲方有关负责人员进行相关业务的评估,把风险降到最低。


2>业务影响粒度


针对一些未知的特殊应用服务提供的业务可能出现中断情况,需要前期梳理的细致程度以及前期业务可用性记录抓取业务时机和次数间隔来去确定业务的前后变化。

梳理关系见参照表格如下:


序号
业务名称
源IP
目IP
端口
1
CRM测试
192.168.1.2
192.168.10.4
1000~65535
类型
起止日期
申请人
UDP
2020.1.1-2020.3.31
张山

3>割接风险评估


  • 技术复杂度:操作步骤的长度和是否新技术引入来衡量

  • 故障恢复时间:业务恢复的时长和等级级别对应

  • 业务影响范围:可以根据业务重要性和范围指标评估

  • 历史记录:记录是否存在以及其记录发生的频率作为指标参考

  • 回退方案:有无验证、是否可逆、方案操作明细度



06 割接方案

割接方案可以参考公司的《技术服务部网络变更管理程序V2.0》的变更方案(模版)编写,不做详细叙述。


割接过程中可能遇到一些问题,建议根据防火墙数据包处理流程进行排查,也可以根据业务现象经验跳过相关步骤直接看最有可能发生的选项,主要排查思路为:


1> 检查设备配置,确保设备当前配置与规划中一致;


2> sniffer抓包,分析数据包是否正常转发到防火墙,或防火墙是否转发相关报文;


3> debug flow,显示数据包在防火墙内完整数据流的处理过程,该步骤对于防火墙收到数据包但没有转发时非常有用,常用的命令及作用如下:


diagnose debug flow filter add x.x.x.x  定制过滤器,支持多种过滤,如过滤IP

diagnose debug flow show console enable 开始 flow 的输出

diagnose debug flow show function-name enable 显示功能模块

diagnose debug flow trace start 100 定义索要跟踪数据包的数量

diagnose debug enable  开启 debug 功能

diagnose debug flow trace stop  关闭debug flow trace

diagnose debug flow filter clear     清除过滤条件

diagnose debug disable  关闭debug命令

diagnose debug reset  重置所有的debug命令


以上检查如果都检查不出来什么问题,及时联系400后台支持


07 变更规范

1> 变更规范


变更根据实际情况的需要,走公司《技术服务部网络变更管理程序V2.0》的规定流程。


2> 充分授权


简单归纳为“三授权:技术、管理、客户”,对于升级改造过程中遇到的技术相关问题疑难点要和后台技术人员深度沟通交流,找到解决方案,以及得到批准;割接方案的影响范围和风险点及其相关解决方案需要及时同步到上级主管认可同意;客户也需要知道割接方案的风险点,一起参与评估影响范围以及对应的措施(回退,应急方案),客户同意需要有一定呈现而不是停留在口头上,需要落实在短信,微信,邮件等有效证明上。


08 值守保障

主要分为2个部分:当天的割接过程中的割接分工和割接完成之后的业务保障值守:


1>割接分工


主要是把当天割接的人、责任范围、时间、地点、联系方式等明确下来并通告大家统一指令,避免混乱,参考表格如下:


分组
姓名/手机
角色
地点
指挥小组
张山/139XXXXXXX1
决策
地点0
现场总协调
李四/139XXXXXXX2
现场接口人
地点1
王五/139XXXXXXX3
现场接口人
地点2
指令发布
XXX/139XXXXXXXX
指令下发
地点0
保障组
XXX/137XXXXXXXX
故障分析定位组
\
XXX/138XXXXXXXX
实施人员分组
分组
实施/手机
复核/手机
地点
网络操作组
网络A
XXX/139XXXXXXXX
YYY/139YYYYYYYY
地点1
网络B
XXX/140XXXXXXXX
YYY/140YYYYYYYY
地点2
机房组
机房I
机房组
ZZZ/139ZZZZZZZZ
地点1
机房J
机房组
ZZZ/140ZZZZZZZZ
地点2
业务验证组
验证组1
AAA/139AAAAAAAA
BBB/139BBBBBBBB
地点1
验证组2
AAA/140AAAAAAAA
BBB/140BBBBBBBB
地点2

2>值守规范


一般涉及网络大的调整,尤其是涉及防火墙等安全设备的升级改造如果没有充分业务验证,都需要在工作日上班保障时间,具体时间长度和保障方式需要和客户协商。如果故障处理不了及时升可以参考按照公司《故障处理管理程序V1.7》规定进行处理。参考表格如下:


值守保障人员
分组
值守人员/手机
升级人员/手机
地点
网络操作组
网络A
XXX/139XXXXXXX1
YYY/139YYYYYYY1
地点XX
机房组
机房I
XXX/139XXXXXXX2
YYY/139YYYYYYY2
地点XX
业务验证组
验证组1
XXX/139XXXXXXX3
YYY/139YYYYYYY3
地点XX

03 尾言

以上关于防火墙升级改造的八步曲在我们的日常割接中有很多雷同之处,也有些特殊的地方,细细片语之间希望你品味其中蕴意,在面对我们的下一代防火墙的时候有些帮助,谢谢观赏。


点评

请看t.cn/A6zk6pMd(网址) 肺炎迅速蔓延 ,疫情严峻,看海外真实报道...... git.io/gbbbb (网址)  发表于 2020-12-18 12:11
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则