网络变更管理是一个旨在降低变更失败的可能性和风险的过程。这个过程需要几个步骤来确保成功的改变,但是每个步骤是如何工作的呢?
飞机飞行员使用明确定义的流程来确保安全飞行。同样,网络团队可以使用定义好的流程来降低网络变更失败的风险意外停机。尽管如此,组织有时会发现变化没有按计划进行,导致网络中断。一些中断是由于过程失败,而另一些是由于复杂配置的不明显的结果。
本文讨论了网络变更管理的基本操作原则,如下所示:
- 范围确定和风险分析。
- 同行评议。
- 部署前测试和验证。
- 实施和测试。
- 文档更新。
在进入变更管理流程之前,网络团队必须确定变更的详细信息,例如新配置、设备连接信息和文档。
1.范围和风险分析
网络变更管理流程的第一步是评估提议变更的范围。确定哪些服务可能会受到影响,以及使用这些服务的利益相关者。考虑变更的潜在范围和影响,包括任何可能的负面结果。
团队应该根据以下两个因素来衡量范围:
- 受变更影响的端点数量。
- 变更可能影响的服务的重要性。
一旦团队确定了范围,他们应该执行风险评估的变化。是不是过去做过无数次的事情,很好理解?它是完全自动化的,还是有可能人为错误会以一种意想不到的方式改变变更?所涉及的技术是否被很好地理解,或者是否有可能发生意想不到的事情?
变化的范围与风险成正比。对运行关键业务流程的基础架构的更改比对小型分支机构站点的更改给业务带来的风险更大。
网络团队可以使用风险因素计算器,为关键参数赋值。要创建风险计算器,请计算以下示例参数的平均值,或在网上搜索计算器:
- 客户会看到效果吗?(否= 1,是= 10)
- 有多少客户会受到影响?(范围从1到10)
- 范围内的服务有多重要?(范围从1到10)
- 这种改变在过去成功实施过吗?(是= 1,否= 10)
- 变更是自动化的吗?(范围从1到10,取决于自动化程度)
- 在实施之前,是否可以彻底测试变更?(是= 1,否= 10)
- 供应商文件是否清晰明确?(范围从1到10)
- 同行评审是否彻底,是否暴露了任何潜在的问题?(范围从1到10)
风险越大,团队在剩余的变更管理过程中就需要越小心。确保团队有清晰的变更控制文档,详细说明任何变更的理由、回滚程序和范围。
2.同行审查
下一步是进行同行评审。虽然团队可以在风险分析之前执行这一步骤,但是最好使用风险级别来推动同行评审的彻底性。所有的同行评审应该是相当彻底的,但是团队很可能对常规变更进行粗略的评审,例如访问控制列表变更或虚拟局域网修改。自动化测试并且常规变更的部署可以帮助减轻粗略的同行评审的风险。
通常,熟悉网络的内部员工会进行同行评审。然而,如果一个改变是不寻常的,让设备供应商的专家来执行审查是有意义的。审查应该反馈到风险分析阶段,并更新技术风险度量,例如指出测试和文档是否足够。
同行评审员在评审过程中应检查以下因素,其中包括:
- 配置脚本。
- 硬件和软件兼容性。
- 回滚程序。
- 改变基本原理。
- 业务需要。
- 网络安全和合规性。
- 模板和文档。
3.部署前测试和验证
理想情况下,所有变更都要经过部署前测试和验证阶段。考虑自动化低风险的、重复的任务和变更,以消除跳过团队认为低风险的变更测试的诱惑。范围和风险越大,正确测试和验证提议的变更就越重要。
虚拟路由器和交换机操作系统实例的流行使得自动创建测试网络拓扑变得更加容易,而无需昂贵的硬件投资。使用网络实验室和沙箱在虚拟网络拓扑中构建自动化工作流,当测试成功完成时,团队可以拆除这些工作流。
部署前测试包括团队应该遵循的几个步骤,以评估提议的更改:
- 检验测试网络在变更前是否按预期工作。
- 在测试基础设施中实现变更,以确认变更会导致期望的最终状态。团队应该使用自动化过程来避免人为错误,并减少验证变更的时间。如果测试环境中的验证失败,请确定原因。失败是因为更改不正确,还是因为测试网络没有准确代表真实网络?
- 测试回退更改过程,以便在出现问题时可以很容易地恢复到以前的状态。回滚应该将网络返回到开始状态,团队可以通过重复步骤1来验证这一点。
4.实施和测试
部署和部署后测试和验证应遵循与部署前测试的步骤1和2相同的流程。如果团队在部署前测试和验证方面做得很好,就不会发生意外。如果变更后测试检测到意外问题,团队应该取消变更并验证服务恢复。
一些网络协议在更改为大型网络后需要更多时间来收敛。因此,变更后验证应该包含延迟或收敛测试,这是小型测试环境中的部署前测试所不需要的。
许多组织将网络配置变更自动化,目标是迁移到基于基础设施即代码的DevOps文化。目标是通过一项连续累计/针对低风险变更的连续交付测试和部署流程。
5.文档和网络管理更新
理想情况下,团队在变更创建过程中创建和更新文档,使他们能够审查文档和网络管理变更以及变更的细节。一旦团队实施并验证了更改,他们就可以将文档更改合并到网络文档系统中。
不要忘记根据需要更新网络管理系统。大多数网络管理系统都有API来支持自动化流程进行更改。
如果更改验证步骤是自动化的,则可以将其合并到定期网络验证检查中。这些定期检查可以高度检测故障冗余和弹性网络。随着时间的推移,团队会构建一个涵盖网络许多部分的网络验证检查库。
良好的网络变更管理原则为减少因变更失败而导致的计划外网络中断提供了指导。团队应该创建一个适合他们组织的过程,并努力使该过程高效。