网络监控,也经常被称为网络管理是持续监控计算机网络的任何故障或缺陷以确保网络持续运行的实践。从技术上来说,网络监控可以被视为网络管理的一个子集,但实际上两者是等同的。
网络监控过程包括使用专门的系统来检测常见网络问题,网络设备故障和资源过载,无论资源是否在本地,在数据中心或者托管在云中。常见的网络设备包括路由器, 开关, web服务器和防火墙.
网络监控是如何工作的?
网络监控收集并报告来自计算机网络的各种数据,包括路由器、交换机、防火墙、负载平衡器,甚至端点,如服务器和工作站。对收集的数据进行过滤和分析,以识别各种网络问题以及它们的根本原因。这些网络问题可能包括设备故障、链路中断、接口错误,数据包丢失、应用程序响应时间和配置更改。
示例包括每个架构元素的以下内容:
- 事件。报告最多事件或最频繁发生事件的设备。
- 网络配置变更管理(NCCM)。配置发生变化的最重要的设备或配置变化最多的设备。
- 性能。利用率最高的接口、按计数或百分比计算错误最多的接口或错误最多的设备中央处理器或内存利用率。
- 地址管理。 子网几乎超出了可用的地址。
- 拓扑。邻居变化最多的设备。
- 数字体验监控。报告最慢应用程序的系统或出现最多问题的路径。
值得注意的是,组织经常需要为每个架构元素使用不同的工具。将这些报告整合到一个位置可以提供网络运行的简明视图。报告必须支持收集数据的链接,以便网络管理员执行详细的故障排除。
网络监控的功能
的功能网络监控和管理系统可以分为几类,每一类都有特定的功能。
事件收集和处理
事件收集依赖于简单网络管理协议(简单网络管理协议(Simple Network Management Protocol))陷阱和系统记录收集网络事件数据。这使得网络能够在不轮询网络设备的情况下将重要事件通知给管理员。事件处理用于识别关键事件,减少网络管理员必须处理的警报数量。
网络变更和配置管理
NCCM存档网络设备配置,可用于自动化配置更新。可以使用几种机制中的任何一种来检索和更新配置,包括命令行界面(硬币指示器 (coin-levelindicator的缩写)命令行界面(Command Line Interface for batch scripting)),SNMP,RESTCONF和NETCONF。
配置分析识别日常变化(漂移),并审核配置与网络设计策略不匹配的合规性异常。
漂移和审核都是确保网络配置符合预期设计和运行的关键功能。
性能监控
性能监控收集设备性能数据,例如CPU和内存利用率、温度、电源电压和风扇运行。接口性能数据用于识别故障、数据包丢失、拥塞和其它网络问题。
使用SNMP、Windows Management Instrumentation(WMI),CLI或遥感勘测。网络设备和基于Linux的终端通常依靠SNMP或遥测技术来收集数据,而基于Windows的设备则依靠WMI远程协议。WMI是一个客户端-服务器框架,它支持使用公共信息模型,它代表操作系统的组件。
遥感勘测
较新的设备和监控系统可能采用网络遥测技术将网络性能数据推送到网络监控系统。遥测可以使用可扩展标记语言表示“…人”JavaScript对象符号-编码数据。一些网络监控系统和相关网络设备使用代表性状态转移接口来使用这些相同的数据格式收集数据。
IP地址管理
IP地址管理跟踪IP地址的使用并控制网络设备的地址分配。该功能通常使用CLI或应用程序编程接口(应用程序接口)到其他网络管理系统。
拓扑映射
这拓扑学和映射功能收集设备连接数据以创建物理和逻辑拓扑图,这些拓扑图构成了基本故障排除的基础。SNMP轮询或CLI用于收集有关路由邻居(第3层)、交换邻居(第2层)、地址转换表(第2层到第3层映射)和邻居发现协议的数据,例如链路层发现协议.
数字体验监控
数字体验监控采用主动测试工具——例如砰, 路由跟踪和综合监控-测试网络是否正常工作。它还可能使用运行在端点(如服务器和工作站)上的软件代理来收集有关应用程序性能和网络性能的数据。将应用程序性能监控与网络监控相结合,使IT组织能够诊断应用程序问题是由网络还是其他因素(包括外部网络)引起的。
安全性和自动化
该架构应该包括安全性和自动化。网络安全仍然是网络平稳运行的重要因素自动化用于保证一致的执行网络政策。安全设计应包括入侵检测和入侵防御设备以及监控和管理它们的软件。自动化可以由单独的工具提供,也可以集成在NCCM系统中。
组合来自多个来源的数据使得网络监控系统能够快速识别故障在性能问题对应用程序产生负面影响之前进行报告使用网络的人。
网络监控性能指标的类型
网络性能指标提供了有价值的见解,有助于网络管理员识别网络问题并优化性能。
关键的网络监控性能指标包括:
潜伏. 潜伏指数据包从源传输到目的地所需的时间。高延迟会对用户体验质量产生负面影响,尤其是对于需要低延迟通信的应用程序,如VoIP和在线游戏。
丢包。此指标表示传输过程中丢失的数据包的百分比。高数据包丢失率会导致性能下降,并且通常是硬件问题或网络拥塞的迹象。
抖动。振动指数据包通过网络所需时间的变化。高抖动会破坏依赖实时通信的应用程序的性能,例如流媒体和(同VoiceoverInternetProtocol)网络电话通信,导致质量差和中断。
吞吐量。网络监控中的吞吐量是指在给定的时间帧内,可以通过网络连接成功传输的数据量。
数据包复制。当相同的数据包在网络上传输多次时,就会发生数据包重复,导致同一数据包在目的地被多次接收。
往返时间。RTT测量信号从发送者到接收者再返回所需要的时间。这是评估网络响应能力的重要指标。
数据包重新排序。数据包重新排序是指数据包到达目的地时没有按照最初传输的顺序。这可能是由多种因素造成的,包括多路径路由和路由抖动,其中路由器在不同的目的地路由之间快速切换,导致网络不稳定。
错误率。此指标跟踪数据传输中的错误频率。高错误率可能表示网络硬件或干扰有问题,这会影响数据完整性.
网络监控协议的类型
网络监控协议对于从网络设备收集数据和促进网络设备之间的通信至关重要。以下是一些最常见的网络监控协议:
简单网络管理协议。SNMP是网络管理中使用最广泛的协议之一,它使网络管理员能够监控和管理路由器、交换机和服务器等网络设备。SNMP使用客户端-服务器模型运行,其中SNMP管理器从安装在设备上的SNMP代理请求信息。
互联网控制信息协议。 网间控制报文协议(Internet Control Messages Protocol)主要用于网络通信中的错误报告和诊断功能。它通常用于ping等工具中,以检查网络上设备的可达性并测量往返时间。
思科发现协议。这是一种Cisco专有协议,用于发现和收集有关相邻Cisco设备的信息。它使Cisco设备能够自动发现彼此并交换有关其功能和接口的信息。
系统日志。 系统记录是网络设备中消息记录的标准协议。它使设备能够将日志消息发送到中央服务器,在那里可以对日志消息进行分析,以便进行故障排除和监控。
网流。NetFlow由Cisco开发,是一种用于收集IP流量信息的网络协议。它提供对流量模式、带宽使用和应用性能的洞察,帮助管理员分析网络性能和优化资源分配。
网络监控的好处
运行良好的网络监控系统使网络管理员能够主动解决性能下降问题,并对网络故障做出快速反应。
网络监控的优势包括:
主动通知和故障排除。网络监控系统能够主动识别异常和潜在问题,使IT团队能够在问题升级之前及时解决它们。这种主动方法最大限度地减少了解决网络问题所需的时间和精力。
增强的安全性。监控网络流量有助于识别可疑活动和快速识别潜在的安全威胁。通过及早检测这些威胁,组织可以采取适当的措施来保护其数据和系统。
不间断的服务和交付。通过持续监控网络,可以在重大故障发生之前发现并解决潜在问题。这种主动方法最大限度地减少了停机时间,确保了不间断的服务和网络可用性对于最终用户和应用程序。
降低复杂性。现代企业依赖于云服务提供商等提供商提供的各种基于互联网的关键业务服务,国际船舶与码头安全费(international ship and port security的缩写), CDNs, SaaS, UCaaS, 虚拟专用网络和贴足邮资写明发信人…姓名地址的回信信封。由于这些服务依赖于互联网,它们很容易受到中断或路由问题带来的性能问题的影响。通过监控超出其控制范围的网络组件,企业可以主动识别并解决可能影响其员工或客户的问题。
成本优化。通过最大限度地减少停机时间和提高网络性能,组织可以降低与生产力损失和低效资源利用相关的成本。有效的网络监控有助于优化IT资源的分配和预算管理。
减少人工任务。自动化监控工具减少了手动检查和干预的需要,使IT人员能够专注于更具战略性的计划,而不是日常维护任务。
网络可视化。网络监控工具通常通过网络图、性能仪表板和趋势分析来提供网络数据的图形表示。可视化IT基础设施的性能至关重要,因为它提供了宝贵的见解,改进了决策,并有助于确保稳定高效的it基础架构。
网络可见性。网络监控为管理员提供了对网络的全面了解,使他们能够识别所有连接的设备,观察数据流,并快速识别和解决可能降低性能或导致中断的问题。
合规和报告。许多行业都要遵守与数据安全和网络性能相关的法规要求。网络监控通过提供证明遵守这些策略的必要数据和报告,使组织能够保持合规性。
网络监控软件
网络监控软件有多种来源,包括开源软件和商业软件。开源工具通常有付费支持版本,通常包括免费版本之外的高级功能。如果网络使用多家供应商的设备,则网络监控系统需要支持这些产品。供应商提供的软件很少支持其他供应商的设备。
监控工具已经适应了网络向云和SaaS的扩展。网络设备供应商经常集成基于控制器的架构,其中集成了许多所需的监控和控制功能。这些控制器通常包括用于与自动化系统和其他网络监控和管理工具集成的API。
找到一个单一的监控工具是困难的。网络管理所需的各种功能使得单一产品完成所有工作变得非常困难。最成功的方法是将网络监控工具与其相应的功能类别相匹配。例如,事件处理系统与网络性能监控系统有不同的要求。将有用的摘要(如前N名报告)收集到单个仪表板中通常会产生最佳效果。
组织还应该记住包括人员需求。监测工具应得到至少两名工作人员的支持,他们可以随时更新这些工具,并且是其操作方面的专家。
谈到网络监控和管理成本,一个经验法则是将其保持在网络年摊余成本的10%。这些软件包需要大量的开发工作,组织通常会购买一个副本。组织不应该期望使用价值2万美元的系统来监控和管理价值100万美元的网络。或者,网络管理员可以计算网络停机的成本并将其计入网络监控系统的成本。
网络监控最佳实践
建立有效的网络监控对于维护组织的IT和网络基础设施的性能、安全性和可靠性至关重要。
以下是一些可以考虑的最佳实践:
建立明确的目标和基准。在设置网络监控之前,组织应该定义明确的目标,并确定他们想要实现的目标,例如延长正常运行时间、增强安全性或优化性能。组织还应该建立网络性能基准来定义正常的网络行为。这将指导他们的监控策略,并帮助他们关注网络中最关键的方面。
利用全面的监控工具。企业应选择提供广泛功能的网络监控工具,包括实时监控、警报、流量分析和报告。全面的工具可以更深入地了解网络性能,并帮助快速发现问题。
设置主动监控。组织应该采取主动的监控方法,而不是坐等问题发生。持续监控网络性能,并针对潜在问题建立警报,可以在问题升级之前发现并解决问题。这种主动方法最大限度地减少了停机时间和中断。
区分关键资产的优先级。公司应确定并优先考虑关键网络组件,如服务器、应用程序和设备。他们应确保这些资产受到最高级别的监控和关注,因为它们对业务运营至关重要。
定期检查和更新监控配置。网络环境是动态的,配置可能需要随着时间而变化。公司应定期审查和更新其监控设置,以确保它们符合当前的网络架构和业务需求。
分析历史数据。组织应该利用历史数据来确定网络性能的趋势和模式。这种分析有助于在容量规划、资源分配和潜在升级方面做出明智的决策。
集成安全监控。安全监控应纳入网络监控策略。这包括跟踪异常流量模式、未经授权的访问尝试和其他安全威胁。整体监控方法有助于保护网络免受攻击。
训练团队。IT团队应该在使用监控工具和理解网络性能指标方面训练有素。一个知识渊博的团队可以更有效地响应警报和问题,改善整体网络管理。
网络监控示例
一个好的示例系统取决于需求,例如事件量和要监控的设备接口的数量。大型网络的需求与小型组织的需求不同。复杂的多云,SaaS,共处一地数据中心和内部数据中心需要更复杂的监控系统。
网络是一个庞大而复杂的系统,在这个系统中,许多东西都需要正常工作,以获得最佳的网络健康和应用程序性能。它应该作为一个完整的系统来监控,而不是设备的集合。组织不应该在全面报道上吝啬。监控活动数据中心接口和关键接口的子集是导致未检测到故障的一个因素。
网络监控的一些实例包括:
监控设备健康和功能。监督路由器的功能是网络监控的一个常见例子。路由器将专用网络连接到互联网,监控其性能有助于确保用户可以不间断地访问在线资源。路由器监控通常包括跟踪吞吐量、错误率和延迟等指标。通过仪表板和工具监控其他网络设备(如交换机、防火墙和服务器)也至关重要。网络监控工具可以评估这些设备的状态,并在任何设备离线或遇到性能问题时通知管理员,从而确保所有网络组件正常运行。
交通监控。流量监控有助于识别瓶颈并进行优化带宽监控和使用。网络监控工具可以执行被动和主动流量监控。被动监控包括监听网络端口以分析流量模式,而主动监控可能包括发送pings或传输控制协议(Transmission Control Protocol)测试服务器如何响应的请求。
DNS监控。监控域名系统(域名服务器(Domain Name Server))对于确保用户能够无延迟地访问网站和服务至关重要。这包括跟踪DNS查询响应时间和错误率,这有助于识别域解析的问题。
安全监控. 网络基础设施监控工具可以帮助检测可能指示安全威胁的异常流量模式,例如未经授权的访问尝试或数据泄露。通过持续监控网络流量并设置自动警报,组织可以快速响应潜在的安全事故。
应用程序性能监控。网络监控还可以扩展到网络上运行的应用程序。通过跟踪响应时间和事务时间等指标,组织可以确保应用程序以最佳方式运行。
网络监控和网络管理是密切相关的概念,它们共同优化网络运行。探索两者的异同来理解它们是如何运作的。