IT基础设施灾难恢复指南
什么是灾难?
灾难是一种具有挑战性的麻烦,它会立即超出可用人力、IT、财务和其他资源的能力,并导致宝贵资产(例如,文档、知识产权对象、数据或硬件)的重大损失。
在大多数情况下,灾难是一系列突发事件造成的非典型威胁,一旦灾难开始,就很难或不可能停止。根据灾难的类型,组织需要以特定的方式做出反应。
有三种主要类型的灾难:
天灾
技术和人为灾难
混合灾害
当你听到“灾难”这个词时,你首先想到的可能是自然灾害。不同类型的自然灾害包括洪水、地震、森林火灾、异常高温、强降雪、暴雨、飓风和龙卷风以及海洋风暴。
技术灾难是任何与技术基础设施故障、人为错误或恶意相关的后果。该列表可以包括任何问题,从组织中的软件中断到给整个城市、地区甚至整个国家带来困难的发电厂问题。
这些灾难包括全球软件中断、关键硬件故障、断电和供电问题、恶意软件渗透(包括勒索软件攻击)、电信问题(包括网络隔离)、军事冲突、恐怖主义事件、大坝故障、化学事故。
要提到的第三类灾害描述了结合了自然和技术因素特征的混合灾害。例如,大坝溃决可能引发洪水,导致整个地区或国家的停电和通信问题。
什么是灾难恢复?
灾难恢复(灾难恢复)是一组操作(方法),组织在发生全球性中断事件后应采取这些操作来恢复运营。重大灾难恢复活动侧重于恢复对数据、硬件、软件、网络设备、连接和电源的访问。灾难恢复措施还包括重建物流,以及在资产受损或毁坏的情况下重新安置员工和办公设备。
要创建灾难恢复计划,您需要考虑在这些期间要完成的操作顺序:
- 灾难发生前(构建、维护和测试灾难恢复系统和策略)。
- 灾难期间(应用即时响应措施以避免或减轻资产损失)。
- 灾难发生后(应用灾难恢复系统恢复运营,联系客户、合作伙伴和官员,分析损失和恢复效率)。
- 以下是灾难恢复计划中应包含的要点。
业务影响分析和风险评估数据
在这一步,您将研究对您的组织来说最典型和最危险的威胁和漏洞。有了这些知识,您还可以计算特定灾难发生的概率,衡量对生产的潜在影响,并更轻松地实施合适的灾难恢复解决方案。
恢复目标:定义的RPO和RTO
RPO是恢复点目标:该参数定义了在不显著影响生产的情况下可以丢失的数据量。RTO是恢复时间目标:您的组织可以容忍的最长停机时间,因此也是您可以完成恢复工作流的最长时间。
责任分配
了解每个成员在灾难发生时的职责的团队是高效灾难恢复计划的必备组件。组建一个专门的灾难恢复团队,为每个员工分配特定的角色,并培训他们在真正的灾难发生之前履行自己的职责。当需要采取实际行动来拯救组织的资产和生产时,这是避免混乱和遗漏环节的方法。
灾难恢复站点创建
任何规模或性质的灾难都会严重损坏您的主服务器和生产办公室,使恢复那里的操作变得不可能或非常耗时。在这种情况下,具有关键工作负载副本的准备好的灾难恢复站点是最大限度减少RTO并在紧急情况期间和之后继续为组织的客户端提供服务的最佳选择。
故障回复准备
回切是在主数据中心再次运行时将工作负载返回到主站点的过程,在规划灾难恢复时可能会被忽略。
然而,预先建立回切序列有助于使整个过程更加平稳,并避免否则可能发生的少量数据丢失。此外,请记住,灾难恢复站点通常不是为支持您的基础架构长期运行而设计的。
关键文档和资产的远程存储
如今,即使是小型组织也会产生和处理大量关键数据。丢失硬拷贝或数字文档会使其恢复非常耗时、昂贵,甚至不可能。
因此,准备远程存储(例如,用于数字文档的VPS云存储和用于硬拷贝资产的受保护物理存储)是确保重要数据在发生灾难时可访问性的可靠选择。如果您愿意,可以立即查看适用于VMware灾难恢复的一体化解决方案。
注意设备要求
此灾难恢复计划元素需要审核支持您组织的IT基础架构运行的节点。这包括计算机、物理服务器、网络路由器、硬盘、基于云的服务器托管设备等。
这些知识使您能够查看灾难发生后恢复IT环境原始状态所需的要素。此外,您还可以看到至少支持任务关键型工作负载并在主要资源不可用时确保生产连续性所需的设备列表。
定义的沟通渠道
确保为您的员工、管理层和灾难恢复团队提供稳定可靠的内部通信系统。设置通信通道的使用顺序,以便在灾难发生后立即处理主服务器和内部网络不可用的情况。
概述的响应程序
在灾难恢复计划中,最初几个小时至关重要。创建关于如何执行灾难恢复活动、监控和实施流程、故障转移顺序、系统恢复验证等的分步说明。如果尽管采取了所有预防措施,灾难仍然袭击生产中心,对特定事件的集中和快速响应有助于减轻损失。
向利益相关者报告事故
在灾难发生并中断您的生产后,不仅应该通知灾难恢复团队成员。您还需要通知关键利益相关方,包括您的营销团队、第三方供应商、合作伙伴和客户。
作为灾难恢复计划的一部分,创建大纲和脚本,向您的员工展示如何告知每个关键团队他们所关注的问题。此外,事先准备一份基本的新闻稿可以帮助你在实际事故中不浪费时间。
灾难恢复计划测试和调整
成功的组织会随着时间的推移而变化和扩展,他们的灾难恢复计划应该根据相关需求和恢复目标进行调整。完成计划后立即测试它,并在每次引入变更时执行额外的测试。因此,您可以衡量灾难恢复计划的效率,并确保资产的可恢复性。
应用最佳灾难恢复策略
灾难恢复策略可以在DIY(自己动手)的基础上实施,也可以委托给第三方供应商。前一种选择是为了经济而牺牲可靠性,而后一种选择可能更昂贵但更有效。
灾难恢复策略的选择完全取决于您组织的特征,包括团队规模、IT基础架构复杂性、预算、风险因素和期望的可靠性等。
摘要
灾难是一种突然发生的破坏性事件,会导致一个组织无法运作。自然灾害、人为灾害和混合灾害具有不同程度的可预测性,但它们在组织层面上几乎是不可预防的。确保组织安全的唯一方法是根据组织的特定需求创建可靠的灾难恢复计划。
灾难恢复计划的关键要素包括:
- 风险评估和影响分析
- 定义的RPO和RTO
- 灾难恢复团队职责已分配
- 灾难恢复站点创建
- 故障回复的准备工作
- 远程存储
- 设备清单
- 已建立的沟通渠道
- 即时反应序列
- 事故报告说明
- 灾难恢复测试和调整
- 最佳灾难恢复策略选择