首页 » 新闻 » 进行模拟事件以熟悉压力情况

进行模拟事件以熟悉压力情况

这就像在本地开发服务器上进行测试,测试应该在本地进行,而不是在生产环境中进行。在 Rewind,我们定期进行桌面练习(TTX),以帮助利益相关者了解我们的灾难恢复计划的现状以及我们可以在哪些方面进行改进。

你可以通过让你的团队在 TTX 上撰写事后分析来扩展这项练习,详细说明他们在虚构场景中为解决问题和减轻损害所做的事情,以便每个人都了解他们角色的期望。

确保您的可观察性和日志记录工具处于最佳状态

 

如果没有数据,事后分析的两方面都会遇到麻烦。首先,当你缺乏关于通常 阿尔及利亚电话号码数据 转瞬即逝或只需要发生一次的事件的信息时,根本原因分析就很难进行。其次,如果你不能解释你是如何发现问题或找到正确解决方案的,你的事后分析必然会显得缺乏说服力。

这里有一个细微差别——如果您的可用性严重依赖第三方,如 SaaS 应用程序或 探索自定义 ROM:使用 iTechMoral 增强您的 Android 体验 云提供商,则应采取额外措施来监控其运行状况和性能。Datadog 和 Splunk 等可观察性平台具有可帮助您反复查询其 API 或端点的功能,以准确了解它们何时以及以何种方式可能出现故障。
为客户提供合法的状态页面
搜索引擎提供商 Kagi 最近因硬件更新和外部网络进行模拟事件攻击不幸同时发生而停机了近 7 个小时。Hacker News上回应者的主要抱怨是什么?他们对发生的事情不透明。

道:“我是在 Discord 上报告此问题 澳大利亚电话号码 的用户之一。我喜欢 Kagi,但我有点失望地看到他们的状态页面显示一切正常。我认为这让我有点不安,这表明在影响真实用户的事件中,他们的状态页面没有得到优先考虑。”

请记住,您的状态页面将成为停机期间的第一个真实来源。它不可能全面(请将详细信息留给您的公开事后分析文档),但它可以展示您的公司文化的透明度和责任感。

确保您拥有适当的备份和恢复工具和程序

让事故或中断变得更糟的唯一方法是意识到它还删除了对您的流程或客户使用平台至关重要的任务数据,而您没有明确的恢复途径。在这种情况下,可能需要几个小时才能解决的情况变成了一场艰苦的多日之旅——客户也在催促您,并威胁要将任何留在其他地方的数据迁移到其他地方。

滚动至顶部