
2024年新的SRE报告深入了解了站点可靠性工程不断变化的需求,新报告深入介绍了站点可靠性工程(SRE)实践如何适应日益分散和复杂的系统。2024年SRE报告总结了对全球400多名SRE专业人士进行的调查结果。
报告显示,大多数企业现在需要监控其直接控制范围之外的第三方服务和端点。这表明从集中管理的服务转向依赖联合供应商和基础设施。随着架构变得更加分散,企业将不得不重新考虑可靠性。
报告的主要亮点:
1、64%的企业认为,可靠性从业者应该监控他们无法控制的影响体验的端点,例如第三方服务。
2、66%的企业由于其独特的功能而使用两到五个监控工具,并且随着员工规模的增长,使用的工具会越来越多。
3、44%的公司使用围绕平台和功能而不是产品企业的团队结构。
4、无论公司规模大小,从事件中吸取教训都有最大的改进空间。只有52%的人花足够的时间审查重大事件。
5、53%的受访者预计人工智能(AI)将在未来两年内让工作变得更加轻松,但对其在可靠性任务中的实用性看法不一。
网络性能专家说,我们对企业对监控超出其控制范围的事物如此感兴趣感到惊讶。对我们来说,这清楚地表明需要新的方法来实现关键可见性。
2024年SRE面临的巨大挑战
2024年,站点可靠性工程师将面临不少挑战。
SRE团队在2024年需要解决的最大挑战是平衡成本、时间、级别之间的一致性以及架构的复杂性。
超过三分之一的受访者提到资源限制是最关心的问题,其中44%的受访者认为命名成本或预算是一项挑战。企业有一个重要的机会来监控他们不直接管理的互联网堆栈元素,例如CDN(内容交付网络)和DNS(域名系统)。
A5互联认为,这是一个需要填补的重要空白,可以提高效率、纳入第三方提供商的可靠性实践以及增强客户体验。
SRE如何从事件中吸取教训
从事件中吸取教训被认为是各公司规模需要改进的首要领域。
我们建议花时间从重大和非重大事件中学习,因为它们为从业人员提供了重要的学习机会,最终将提高公司的复原力,为了让SRE团队得到改进,需要能够跟踪他们的工作。我相信,将完善无责备反馈循环的做法作为公司文化的一部分,将有助于团队做好应对重大挑战的准备。
人工智能在SRE中的作用
毫无疑问,人工智能将在SRE中发挥某种作用,尽管报告发现人们对人工智能在未来两年的有用性看法不一。
报告中一个有趣的发现是,不同的观点主要基于企业中的级别。管理层和领导层正在寻求人工智能来节省成本,这并不奇怪。这是因为减少员工数量还是加快上市时间还有待观察。
相比之下,个人贡献者往往对人工智能的看法不太积极,因为个人贡献者表示“为自己的工作感到自豪”对他们来说最重要,而管理层则选择“高效”作为重要因素。因此,对于个人贡献者来说,当人工智能执行任务时,他们对自己工作的自豪感可能会减弱。
我们相信,这种思维方式的差异将继续导致不同的观点。此外,我们认为最有前途的人工智能应用包括GenAI,尽管有些人可能也会根据AIOps的炒作来判断它。