
SRE
我在Uber创立SRE团队的故事
ylzhang 发表了文章 • 0 个评论 • 6357 次浏览 • 2022-06-18 20:27
【编者的话】SRE是指Site Reliability Engineer(网站可靠性工程师)。他是软件工程师和系统管理员的结合,SRE工程师需要掌握很多知识:算法、数据结构、编程能力、网络编程、分布式系统、可扩展架构、故障排除等。Uber在早期意识到SRE的重...
技术团队如何追求高效能
阿娇 发表了文章 • 0 个评论 • 2157 次浏览 • 2021-12-05 19:31
对于一个技术团队来说,高效能是最大的追求,因为这样团队和产品才更有可能成功,技术不会成为绊脚石。
有些人希望通过优秀的组织结构,或者通过完备的流程,或者寄希望于管理法术,再或者找到一个牛逼的架构,可实际上并没有银弹。
看完了《高效能团队模式》这本书,给了自...
SRE 到底是什么?
玻璃樽 发表了文章 • 0 个评论 • 3482 次浏览 • 2021-11-22 10:57
有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。
SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
探索SRE是如何推进好大夫在线技术债务改造的
Andy_Lee 发表了文章 • 0 个评论 • 3382 次浏览 • 2021-10-09 15:17
你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?
如何保障网站的高可用是行业内的痛点,...
SRE 的 7 个基本工具
大卫 发表了文章 • 0 个评论 • 2430 次浏览 • 2021-08-19 10:35
掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。
SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
通过产品运营驱动SRE落地
玻璃樽 发表了文章 • 0 个评论 • 3487 次浏览 • 2021-05-27 15:21
这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?
去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
SRE:“正确做事”的法门
新牛哥 发表了文章 • 0 个评论 • 3511 次浏览 • 2021-03-14 20:55
【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。
本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
谈谈对 SRE 的理解
玻璃樽 发表了文章 • 0 个评论 • 4094 次浏览 • 2021-01-22 22:45
前言
在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。基于过往的技术研发和稳定性保障...
网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)
megrez 发表了文章 • 0 个评论 • 4864 次浏览 • 2020-11-15 21:48
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
使用3R原则来设计一个可靠的应用程序。
我在Uber创立SRE团队的故事
ylzhang 发表了文章 • 0 个评论 • 6357 次浏览 • 2022-06-18 20:27
【编者的话】SRE是指Site Reliability Engineer(网站可靠性工程师)。他是软件工程师和系统管理员的结合,SRE工程师需要掌握很多知识:算法、数据结构、编程能力、网络编程、分布式系统、可扩展架构、故障排除等。Uber在早期意识到SRE的重...
SRE 到底是什么?
玻璃樽 发表了文章 • 0 个评论 • 3482 次浏览 • 2021-11-22 10:57
有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。
SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
探索SRE是如何推进好大夫在线技术债务改造的
Andy_Lee 发表了文章 • 0 个评论 • 3382 次浏览 • 2021-10-09 15:17
你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?
如何保障网站的高可用是行业内的痛点,...
SRE 的 7 个基本工具
大卫 发表了文章 • 0 个评论 • 2430 次浏览 • 2021-08-19 10:35
掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。
SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
通过产品运营驱动SRE落地
玻璃樽 发表了文章 • 0 个评论 • 3487 次浏览 • 2021-05-27 15:21
这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?
去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
SRE:“正确做事”的法门
新牛哥 发表了文章 • 0 个评论 • 3511 次浏览 • 2021-03-14 20:55
【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。
本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
谈谈对 SRE 的理解
玻璃樽 发表了文章 • 0 个评论 • 4094 次浏览 • 2021-01-22 22:45
前言
在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。基于过往的技术研发和稳定性保障...
网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)
megrez 发表了文章 • 0 个评论 • 4864 次浏览 • 2020-11-15 21:48
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
使用3R原则来设计一个可靠的应用程序。
一文帮你理解整个SRE运维体系
翔宇 发表了文章 • 0 个评论 • 5920 次浏览 • 2020-08-26 21:11
SRE运维体系的构建和工作职责划分。
可观测性系统
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:- 指标监控:即各种指标监控,比如...
我在Uber创立SRE团队的故事
ylzhang 发表了文章 • 0 个评论 • 6357 次浏览 • 2022-06-18 20:27
【编者的话】SRE是指Site Reliability Engineer(网站可靠性工程师)。他是软件工程师和系统管理员的结合,SRE工程师需要掌握很多知识:算法、数据结构、编程能力、网络编程、分布式系统、可扩展架构、故障排除等。Uber在早期意识到SRE的重...
技术团队如何追求高效能
阿娇 发表了文章 • 0 个评论 • 2157 次浏览 • 2021-12-05 19:31
对于一个技术团队来说,高效能是最大的追求,因为这样团队和产品才更有可能成功,技术不会成为绊脚石。
有些人希望通过优秀的组织结构,或者通过完备的流程,或者寄希望于管理法术,再或者找到一个牛逼的架构,可实际上并没有银弹。
看完了《高效能团队模式》这本书,给了自...
SRE 到底是什么?
玻璃樽 发表了文章 • 0 个评论 • 3482 次浏览 • 2021-11-22 10:57
有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。
SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
探索SRE是如何推进好大夫在线技术债务改造的
Andy_Lee 发表了文章 • 0 个评论 • 3382 次浏览 • 2021-10-09 15:17
你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?
如何保障网站的高可用是行业内的痛点,...
SRE 的 7 个基本工具
大卫 发表了文章 • 0 个评论 • 2430 次浏览 • 2021-08-19 10:35
掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。
SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
通过产品运营驱动SRE落地
玻璃樽 发表了文章 • 0 个评论 • 3487 次浏览 • 2021-05-27 15:21
这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?
去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
SRE:“正确做事”的法门
新牛哥 发表了文章 • 0 个评论 • 3511 次浏览 • 2021-03-14 20:55
【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。
本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
谈谈对 SRE 的理解
玻璃樽 发表了文章 • 0 个评论 • 4094 次浏览 • 2021-01-22 22:45
前言
在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。基于过往的技术研发和稳定性保障...
网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)
megrez 发表了文章 • 0 个评论 • 4864 次浏览 • 2020-11-15 21:48
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
使用3R原则来设计一个可靠的应用程序。