SRE

SRE

技术团队如何追求高效能

阿娇 发表了文章 • 0 个评论 • 1288 次浏览 • 2021-12-05 19:31 • 来自相关话题


对于一个技术团队来说,高效能是最大的追求,因为这样团队和产品才更有可能成功,技术不会成为绊脚石。

有些人希望通过优秀的组织结构,或者通过完备的流程,或者寄希望于管理法术,再或者找到一个牛逼的架构,可实际上并没有银弹。

看完了《高效能团队模式》这本书,给了自...
查看更多

SRE 到底是什么?

玻璃樽 发表了文章 • 0 个评论 • 2255 次浏览 • 2021-11-22 10:57 • 来自相关话题


有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。

SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
查看更多

探索SRE是如何推进好大夫在线技术债务改造的

Andy_Lee 发表了文章 • 0 个评论 • 2320 次浏览 • 2021-10-09 15:17 • 来自相关话题


你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?

如何保障网站的高可用是行业内的痛点,...
查看更多

SRE 的 7 个基本工具

大卫 发表了文章 • 0 个评论 • 1461 次浏览 • 2021-08-19 10:35 • 来自相关话题


掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。

SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
查看更多

通过产品运营驱动SRE落地

玻璃樽 发表了文章 • 0 个评论 • 2445 次浏览 • 2021-05-27 15:21 • 来自相关话题


这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?

去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
查看更多

SRE:“正确做事”的法门

新牛哥 发表了文章 • 0 个评论 • 2673 次浏览 • 2021-03-14 20:55 • 来自相关话题


【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。

本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
查看更多

谈谈对 SRE 的理解

玻璃樽 发表了文章 • 0 个评论 • 3183 次浏览 • 2021-01-22 22:45 • 来自相关话题


前言

在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。

基于过往的技术研发和稳定性保障...
查看更多

网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)

megrez 发表了文章 • 0 个评论 • 3520 次浏览 • 2020-11-15 21:48 • 来自相关话题



使用3R原则来设计一个可靠的应用程序。
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
查看更多

一文帮你理解整个SRE运维体系

翔宇 发表了文章 • 0 个评论 • 4891 次浏览 • 2020-08-26 21:11 • 来自相关话题


SRE运维体系的构建和工作职责划分。

可观测性系统

在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:
  • 指标监控:即各种指标监控,比如...
查看更多

一个小米SRE的日常工作

大卫 发表了文章 • 0 个评论 • 4722 次浏览 • 2019-03-08 18:11 • 来自相关话题


【编者的话】本文主要介绍了小米SRE的日常工作及遇到的各方面问题和处理方法,值得借鉴。

1、日常巡检发现新扩容的一台Web转发服务器负载异常。比原来的稍高但仍然在正常范围内,but作为一个SRE是不能放过任何异常。
[attach]17698[/attach...
查看更多

SRE 到底是什么?

玻璃樽 发表了文章 • 0 个评论 • 2255 次浏览 • 2021-11-22 10:57 • 来自相关话题


有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。

SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
查看更多

探索SRE是如何推进好大夫在线技术债务改造的

Andy_Lee 发表了文章 • 0 个评论 • 2320 次浏览 • 2021-10-09 15:17 • 来自相关话题


你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?

如何保障网站的高可用是行业内的痛点,...
查看更多

SRE 的 7 个基本工具

大卫 发表了文章 • 0 个评论 • 1461 次浏览 • 2021-08-19 10:35 • 来自相关话题


掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。

SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
查看更多

通过产品运营驱动SRE落地

玻璃樽 发表了文章 • 0 个评论 • 2445 次浏览 • 2021-05-27 15:21 • 来自相关话题


这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?

去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
查看更多

SRE:“正确做事”的法门

新牛哥 发表了文章 • 0 个评论 • 2673 次浏览 • 2021-03-14 20:55 • 来自相关话题


【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。

本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
查看更多

谈谈对 SRE 的理解

玻璃樽 发表了文章 • 0 个评论 • 3183 次浏览 • 2021-01-22 22:45 • 来自相关话题


前言

在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。

基于过往的技术研发和稳定性保障...
查看更多

网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)

megrez 发表了文章 • 0 个评论 • 3520 次浏览 • 2020-11-15 21:48 • 来自相关话题



使用3R原则来设计一个可靠的应用程序。
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
查看更多

一文帮你理解整个SRE运维体系

翔宇 发表了文章 • 0 个评论 • 4891 次浏览 • 2020-08-26 21:11 • 来自相关话题


SRE运维体系的构建和工作职责划分。

可观测性系统

在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:
  • 指标监控:即各种指标监控,比如...
查看更多

SRE vs DevOps:是敌是友?

yahoon 发表了文章 • 0 个评论 • 17880 次浏览 • 2018-06-05 23:14 • 来自相关话题


【编者的话】网站可靠性工程(SRE)和DevOps是两个具有相当多重叠的热门学科。在过去,一些人认为SRE是与DevOps相竞争的一组实践。但我们不认为他们有那么大差别。

SRE是什么?它与DevOps有什么关系? 今年早些时候,我们([Liz Fong-J...
查看更多

SRE在微服务中的角色

cleverlzc 发表了文章 • 0 个评论 • 5476 次浏览 • 2018-05-14 22:26 • 来自相关话题


【编者的话】本文主要介绍了SRE与微服务的关系,以及SRE在微服务系统中应当如何扮演更好的角色,从而更好的改善系统的性能和提高运行效率,并且提升微服务系统的可靠性和可管理性。

你总是可以在技术领域找到热门的职位:它们一般是10年前不存在的。虽然站点可靠性工程...
查看更多

技术团队如何追求高效能

阿娇 发表了文章 • 0 个评论 • 1288 次浏览 • 2021-12-05 19:31 • 来自相关话题


对于一个技术团队来说,高效能是最大的追求,因为这样团队和产品才更有可能成功,技术不会成为绊脚石。

有些人希望通过优秀的组织结构,或者通过完备的流程,或者寄希望于管理法术,再或者找到一个牛逼的架构,可实际上并没有银弹。

看完了《高效能团队模式》这本书,给了自...
查看更多

SRE 到底是什么?

玻璃樽 发表了文章 • 0 个评论 • 2255 次浏览 • 2021-11-22 10:57 • 来自相关话题


有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。

SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
查看更多

探索SRE是如何推进好大夫在线技术债务改造的

Andy_Lee 发表了文章 • 0 个评论 • 2320 次浏览 • 2021-10-09 15:17 • 来自相关话题


你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?

如何保障网站的高可用是行业内的痛点,...
查看更多

SRE 的 7 个基本工具

大卫 发表了文章 • 0 个评论 • 1461 次浏览 • 2021-08-19 10:35 • 来自相关话题


掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。

SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
查看更多

通过产品运营驱动SRE落地

玻璃樽 发表了文章 • 0 个评论 • 2445 次浏览 • 2021-05-27 15:21 • 来自相关话题


这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?

去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
查看更多

SRE:“正确做事”的法门

新牛哥 发表了文章 • 0 个评论 • 2673 次浏览 • 2021-03-14 20:55 • 来自相关话题


【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。

本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
查看更多

谈谈对 SRE 的理解

玻璃樽 发表了文章 • 0 个评论 • 3183 次浏览 • 2021-01-22 22:45 • 来自相关话题


前言

在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。

基于过往的技术研发和稳定性保障...
查看更多

网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)

megrez 发表了文章 • 0 个评论 • 3520 次浏览 • 2020-11-15 21:48 • 来自相关话题



使用3R原则来设计一个可靠的应用程序。
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
查看更多

一文帮你理解整个SRE运维体系

翔宇 发表了文章 • 0 个评论 • 4891 次浏览 • 2020-08-26 21:11 • 来自相关话题


SRE运维体系的构建和工作职责划分。

可观测性系统

在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:
  • 指标监控:即各种指标监控,比如...
查看更多

一个小米SRE的日常工作

大卫 发表了文章 • 0 个评论 • 4722 次浏览 • 2019-03-08 18:11 • 来自相关话题


【编者的话】本文主要介绍了小米SRE的日常工作及遇到的各方面问题和处理方法,值得借鉴。

1、日常巡检发现新扩容的一台Web转发服务器负载异常。比原来的稍高但仍然在正常范围内,but作为一个SRE是不能放过任何异常。
[attach]17698[/attach...
查看更多