运维达尔文:SRE的自动化演进

本文是数人云CTO肖德时在GitChat进行的分享,当时正值GitLab数据库丢失事件,正好讲讲一次事故引发的SRE思考话题。提醒大家除了请勿疲劳驾驶之外,也要学习SRE相关的知识哦!(文末有数人云在上海“告别人肉运维”Meetup,欢迎报名。) 本次分享内容包括: 1.自动化系统对 SRE 的价值; 2.自动化系统演进的历程; 3.国外互联网企业 SRE 自动化应用案例; 4.国内运维领域自动化实践。 什么是 SRE ? SRE是Site Reliability »

活动实录 | Design For Failure——饿了么技术运维实践

数人云“告别人肉运维”上海Meetup的实录第一弹来啦!本次分享的嘉宾是饿了么技术运营部资深专家王伟珣。从源头出发,饿了么基于架构和平台设计的"design for failure"实践,做到自动化运营和运维实践,防止人为操作失误。 王伟珣 / 饿了么技术运营部资深专家 曾是EMC Pivotal 亚太区CTO office资深架构师,成功在中国和亚太各个等行业推广使用了新一代分布式数据库和Docker。中国移动游戏基地和视频基地平台技术负责人。拥有五项技术发明专利,国内第一代互联网建设者,GNU/Linux开源运动和信息安全国内最早的推广者。 大家好!我加入饿了么大半年了, »

DevOps 读书清单:十本应该放入书架的经典

DevOps为企业生产带来了质的飞越,通过整合 IT 开发、运维、支持和管理等大幅提升生产效率。今天小数带来的十本 DevOps 经典著作,帮助大家深入研究 DevOps ,快把它们收入学习书架吧! PS ,其中有些书已经有中文版啦,有些尚未汉化,大家正好可以温习英文哦(小数顶锅盖跑)。 1. TheGoal: A Process of Ongoing Improvement Eliyahu M. »

SRE工程实践——基于时间序列存储数据的报警

构建智能运维平台,运行监控和故障报警是两个绕不过去的重要部分。本次分享主要是数人云工程师介绍引入 SRE 理念后的基于时间序列数据存储的报警工程实践。 SRE 报警介绍 今天我分享的主题是 SRE 基于时间序列数据的报警实践,既然是基于时间序列。 首先,我先简单介绍一下什么是时间序列数据。 时间序列( time series )数据是一系列有序的数据。通常是等时间间隔的采样数据。时间序列存储最简单的定义就是数据格式里包含 timestamp 字段的数据。时间序列数据在查询时,对于时间序列总是会带上一个时间范围去过滤数据。同时查询的结果里也总是会包含 timestamp 字段。 »

解读1.13.1 | 探究Docker Stack和可对接网络

二月初 docker 1.13.1版本发布,其中有几个令人兴奋的新特性:涉密管理,stack,docker-compose v3和可对接网络( attachable network)。 在本文中我们会探究创建可对接网络的各种方式,以及一些潜在的应用案例,并且向大家演示如何使用新的docker stack命令。 创建一个可对接网络 Docker网络可以通过Docker CLI、API或者在Docker Compose文件里定义的方式创建。 Docker CLI Docker CLI有几个管理网络的命令例如create, ls, »

SRE:文化传奇不完全指南?

数人云推出SRE系列译文,为大家带来国外SRE的深刻解读与实践。本文基于作者组建相应SRE组织总结出来的经验,提供了大家开始SRE之旅之前需要思考的各方面问题。 SRE最近已成为许多公司间一个热门讨论的话题。什么是SRE?谁是SRE?我们如何实现?对于这个话题我当然也有自己的一些观点。但是大部分观点都有一个共同点,SRE不仅是工具和技术,它更是在企业内部的一种文化转变。现在,作为一个免责声明我想说以下的内容只是基于我自己组建相应组织的一些经验,以及通过和其他一些已经实施或正在实施SRE的组织交流而总结出来的。建立SRE体系没有一个统一的处方,每个企业都会找到适合自身组织体系和运营模式的方法。仅仅因为这是一种流行趋势而强迫引入这种文化绝非一种正确的态度,这些都要取决于企业自身。 定义 在这篇文章中,会使用到一些不同的术语。将它们统一提出这样大家在阅读的时候就不用再去查询这些术语。定义非常简短,后面会深入阐述。 SRE- »

SRE第一课:New to an SRE team?

数人云推出SRE系列译文, 为大家带来国外SRE的深刻解读与实践。 今天的文章从一个SRE新人的角度出发, 为大家详细列出SRE进阶的四个阶段,在准确定位的情况下,指引大家更好地在公司推行SRE。 本文将与大家分享一些新加入SRE团队时应该考虑的问题。无论你是刚加入一个SRE团队的新人,亦或是公司的第一位SRE(Ops/Techops/DevOps)。笔者也曾经历过这个阶段,并尝试了很多方法去理解公司SRE当时的情况以及确定下一步行动的方向。 我把它分成了几个阶段。大家可以整体来看或者在对应的时间看自己符合的那一部分,然后对它们更加了解。如果立刻照此执行,那么将对你在新公司取得成功有所帮助。这些条目处于一个较高层级,我们可以把它们更加细分。想法从这里开始,由你的好奇心决定深入执行的程度。然而,不要在兔子洞掉得太深……可能会迷路哦。 »

实录分享|kubernetes 在腾讯游戏的应用实践

今天小数的推送内容来自腾讯互娱高级工程师黄惠波,让我们一起来看看吧~~~ 黄惠波,腾讯互娱高级工程师 目前主要负责游戏计算资源容器化平台的研发工作,包括 kubernetes/docker 研究以及定制化开发,主导腾讯游戏万级容器资源调度平台的建设工作。 大家好!今天我分享的主题与游戏行业相关,为大家介绍的是 kubernetes 在腾讯游戏中的应用实践。 腾讯在线游戏的容器化应用场景 2014 年,我们开启了容器化探索之路,先回顾一下之前遇到的一些问题。 在物理机时代,资源的交付时间较长,资源的利用率较低,也不能做到隔离。到了 xen\ »