SRECon Day2 | 管中窥豹:从小热点看SRE大文章

SRECon 第二天,还未倒过时差的我们早早就起身前往会场,幸亏提前预订了Uber门到门的接送,科技确实让生活更加便利。 SRECon紧凑的演讲信息量确实很大,回顾两天的会议内容我想给大家带来的key words就是MTTR、MTTD、Automation和Communication。 PS:手机照片拍的不美丽,莫怪...... ——来自SRECon数人云CTO 老肖 ——会场 一大早就看到了本次的大会主席之一,来自谷歌的Google SRE Manager,Liz Fong-Jones 。赶紧掏出手机拍一张。 Traps and Cookies »

SRECon Day1 | 比起干货满满,更吸引我的是画风清奇

SRECon17 第一天下来的感觉就是高大上, 组织者 USENIX ( Advanced Computing Systems Association )高大上,赞助商们(谷歌, LinkedIn ,微软, Netflix , Facebook , Twitter , Hulu , Spotify 等)高大上,更高大上就是会议地点旧金山 CA ,美的让人乐不思“京霾”了。 ——来自 »

译文 | 改变游戏规则的DevOps智能化

数人云围绕自动化运维的主题做了几期线下活动,报名量和后期文章实录的阅读量较之前都有很大的提升,小数感叹DevOps和SRE如此深入人心,也正是大家的积极关注,才能让新技术在更短的时间里得到最好地验证:) 译文将阐述DevOps智能化的七大优势,构建灵动新IT~ 著名的《The Phoenix Project》一书中,笔者最爱的部分是在这个虚构的公司,当DevOps英雄、IT运维部的副总Bill Palmer灵光一闪的那一刻,他意识到IT对于商业具有重要意义。 那一刻来自公司的CFO为Bill列出了他如何努力让部门的目标与公司整体业务的目标保持一致。Bill由此意识到他必须采取类似的措施。最终,他转而专注交付过程的数据,从而提高IT的效率,使他的团队免于外包的命运——DevOps团队从此诞生。 现实中可能不会有这样极端而可怕的例子,但是, »

活动实录 | 京东金融PE谈如何颠覆应用运维认知

导读:[GO SRE!] 为数人云SRE系列活动专题,本文是3月4日北京站线下活动“当西方的SRE遇上东方的互联网”中京东金融王超老师的分享。 他将从SRE,Devops, PE间的关系开始,介绍企业该如何构建适合自己的运维组织架构并管理团队,讲解持续交付、监控、容量规划等具体运维场景实操,从工程实践的角度解读大规模复杂化的业务场景下运维指导思想的落地。 王超 / 京东金融企业高级PE 目前在京东金融平台负责一个20人左右的应用运维团队(PE团队),也曾负责人人网PE团队。现阶段主要关注运维与业务的融合、业务可用性保障,运维平台建设和团队管理。 我是今天最后的演讲者,前面几位都是很知名的运维专家,对大家提到的很多运维痛点我都感同身受, »

解读 | Mesos 1.2.0 Release

Mesos 1.2.0 Release 解读 Mesos刚刚发布了最新的1.2.0版本, 新版本解决了社区之前呼声比较多的几个问题,看得出Mesos开发组的推进进度还是非常快速而平稳的。这也是Mesos社区一贯的作风, 核心Feature稳定优先,周边功能积极支持。 根据1.2.0 Release note列出的几个新Feature, 可以看到几个主要的改进都是围绕着容器相关的, 其中既包含对Mesos Containerizer改进, 同时也有对Docker Containerizer功能补充, 这些工作都是围绕之前Mesos社区提出的Unified Containerier目标来进行的。 »

SRECon重磅来袭, 十套真题助你快速进阶!

一年一度的系统工程国际盛会SRECon即将于3月13-14日在美国西岸重要城市旧金山拉开帷幕。想围观运维圈高大上的国际会议但是对SRE又知之甚少?没关系,这次数人云整理集合了十篇与之相关的文章,涵盖了理念、文化、团队建设、工程实践等各个方面,帮你快速了解SRE,冲刺进阶,弯道超车。 理念和文化 虽然对SRE的内涵和外延国内国外业内人士众说纷纭, 但是有一个基本共识就是“SRE不仅是工具和技术,它更是在企业内部的一种文化转变。”下面的三篇文章分别从SRE的发端之处-Google内部的SRE实践、其他国外互联网公司的洞察以及国内创业企业对于SRE的理解三个方面来综合介绍SRE的源起、理念和文化。 正如Anthony Caiafa在《SRE:文化传奇不完全指南》中提到的:“ 建立SRE体系没有一个统一的处方,每个企业都会找到适合自身组织体系和运营模式的方法。 »

活动实录|拒绝"删库到跑路",探究饿了么数据安全保障体系

数人云“告别人肉运维”上海Meetup的实录第二弹来啦!本次分享的嘉宾是饿了么DBA团队负责人虢国飞。实录将从用户访问、数据库架构体系、数据备份、数据流转和数据操作等几个方面介绍饿了么目前在数据安全方面的一些措施。 虢国飞 / 饿了么DBA团队负责人 从事数据库领域10+年,主要关注于数据库管理自动化建设和MySQL、Pg、MSSQL、NoSQL等领域的研究。 本次主题关于数据安全的保障。前面的引子是Gitlab数据库出现问题,它有五重的数据保障,但都失效了。开始之前有几个问题: 在座很多是做运维或数据库工作的,现在公司数据库有备份吗? 如果数据库有备份,多长时间做一次还原测试来验证数据库的备份是不是有效? 有没有一个月之内做一次整个备份检验的? »

活动实录|工具化、产品化、运营化——「美团点评」运维团队背后的故事

数人云“当西方的SRE遇上东方的互联网”Meetup第一弹实录来啦! 本次分享嘉宾是美团点评运维中心高级总监钟红军,他向我们详细介绍了美团点评近3年来在大规模运维的理念和实践方面的探索,尤其是在运维自动化和数据运营方面的工作和效果—— 钟红军 / 美团点评运维中心高级总监 美团点评集团运维中心高级总监,此前曾工作于百度,腾讯,PPTV等互联网公司,熟悉系统、网络、运维、安全、数据、开发等多个领域。 今天我将美团点评这几年在运维方面做的一些工作,以及自己的思考与大家分享一下。美团点评整个运维团队100多人,base在北京和上海,美团和点评两家公司在2015年合并,所以团队也是两地都有。运维中心有SRE团队有数据库的团队,有自动化开发等。 »