从工具化到产品化再到运营化,数人云活动谈SRE本土落地

从敏捷开发、DevOps再到SRE,技术圈永远不缺新概念。SRE到底是一种新理念还是另一个新的流行词?国外的SRE文化在中国会不会出现水土不服?国内的互联网公司和SRE会碰撞出怎样的火花?3月4日,数人云在京举办SRE系列活动之“当西方的SRE遇上东方的互联网”,邀请Google、国内某大型互联网金融企业、美团等公司的SRE及类似岗位的IT技术专家分享他们在该领域的经验和思考,一同探讨源自国外的SRE理念如何在本土落地。

在活动上,美团点评运维中心高级总监钟红军介绍了美团点评近3年来在大规模运维的理念和实践方面的探索,尤其是在运维自动化和数据运营方面的工作和效果。钟红军表示,“从工具化到产品化、再到运营化,美团点评运维团队从做功能,变为注重推广和持续的运营;同时,合作团队的关系也从以前的流程、事故驱动变为了数据驱动。”

数人云COO谢乐冰指出,SRE的本质是软件工程,这体现在六个方面:第一,一切自动化,一切可重复;第二,一切可编程化,流程可定制;第三,一切API化,尽量声明化接口;第四,一切可测量;第五,充分测试;第六,不断迭代,化大错误为小错误。谢乐冰通过对SRE核心理念的概述以及数人云相关工程实践的介绍,分别从应用管理、数据管理和智能管理方面阐释了SRE如何助力企业数据中心升级。

第三位演讲嘉宾是前Google SRE,数人云技术专家团成员孙宇聪,他也是《SRE:Google运维解密》的中文译者。孙宇聪从SRE的起源和概述谈起,结合SRE在Google的成功之道,分享了Google SRE实践对国内企业的启示。

最后一位演讲者是国内某大型互联网金融企业高级PE王超,他从SRE、DevOps、PE(应用运维)三者间的异同,如何选择合适的运维组织架构及构建和管理团队,持续交付、监控、容量规划等具体运维场景的SRE实操,从工程实践看大规模复杂化的业务场景下运维指导思想如何落地等四个方面介绍了公司的PE管理实践。王超也将他在工作中总结出的几点经验分享给了大家:第一,明确团队定位,包括使命、愿景和价值观;第二,设计组织架构,做好人员管理,做事要规范;第三,重视实践,持续迭代,多分析总结;第四,长期规划,带来变化。

SRE是源起于国外互联网公司的一种全新的运维理念,是DevOps思想在运维上领域的具体实践。它试图平衡服务不可用以及产品快速创新、提高运维效率之间的风险,使用软件工程师的方法和手段,来解决运维的难题。目前国内很多公司也都在关注SRE如何在全生命周期为项目提供持续性支持并从理论化的学习逐步开始落地实践。

数人云轻量级PaaS平台借鉴国外SRE的实践经验支持DevOps落地,通过调度器实现应用的全生命周期管理,帮助企业管理海量监控、日志等产生的各类数据,自动分配应用资源、对业务运行状况进行自动分析。数人云通过持续传播SRE核心理念,打造助力企业DevOps落地的最轻量级PaaS平台,帮助提升企业IT工业化程度。

关于数人云

数人云创始团队来自谷歌、红帽和惠普,作为领先的云计算开源技术实践者,数人云致力于帮助传统企业提升IT对业务的支撑能力,帮助客户统一管理资源和应用,加速应用交付、提升运维效率,建设新一代基于云计算技术的IT架构体系。数人云重点聚焦打造基于容器的最轻量级PaaS平台,在实现应用全生命周期管理的同时,管理海量监控、日志等产生的各类数据,自动分配应用资源、对业务运行状况进行自动分析,提升企业的IT工业化程度,构建灵动新IT。