SRE系列教程 | 基于时间序列数据的监控实践

数人云SRE系列教程持续更新。 今天小数为大家带来的是数人云CTO肖德时的线上分享。SRE监控理念区别于传统监控的一个特点就是新一代基于时间序列存储的监控。本文通过概念解析以及举例国内外的SRE监控实践,进一步加深大家的理解。 一、什么是 SRE ? SRE是Site ReliabilityEngineer的简称,它是源起于国外互联网企业的一个词语或者新定义的一个职业。在传统的系统管理员模式时代这个角色我们叫运维,国外称做Operation。 Google SRE的VP叫Ben Treynor,2003年的时候他加入公司第一个任务就是组建一个7人的“生产运维小组”。但很快他发现根据Google机器增加的速度,按照传统的运维模式是无法快速满足运维需求的。由于他自己本身就是一个资深的软件开发人员,他就按照组建一个研发团队一样来组建这个运维团队。招收了许多研发工程师,这些工程师具有开发能力,又了解一些系统管理的知识,最主要的是他们鄙视重复劳动。 »

老肖有话说 | 基于 Google Borg 设计实现开源调度器

马上就要跨年啦,小数的心情和大家一样激动。一篇数人云CTO老肖的干货奉上,先干为敬!祝大家新年快乐! 站在巨人的肩膀上,可以看得多高,走得多远?本文告诉你答案—— 数人云是一家容器开源技术驱动的创业公司。云计算发展至今,核心技术栈多与集群、分布式、容器等关键性技术息息相关,其中一个重要技术是调度器。如何解决资源调度问题就是今天我与大家分享的主要内容。 创业初衷 当前云计算技术栈首选OpenStack,它发展的非常成熟,国内企业已经默认Openstack为云计算基础设施套件。Openstack解决的是IaaS的问题,但是应用PaaS层存在很大真空。此时,数人云CEO王璞来自谷歌,正是想为中国企业提供类似谷歌PaaS的技术能力。 谷歌内部数据中心操作系统Google »

挽救水深火热中的你——好用的分布式应用开发小工具

本文是数人云“分布式架构的开源组件大选”Meetup的实录分享。分享嘉宾是来自数人云的资深架构师春明。这次的分享带来一些好用的分布式小工具——gRPC、Raft、Actor,如何利用它们更好地做分布式应用开发,快来一睹为快吧! 今天的话题是一款基于Mesos的开发组件。数人云最近研发了一款分布式方面的应用,Mesos调度器的Framework——Swan。这次演讲与大家分享一下数人云用到的一些分布式小工具,以及一些开发上面的最佳实践。 gRPC——分布式RPC的库 gRPC是一款RPC的框架,类似于CS的程序或者是P2P的程序,gRPC非常有帮助。gRPC由两个部分组成,一是协议、定义部分,用Protobuf来做协议的定义;第二是它的通信, »

实录分享&视频 | 微软Visual Studio Code是这样支持Docker的

本文是数人云“分布式架构的开源组件大选”Meetup的实录分享。分享嘉宾是来自微软云计算事业部的高级软件开发工程师刘鹏。 Visual Studio Code是微软开源的一款开发工具,它针对Docker做了许多编译和命令上的支持。 今天主要向大家介绍一下微软去年推出的一个Visual Studio Code,以及Visual Studio Code对Docker的一些支持。欢迎大家相互交流下如何更好的用Visual Studio Code在本地做Docker相关的开发和测试工作。 从VSCode的作者说起 首先想问大家一个问题,你理想中的开发工具是一个什么样子?基于不同的技术栈,有各种各样的开发工具,但是对于速度、性能、高亮、快捷键等诉求是相同的。 »

人永远不够用——在复旦大学分享SRE团队组织和管理

从10月底到12月初, 数人云与复旦大学合作开授了面向复旦大学软件工程学院软件工程硕士的《信息系统工程概论(SRE:大规模应用运维实践)》系列选修课程,今天小数为大家带来此次选修课上有关SRE团队建设的精彩分享。 源于Google的SRE有助于解决传统运维模式上的问题,SRE是在运维模式上的全新探索,也是DevOps思想在运维方面的真正实践。SRE代表了一套先进的、完整的运维体系,作为Google最早提出,又经由Google发展完善的一个崭新概念,SRE已成为一个涵盖运维理念、思路、组织架构、和具体实践的完整体系。 SRE团队的建设和管理是SRE体系中重要的部分,今天我们来介绍一下SRE团队组织和管理,其中包括SRE工程师的特点,SRE的团队组织和工作原则,SRE的内部沟通机制,SRE的新人培训,SRE团队学习演练和总结。 SRE是这样一种人 »

由浅入深 | 如何优雅地写一个Mesos Framework

上周小数羞涩出镜,和数人云架构师春明一起为大家进行了在线直播的干货分享,今天小数抱来了实录,大家可以一睹为快啦! 本文从Mesos的基础概念讲起,不懂Mesos的小伙伴也完全没有问题,一步一步教你写出优雅的Framework,让Mesos更加强大好用:) 今天主要和大家聊一聊Mesos、Marathon,以及数人云刚刚开源不久的一个Mesos Framework——Swan。 什么是Mesos 微服务概念起来之后,很多大型互联网公司需要把资源(比如说几千台机器、几万台机器)抽象工作,让更多人来使用。之前大家的做法比较粗暴,一个部门分几百台机器,一个项目分几百台机器,然后把程序裸跑在一些硬件或者虚拟机上,但这个过程中资源的利用率不是很高。 另一方面, »

老肖在MesosCon有话说 | 用SwarmKit玩转Mesos Cluster

感恩节过后,小数继续一本正经地和大家说干货~ 今天带来的是 数人云CTO肖德时在MesosCon的演讲《Shipping Mesos Cluster with SwarmKit》,都说Mesos高冷又复杂,想玩转Mesos,很多人都卡在了第一步上面,这怎么行!让老肖来告诉你,用容器的方式去玩Mesos,就是这么简单—— 数人云是一家开源技术驱动的创业公司,我们能折腾,爱折腾。国内的Mesos开发者都知道Mesos这个技术很好——但是Mesos技术最重要一点就是首先要会搭建Mesos Cluster。 Mesos为何专家多,新手少? 大家有没有数过Mesos configure到底有多少个项? »

MesosCon D2 | Google系统构建的故事,Mesos之父登场

经历了干货满满的第一天,MesosCon Asia第二天的内容同样精彩,依旧是三个重量级 Keynote 开场:Mesos 的 Nested Container,Google系统构建、以及Mesos之父登台畅谈未来……小数已经迫不及待了,闲话少叙,我们快开始吧! 传送门:数人云工程师手记 | MesosCon第一天全纪录 Support for Nested Containers, aka Pods, in Mesos »