本人于2009年12月迁移至独立BLOG。
1、欢迎光临运维进行时,希望认识更多志向相同的朋友!
2、本站部分资源来源于网络,如有侵权请及时与我联系!
3、强烈建议使用Firefox、Opera、Safari及IE7以上的浏览器访问,以获得最佳浏览质量!
4、请勿发表与中华人民共和国法律、法规相抵触的言论,谢谢合作!
5、本人发布的文章与评论内容仅代表本人观点。
1、欢迎光临运维进行时,希望认识更多志向相同的朋友!
2、本站部分资源来源于网络,如有侵权请及时与我联系!
3、强烈建议使用Firefox、Opera、Safari及IE7以上的浏览器访问,以获得最佳浏览质量!
4、请勿发表与中华人民共和国法律、法规相抵触的言论,谢谢合作!
5、本人发布的文章与评论内容仅代表本人观点。
2016年12月3日,在深圳圣淘沙酒店,运维帮、云技术、Linux中国三大社区联合主办主办了运维世界大会OpsWorld,演讲内容全程无广告,只谈技术,受到了广大观众的一直好评。本文根据刘天斯老师演讲内容整理而成。
我分享的主题是“DevOps持续改进之道——布道”。我刚才已经做了简单的介绍,这里再罗嗦一下,我叫刘天斯,现在是在腾讯互动娱乐负责大数据的运营。在互联网行业已经从业了13年,也算是一个老鸟,之前在天涯,工作了6年多。PPT右侧是我的两本著作,第二本是关于Docker的,如果大家关注Docker,可以在网上购买这本书来看看。我个人最近关注的方向有自动化运维、云计算、大数据、Docker DevOps等。
这是我今天分享的大纲,总共分四大块,第一块是跟大家简单介绍一下我的DevOps观,第二点我会介绍我们布道平台在持续集成与交付这块是怎么做的。第三点会介绍布道在线服务运营能力。最后给大家做一个总结。
可能大部分人都认为DevOps无非是基于文化+技术这两个点在企业里面落地,这是大部分人之前的思维,在2015年底举行的全球DevOps峰会上,Gartner把DevOps做了进一步的划分,在文化和技术后面又细化出了过程和人。DevOps并非目标,但它可帮助您实现目标,企业的目标是更快地交付价值,DevOps是辅助我们完成这样一个目标的手段。
DevOps产生的价值,我比较认同IBM给出的解释,总共有三点,第一,它认为这个会增强客户的体验。这是比较容易理解的,第二点是提高创新能力,这个不好理解,创新和它有什么关系呢?它的说法是这样的,通过DevOps去实践,通过精益的方法论去减少我们的浪费、返工,将我们现有的价值及精力投入到更有价值的事情,创新是其中的一个非常重要的点。第三个就是更快的实现价值。
DevOps应该是永无止境的,它是一个持续改进的过程,它没有终点,它的目的是对影响交付质量的对象进行持续的改进,包括我们的技术、流程、团队,甚至企业的文化等。
那我们怎么去检验我们的软件交付过程是不是高效的?我个人总结了一个“短”五个“快”。短就是我们交付软件的开发周期要短,快就是排错、解决问题、测试、部署、反馈这个闭环一定要快,不知道大家认不认可这样的观点,一会儿我们可以讨论一下。
Gartner在去年底提出DevOps的模型,它分为四个点,除了文化、技术,它还延伸出了过程和人这两个角色。我们首先从【技术】来看,这里面加亮的部分是重点要关注的,一个是【基础设施即代码】,第二个是【一键安装程序构建,测试、部署】,第三个是【监控一切】,第四个是【连续监控】。在【过程】里面,我认为应该关注的是【持续集成】、【测序】、【交付】这几个方面,另外还要关注到【自动化的构建】,包括【自动化发布】。我觉得【失败总结】这一点是比较重要的,当我们过程失败之后,必须要知道失败在哪里,要进行总结。另外一个是一切都要工具化,一切都要版本化。除了代码以外,我们的脚本或者是配置文件都要通过版本化进行管理。在文化这部分,我认为比较重要的就是协作的文化,还有持续的改进,还有学习的文化,这三个都不难理解,但是我认为,这里面是不是还遗漏了一点?我觉得少了信息的共享、透明,我认为这是非常关键。为什么这个很重要?在我们内部定期都会组织相关的讨论会,去讨论我们项目中碰到的问题以及风险,这些都是需要关注的,另外一点就是IBM提出的一个概念,运维要“左移”,意思是运维要在开发的生命周期阶段提前介入。这样做有什么好处呢?好处是有助于运维的问题提前在开发阶段提前暴露,我认为这是非常关键的一点。
下面简单介绍一下我们服务的背景,我们为谁服务,服务什么样的平台。大家看一下我们的规模,当前的数据量每天入库7600亿条日志,大概80T,占公司总存储的26%。
这是我们的服务精细化的场景,这个背景是怎么来的?因为我们已经具备了海量的游戏数据,我们也在思考,怎么通过数据去驱动我们做精细化的运营。这也是我们目前不断在思考的。DataMore是我们思考出来的一个解决方案,它目前包括三个层次,第一个是大数据H5应用,比如说我们经常看到朋友圈大家分享的自己玩游戏的对局信息,这些数据都是由我们这边提供的。第二个是场景化的标签服务,我们会针对不同玩家打标签,打完标签就通过我们的精细化触达平台,针对性的做一些触达和营销活动。第三个是应用产品,比如说我们的游戏助手、官网,甚至是游戏里面的个人中心,大家会看到自己在游戏中的状态、成长轨迹、对战信息等,这些都可以看到,这就是游戏业务典型的一个服务化的场景。
下面再介绍一下我们的数据服务的架构,这个其实也没有太多的技术含量,基本上都是业界主流的能力,包括最左侧的游戏的数据源,它有两类,一类是游戏内的,一类是游戏外的。平台组件有三大块,一是数据接入,数据接入包括实时传输、离线传输,第二个是数据处理,包括实时计算引擎、离线引擎,第三个是数据储存,包括KV存储、DB存储、位图索引、HDFS等。我们的服务引擎这一块包括数据分析引擎、数据接口中心、运营规则引擎、用户触达中心,业务应用就是报表统计、数据分析、触达运营,总体来讲就是包括这样三块:数据采集、存储计算、应用落地。
这是我们的DataMore体系的技术架构,整个架构层次也比较简单,最上层是STGW,这是腾讯非常强大的一个负载均衡平台,再下面是二级代理。逻辑层我们现在有GoServer PHP Server。实时数据层用的都是业界主流数据库存储技术,比如TRedis、Hbase、Postgresql等。最低层是数据计算层,包括实时计算引擎、离线计算引擎。当前整个服务的PV大概是6.35亿,日发布变更15次,单次发布时间是10秒,也就是一个容器起启的时间。
下面介绍一下今天的主角“布道”。布道是我们数据服务全流程解决方案,采用了DevOps的思想实现软件的快速迭代、快速试错,最终提升软件交付的质量和达到持续改进的目的。它有几个特点,第一个是基于腾讯蓝鲸PaaS平台快速构建。蓝鲸本身就是一个PaaS平台,我们基于蓝鲸之上构建服务层的SaaS,本身布道就是基于最上层的SaaS服务。第二个是建立在DevOps的思想实践。我们这个实践思路来源于我刚才分享的Gartner发布的DevOps模型。各关键节点间之间的联系都是我们参考的样本。第三是面向运维、开发、测试、项目PM。第四个是具备持续集成、交付、部署等快速迭代的能力。第五是具备服务质量跟踪、用户舆情、持续反馈能力。
这是布道的能力体系,大家可以看一下,实际上包括两大块,一个是持续集成交付,另外一个是在线运营。其中服务质量和持续改进是贯穿整个服务生命周期。
这是布道服务层的架构,刚才提到了这一块,第一块持续集成&交付是采用业界主流的架构,且比较通用,我就不详细再讲了。我们的在线运营是基于HECD的架构,实现Docker的发现注册与发现,最上层就是我们的接入层,比较简单高效,因为没有太多其它逻辑关联耦合的节点。这里的TDocker是部门内部基于Docker构建的容器服务解决方案。
以DevOps形成的运营服务闭环,它的内涵及核心就是实现持续改进。首先通过我们的CICD的快速通道,实现软件平台的快速迭代,在质量管理方面,我们通过监控、安全、故障自愈、BUG修复等方式进行质量管理。在用户反馈方面,我们建立一个通道,会收集并响应用户的反馈,包括来源于客服和对外网舆情的采集,会将这些信息反馈给开发人员,开发人员收到反馈之后,会在功能或者bug这一块做功能修复,最终就会形成一个持续改进的闭环,而且是一个良性的闭环。
再简单介绍一下我们持续集成&交付的架构,刚才已经有提到,这里就简单说一下里面的几点细节。首先采用Docker架构具有一些优势,它可以保持跨环境一致性,天然易移植性,还有易于版本控制。然后CI&CD在流程方面做到编译并构建版本镜像,推送镜像仓库,触发交付作业并快速实现预览。
以上介绍的是行业的主流做法,各家的方案都是大同小异的,我们在这个过程中加入了一些独特的东西,一个是代码扫描的工具coverity,它能够发现比较深层次代码逻辑问题,比如内存泄露、溢出、数组越界、未初始化等等,且目前支持的语言也比较多。
另外一个是通过引入外网的流量,帮助我们实现压测,甚至做到一定BUG定位,它能达到百分之百的仿真的效果,具体的细节大家简单看一下PPT,整个步骤也非常简单,不是很复杂,它的特点是可以达到真实的模拟测试验证,有助于提前发现问题,有效降低发布风险。
这是一个案例,开发人员提交他的版本,然后进行预发布,在预发布里面有预览校验软件功能,也可引入外部的流量来进行预览,出现BUG会这个过程中被发现。我们在实践过程中碰到几点问题,在这里也跟大家一起分享。第一点是在容器中做源码的编译合不合理,不知道大家是怎么做的,我们给的结论是不合理。每个项目它用的第三方包或者功能组件是不一样的,可能A项目用的是A、B、C组件,B项目用的是1、2、3组件,不同的组件你在编译的时候去部署它的编译环境,这样会使我们的容器越来越臃肿,所以我们把这个环境迁移到另外一种角色(jenkinsslave),让它做源码的编译,编译完了就打包成镜像,保证镜像中没有太多无用的数据文件。第二点是容器性能的监控最优方案。我们使用Docker的时候有没发现一个问题?在容器中无论我们执行free、top、uptime、vmstat等命令,看到的都是主宿机的性能信息,原因是由于Docker的隔离性做得不够彻底导致。我们可以通过LXCFS这个组件帮助我们增强Docker的隔离性,它可以提供一个虚拟的PROC文件系统,另外也提供了容器自身的Cgroup的目录树,跟容器中的PORC目录是一一对应的。如何使用?我们Dockerrun的时候,通过“-v”参数,实现容器proc文件与Lxcfsproc的映射,效果是容器中看到的只是容器本身的内存、CPU等信息。比如说我们看CPU核数,看到的只是分配好的0、1、2、4的核数。第三点是容器在CI阶段的网络选择。这里只是给个建议,我们生产环境Tdocker使用的网络模型SRIOV,是通过硬件虚拟网卡的方式实现,然后Docker再通过IPlink做映射,但是我们在CI阶段,它是一个隔离的开发专区,它跟普通的IDC是不一样的,由于硬性相对比较老久,硬件虚拟化兼容性差,因此我们使用了Docker Macvlan方案,原理是通过创建网卡子接口与容器接口之间做映射,缺点是要求Linux Kernel 3.10.0及Docker>=1.12.0的环境。
这是我们的线上服务。项目上线的时候,每个PM都有一个习惯,都会最大化去的申请资源,在极端情况下还会远远超过他的预估值,这个时候怎么办?只需要评估扩容的需求量为多少,什么样的机型配置,提交Tdocker在线扩容就可以了,后面的事情就交给布道去处理。
在告警方面我也分享一些思路,在腾讯已经有一套非常成熟的告警系统,我们在这里只是提供一些跟我们业务逻辑相关的策略,我们的思路首先是统一日志规范,每个人的开发水平和习惯都不一样,我们给他们统一一个规范,这个规范叫Tlog,另外引入基础+特性这两个指标。看到的这个DEMO,它通过XML的模式描述日志的结构。特性是跟业务绑定相关的,我这里有一些服务,这个服务我发了一些金币,发到某个区间可能出现问题了,我们就需要开发人员把这个发放的数值打印出来,我们好做一个曲线的跟踪。采集完之后就会进入一个日志采集环节,这个架构也很简单,就是LVS+Keepalive,采集完之后,这里就分两条线,一个是实时,一个是离线的。我们采用的是蓝鲸的实时数据平台,能够实现特性指标多维度的配置。
这是蓝鲸的智能监控的界面。它是实时流,内部用的是Storm做实时分析,然后支持定义灵活的配置,有支持SQL的函数,比如支持某个字段的累加、求和,这个频率可以控制为10分钟、15分钟。
下面是我们安全这一块做的东西,首先是安全防御,在腾讯内部,安全这一块已经做得非常强悍,为什么我还讲安全呢?因为在公司层面做的安全防护更多是通用性或者基础类的防护,WAF更侧重在业务逻辑层,它的架构非常简单,通过布道做一些规则的下发到WAF,例如XSS、CC、UA、URI的规则等等,然后开启日志追踪,通过传输、实时分析防护日志,最终做到防护报告实时展示。
规则校验步骤与大家简单介绍一下,目前采用Nginx+LUA结合的方式,它的防护流程是在检查端口及域名是否匹配规则,匹配就下发规则,然后检查黑白IP名单,后面再开启CC防护,以及开启userAgent检查,最后是开启URI检查注入、XSS、SSRF等。
下面是舆情监控这一块,我们在这里特点就是关键词的实时监控、定时报送推送。从下面这个图可以看到,某一款游戏在某此活动期间的口碑展示情况,有多少是正面的,有多少是负面的报告。
最后做一个总结,在线运营的运营经验,第一个是资源评估,我们要定一个标准,根据实际服务场景来做出评估,而不是拍脑袋做。这个评估有一个公式:设计数量=(PV/86400)×2/单机承载最大QPS/0.8。
第二个是灰度+热力度对蓝绿发布。蓝绿发布的目的是让我们的用户没有感知,我们做蓝绿发布,操作的步骤很多,一旦人工接触多了,就容易出现误操作。我们采用的是热更新方式,原理是服务A进程收到关闭信号量之后,启动B进程来接收已经创建的连接或新连接,当A进程连接完全释放之后就会自动关闭,整个过程用户无感知。灰度实际就是放量检验这个效果及功能,如中间没有出现问题,只需两步就完成变更。
第三个是修复了Supervisor一个bug。Supervisor没办法对进程fork子进程进行管理,所以我们修复了这个bug,如大家碰到同样的问题可以私下找我,我会给大家具体的解决方法。
最后是一个数据流向监控的实现思路。首先简单介绍一下为什么要做这个流向监控。数据的流向监控在业界目前没有较好的方案,当我们的数据链、处理链、服务链拉得很长的时候,如何感知当数据源头有发生变更或异常,影响到我们的最终服务,这是非常难度的,而且它跟我们的业务特点关系非常大。同样我们逆向推导也是成立的,我发现玩家的某个对局数据不对,本来是胜局结果变成了负局,怎么确认数据是从哪个节点负责计算或存储的?这个非常有挑战性,这需要我们的数据服务能力一步一步做叠加,需要不断做扩展与关联,才能够达到某一个层次的服务水平。目前我们做的还没那么完美。首先我们要具备元数据管理,还有元信息的管理,这是非常重要的两层。第二个是要有数据字典管理,我们给数据表名称、字段说明,结构性的定义及标签。第三个就是血缘关系,能够定义到任务之间的关系。第四个是数据服务的注册,这是比较核心的一点,怎么注册,我们怎么知道你用了哪个数据源呢?这很关键,我们内部开发了一个通用组件,比如说你要引用后端的数据层,你必须使用这个组件接入,这样关系才能够建立起来,所以应用配置文件也是单独生成的。而最上游我们会提供一个数据流向查询,我们用了A数据,查下来就知道它在这个过程经过了哪些关键点,有可能是存储、计算、分析、接口等。
最后快速做一个总结,这是我们的持续服务的体系,在持续运营状态下,我们具备质量监控、舆情监控、容量管理、安全管理、故障治愈、故障修复等能力,同时收集用户服务体验、产品、BUG、新功能、吐槽点,将这些信息反馈给产品人员、开发人员和运维人员。再通过持续集成交付、发布变更管理,做到快速迭代及部署,最后就形成了良性的、持续改进的闭环。
1、【提问】:你刚才提到了资源分配的公式,你们那个公式是怎么总结出来的?那个公式的基础是以什么样的结果作为标准的?
【刘天斯】:这个公式也不是我们发明的,也是借鉴了很多前辈思路,我们只是在这个基础上做改进,结合我们自己的业务场景,包括我们服务是什么样的类型,因为服务类型不同,它的要求不一样,配置不一样,它的生命周期也不一样,它能够反映出来的效果和能力、访问量都不一样,比如服务到底是CPU型还是内存或IO型,完全不一样。这就带来一个问题,我们怎么定一个标准?我们目前聚焦在接入这块的逻辑层,供参考的是8核、4G内存,硬盘100到150G的配置。
2、【提问】:我是来自创维公司负责运维的。今天讲的是DevOps,DevOps要快速迭代到什么样的程度才行?像您现在做的一个平台一天发布15次,我不知道你在前面需要进行多长时间的准备?比如说线上的实时导流导多长时间是合适的?这个度我们一直拿捏不准,能帮我们解答一下,提点好的建议吗?【刘天斯】:在互联网行业我们大部分都是采用敏捷开发的模式,这样会产生技术的债务,这是必然的。你是传统行业吗?
【提问】:我们前身是传统行业,现在我们是互联网电视,相当于做电视上的服务,我们是非常快捷的,每天都发布,每天改bug,不停地迭代,而且需求也特别多,开发也忙不过来,我们运维也感觉到准备不足。
【刘天斯】:互联网这种快速发展的模式,势必会带来很多技术的债务,我觉得这是正常的。我们的互联网发展很快,必须要先要有一个雏形产品出来,然后再不断地迭代,这是大部分互联网公司或者是刚刚转型公司采用的模式,这种模式出现的问题我认为是很正常的问题,包括在腾讯也一样有这样的问题,他评估不到我在某个阶段要花多长时间去检验我们是否够快、是否高效。我们在布道这个环节下一步就是预发布,预发布追求的并不是快,而是能不能在临门一脚之前发现一些致命的问题,因此,可以在持续交付阶段追求快,而不应在预发布阶段。
我分享的主题是“DevOps持续改进之道——布道”。我刚才已经做了简单的介绍,这里再罗嗦一下,我叫刘天斯,现在是在腾讯互动娱乐负责大数据的运营。在互联网行业已经从业了13年,也算是一个老鸟,之前在天涯,工作了6年多。PPT右侧是我的两本著作,第二本是关于Docker的,如果大家关注Docker,可以在网上购买这本书来看看。我个人最近关注的方向有自动化运维、云计算、大数据、Docker DevOps等。
这是我今天分享的大纲,总共分四大块,第一块是跟大家简单介绍一下我的DevOps观,第二点我会介绍我们布道平台在持续集成与交付这块是怎么做的。第三点会介绍布道在线服务运营能力。最后给大家做一个总结。
可能大部分人都认为DevOps无非是基于文化+技术这两个点在企业里面落地,这是大部分人之前的思维,在2015年底举行的全球DevOps峰会上,Gartner把DevOps做了进一步的划分,在文化和技术后面又细化出了过程和人。DevOps并非目标,但它可帮助您实现目标,企业的目标是更快地交付价值,DevOps是辅助我们完成这样一个目标的手段。
DevOps产生的价值,我比较认同IBM给出的解释,总共有三点,第一,它认为这个会增强客户的体验。这是比较容易理解的,第二点是提高创新能力,这个不好理解,创新和它有什么关系呢?它的说法是这样的,通过DevOps去实践,通过精益的方法论去减少我们的浪费、返工,将我们现有的价值及精力投入到更有价值的事情,创新是其中的一个非常重要的点。第三个就是更快的实现价值。
DevOps应该是永无止境的,它是一个持续改进的过程,它没有终点,它的目的是对影响交付质量的对象进行持续的改进,包括我们的技术、流程、团队,甚至企业的文化等。
那我们怎么去检验我们的软件交付过程是不是高效的?我个人总结了一个“短”五个“快”。短就是我们交付软件的开发周期要短,快就是排错、解决问题、测试、部署、反馈这个闭环一定要快,不知道大家认不认可这样的观点,一会儿我们可以讨论一下。
Gartner在去年底提出DevOps的模型,它分为四个点,除了文化、技术,它还延伸出了过程和人这两个角色。我们首先从【技术】来看,这里面加亮的部分是重点要关注的,一个是【基础设施即代码】,第二个是【一键安装程序构建,测试、部署】,第三个是【监控一切】,第四个是【连续监控】。在【过程】里面,我认为应该关注的是【持续集成】、【测序】、【交付】这几个方面,另外还要关注到【自动化的构建】,包括【自动化发布】。我觉得【失败总结】这一点是比较重要的,当我们过程失败之后,必须要知道失败在哪里,要进行总结。另外一个是一切都要工具化,一切都要版本化。除了代码以外,我们的脚本或者是配置文件都要通过版本化进行管理。在文化这部分,我认为比较重要的就是协作的文化,还有持续的改进,还有学习的文化,这三个都不难理解,但是我认为,这里面是不是还遗漏了一点?我觉得少了信息的共享、透明,我认为这是非常关键。为什么这个很重要?在我们内部定期都会组织相关的讨论会,去讨论我们项目中碰到的问题以及风险,这些都是需要关注的,另外一点就是IBM提出的一个概念,运维要“左移”,意思是运维要在开发的生命周期阶段提前介入。这样做有什么好处呢?好处是有助于运维的问题提前在开发阶段提前暴露,我认为这是非常关键的一点。
下面简单介绍一下我们服务的背景,我们为谁服务,服务什么样的平台。大家看一下我们的规模,当前的数据量每天入库7600亿条日志,大概80T,占公司总存储的26%。
这是我们的服务精细化的场景,这个背景是怎么来的?因为我们已经具备了海量的游戏数据,我们也在思考,怎么通过数据去驱动我们做精细化的运营。这也是我们目前不断在思考的。DataMore是我们思考出来的一个解决方案,它目前包括三个层次,第一个是大数据H5应用,比如说我们经常看到朋友圈大家分享的自己玩游戏的对局信息,这些数据都是由我们这边提供的。第二个是场景化的标签服务,我们会针对不同玩家打标签,打完标签就通过我们的精细化触达平台,针对性的做一些触达和营销活动。第三个是应用产品,比如说我们的游戏助手、官网,甚至是游戏里面的个人中心,大家会看到自己在游戏中的状态、成长轨迹、对战信息等,这些都可以看到,这就是游戏业务典型的一个服务化的场景。
下面再介绍一下我们的数据服务的架构,这个其实也没有太多的技术含量,基本上都是业界主流的能力,包括最左侧的游戏的数据源,它有两类,一类是游戏内的,一类是游戏外的。平台组件有三大块,一是数据接入,数据接入包括实时传输、离线传输,第二个是数据处理,包括实时计算引擎、离线引擎,第三个是数据储存,包括KV存储、DB存储、位图索引、HDFS等。我们的服务引擎这一块包括数据分析引擎、数据接口中心、运营规则引擎、用户触达中心,业务应用就是报表统计、数据分析、触达运营,总体来讲就是包括这样三块:数据采集、存储计算、应用落地。
这是我们的DataMore体系的技术架构,整个架构层次也比较简单,最上层是STGW,这是腾讯非常强大的一个负载均衡平台,再下面是二级代理。逻辑层我们现在有GoServer PHP Server。实时数据层用的都是业界主流数据库存储技术,比如TRedis、Hbase、Postgresql等。最低层是数据计算层,包括实时计算引擎、离线计算引擎。当前整个服务的PV大概是6.35亿,日发布变更15次,单次发布时间是10秒,也就是一个容器起启的时间。
下面介绍一下今天的主角“布道”。布道是我们数据服务全流程解决方案,采用了DevOps的思想实现软件的快速迭代、快速试错,最终提升软件交付的质量和达到持续改进的目的。它有几个特点,第一个是基于腾讯蓝鲸PaaS平台快速构建。蓝鲸本身就是一个PaaS平台,我们基于蓝鲸之上构建服务层的SaaS,本身布道就是基于最上层的SaaS服务。第二个是建立在DevOps的思想实践。我们这个实践思路来源于我刚才分享的Gartner发布的DevOps模型。各关键节点间之间的联系都是我们参考的样本。第三是面向运维、开发、测试、项目PM。第四个是具备持续集成、交付、部署等快速迭代的能力。第五是具备服务质量跟踪、用户舆情、持续反馈能力。
这是布道的能力体系,大家可以看一下,实际上包括两大块,一个是持续集成交付,另外一个是在线运营。其中服务质量和持续改进是贯穿整个服务生命周期。
这是布道服务层的架构,刚才提到了这一块,第一块持续集成&交付是采用业界主流的架构,且比较通用,我就不详细再讲了。我们的在线运营是基于HECD的架构,实现Docker的发现注册与发现,最上层就是我们的接入层,比较简单高效,因为没有太多其它逻辑关联耦合的节点。这里的TDocker是部门内部基于Docker构建的容器服务解决方案。
以DevOps形成的运营服务闭环,它的内涵及核心就是实现持续改进。首先通过我们的CICD的快速通道,实现软件平台的快速迭代,在质量管理方面,我们通过监控、安全、故障自愈、BUG修复等方式进行质量管理。在用户反馈方面,我们建立一个通道,会收集并响应用户的反馈,包括来源于客服和对外网舆情的采集,会将这些信息反馈给开发人员,开发人员收到反馈之后,会在功能或者bug这一块做功能修复,最终就会形成一个持续改进的闭环,而且是一个良性的闭环。
再简单介绍一下我们持续集成&交付的架构,刚才已经有提到,这里就简单说一下里面的几点细节。首先采用Docker架构具有一些优势,它可以保持跨环境一致性,天然易移植性,还有易于版本控制。然后CI&CD在流程方面做到编译并构建版本镜像,推送镜像仓库,触发交付作业并快速实现预览。
以上介绍的是行业的主流做法,各家的方案都是大同小异的,我们在这个过程中加入了一些独特的东西,一个是代码扫描的工具coverity,它能够发现比较深层次代码逻辑问题,比如内存泄露、溢出、数组越界、未初始化等等,且目前支持的语言也比较多。
另外一个是通过引入外网的流量,帮助我们实现压测,甚至做到一定BUG定位,它能达到百分之百的仿真的效果,具体的细节大家简单看一下PPT,整个步骤也非常简单,不是很复杂,它的特点是可以达到真实的模拟测试验证,有助于提前发现问题,有效降低发布风险。
这是一个案例,开发人员提交他的版本,然后进行预发布,在预发布里面有预览校验软件功能,也可引入外部的流量来进行预览,出现BUG会这个过程中被发现。我们在实践过程中碰到几点问题,在这里也跟大家一起分享。第一点是在容器中做源码的编译合不合理,不知道大家是怎么做的,我们给的结论是不合理。每个项目它用的第三方包或者功能组件是不一样的,可能A项目用的是A、B、C组件,B项目用的是1、2、3组件,不同的组件你在编译的时候去部署它的编译环境,这样会使我们的容器越来越臃肿,所以我们把这个环境迁移到另外一种角色(jenkinsslave),让它做源码的编译,编译完了就打包成镜像,保证镜像中没有太多无用的数据文件。第二点是容器性能的监控最优方案。我们使用Docker的时候有没发现一个问题?在容器中无论我们执行free、top、uptime、vmstat等命令,看到的都是主宿机的性能信息,原因是由于Docker的隔离性做得不够彻底导致。我们可以通过LXCFS这个组件帮助我们增强Docker的隔离性,它可以提供一个虚拟的PROC文件系统,另外也提供了容器自身的Cgroup的目录树,跟容器中的PORC目录是一一对应的。如何使用?我们Dockerrun的时候,通过“-v”参数,实现容器proc文件与Lxcfsproc的映射,效果是容器中看到的只是容器本身的内存、CPU等信息。比如说我们看CPU核数,看到的只是分配好的0、1、2、4的核数。第三点是容器在CI阶段的网络选择。这里只是给个建议,我们生产环境Tdocker使用的网络模型SRIOV,是通过硬件虚拟网卡的方式实现,然后Docker再通过IPlink做映射,但是我们在CI阶段,它是一个隔离的开发专区,它跟普通的IDC是不一样的,由于硬性相对比较老久,硬件虚拟化兼容性差,因此我们使用了Docker Macvlan方案,原理是通过创建网卡子接口与容器接口之间做映射,缺点是要求Linux Kernel 3.10.0及Docker>=1.12.0的环境。
这是我们的线上服务。项目上线的时候,每个PM都有一个习惯,都会最大化去的申请资源,在极端情况下还会远远超过他的预估值,这个时候怎么办?只需要评估扩容的需求量为多少,什么样的机型配置,提交Tdocker在线扩容就可以了,后面的事情就交给布道去处理。
在告警方面我也分享一些思路,在腾讯已经有一套非常成熟的告警系统,我们在这里只是提供一些跟我们业务逻辑相关的策略,我们的思路首先是统一日志规范,每个人的开发水平和习惯都不一样,我们给他们统一一个规范,这个规范叫Tlog,另外引入基础+特性这两个指标。看到的这个DEMO,它通过XML的模式描述日志的结构。特性是跟业务绑定相关的,我这里有一些服务,这个服务我发了一些金币,发到某个区间可能出现问题了,我们就需要开发人员把这个发放的数值打印出来,我们好做一个曲线的跟踪。采集完之后就会进入一个日志采集环节,这个架构也很简单,就是LVS+Keepalive,采集完之后,这里就分两条线,一个是实时,一个是离线的。我们采用的是蓝鲸的实时数据平台,能够实现特性指标多维度的配置。
这是蓝鲸的智能监控的界面。它是实时流,内部用的是Storm做实时分析,然后支持定义灵活的配置,有支持SQL的函数,比如支持某个字段的累加、求和,这个频率可以控制为10分钟、15分钟。
下面是我们安全这一块做的东西,首先是安全防御,在腾讯内部,安全这一块已经做得非常强悍,为什么我还讲安全呢?因为在公司层面做的安全防护更多是通用性或者基础类的防护,WAF更侧重在业务逻辑层,它的架构非常简单,通过布道做一些规则的下发到WAF,例如XSS、CC、UA、URI的规则等等,然后开启日志追踪,通过传输、实时分析防护日志,最终做到防护报告实时展示。
规则校验步骤与大家简单介绍一下,目前采用Nginx+LUA结合的方式,它的防护流程是在检查端口及域名是否匹配规则,匹配就下发规则,然后检查黑白IP名单,后面再开启CC防护,以及开启userAgent检查,最后是开启URI检查注入、XSS、SSRF等。
下面是舆情监控这一块,我们在这里特点就是关键词的实时监控、定时报送推送。从下面这个图可以看到,某一款游戏在某此活动期间的口碑展示情况,有多少是正面的,有多少是负面的报告。
最后做一个总结,在线运营的运营经验,第一个是资源评估,我们要定一个标准,根据实际服务场景来做出评估,而不是拍脑袋做。这个评估有一个公式:设计数量=(PV/86400)×2/单机承载最大QPS/0.8。
第二个是灰度+热力度对蓝绿发布。蓝绿发布的目的是让我们的用户没有感知,我们做蓝绿发布,操作的步骤很多,一旦人工接触多了,就容易出现误操作。我们采用的是热更新方式,原理是服务A进程收到关闭信号量之后,启动B进程来接收已经创建的连接或新连接,当A进程连接完全释放之后就会自动关闭,整个过程用户无感知。灰度实际就是放量检验这个效果及功能,如中间没有出现问题,只需两步就完成变更。
第三个是修复了Supervisor一个bug。Supervisor没办法对进程fork子进程进行管理,所以我们修复了这个bug,如大家碰到同样的问题可以私下找我,我会给大家具体的解决方法。
最后是一个数据流向监控的实现思路。首先简单介绍一下为什么要做这个流向监控。数据的流向监控在业界目前没有较好的方案,当我们的数据链、处理链、服务链拉得很长的时候,如何感知当数据源头有发生变更或异常,影响到我们的最终服务,这是非常难度的,而且它跟我们的业务特点关系非常大。同样我们逆向推导也是成立的,我发现玩家的某个对局数据不对,本来是胜局结果变成了负局,怎么确认数据是从哪个节点负责计算或存储的?这个非常有挑战性,这需要我们的数据服务能力一步一步做叠加,需要不断做扩展与关联,才能够达到某一个层次的服务水平。目前我们做的还没那么完美。首先我们要具备元数据管理,还有元信息的管理,这是非常重要的两层。第二个是要有数据字典管理,我们给数据表名称、字段说明,结构性的定义及标签。第三个就是血缘关系,能够定义到任务之间的关系。第四个是数据服务的注册,这是比较核心的一点,怎么注册,我们怎么知道你用了哪个数据源呢?这很关键,我们内部开发了一个通用组件,比如说你要引用后端的数据层,你必须使用这个组件接入,这样关系才能够建立起来,所以应用配置文件也是单独生成的。而最上游我们会提供一个数据流向查询,我们用了A数据,查下来就知道它在这个过程经过了哪些关键点,有可能是存储、计算、分析、接口等。
最后快速做一个总结,这是我们的持续服务的体系,在持续运营状态下,我们具备质量监控、舆情监控、容量管理、安全管理、故障治愈、故障修复等能力,同时收集用户服务体验、产品、BUG、新功能、吐槽点,将这些信息反馈给产品人员、开发人员和运维人员。再通过持续集成交付、发布变更管理,做到快速迭代及部署,最后就形成了良性的、持续改进的闭环。
1、【提问】:你刚才提到了资源分配的公式,你们那个公式是怎么总结出来的?那个公式的基础是以什么样的结果作为标准的?
【刘天斯】:这个公式也不是我们发明的,也是借鉴了很多前辈思路,我们只是在这个基础上做改进,结合我们自己的业务场景,包括我们服务是什么样的类型,因为服务类型不同,它的要求不一样,配置不一样,它的生命周期也不一样,它能够反映出来的效果和能力、访问量都不一样,比如服务到底是CPU型还是内存或IO型,完全不一样。这就带来一个问题,我们怎么定一个标准?我们目前聚焦在接入这块的逻辑层,供参考的是8核、4G内存,硬盘100到150G的配置。
2、【提问】:我是来自创维公司负责运维的。今天讲的是DevOps,DevOps要快速迭代到什么样的程度才行?像您现在做的一个平台一天发布15次,我不知道你在前面需要进行多长时间的准备?比如说线上的实时导流导多长时间是合适的?这个度我们一直拿捏不准,能帮我们解答一下,提点好的建议吗?【刘天斯】:在互联网行业我们大部分都是采用敏捷开发的模式,这样会产生技术的债务,这是必然的。你是传统行业吗?
【提问】:我们前身是传统行业,现在我们是互联网电视,相当于做电视上的服务,我们是非常快捷的,每天都发布,每天改bug,不停地迭代,而且需求也特别多,开发也忙不过来,我们运维也感觉到准备不足。
【刘天斯】:互联网这种快速发展的模式,势必会带来很多技术的债务,我觉得这是正常的。我们的互联网发展很快,必须要先要有一个雏形产品出来,然后再不断地迭代,这是大部分互联网公司或者是刚刚转型公司采用的模式,这种模式出现的问题我认为是很正常的问题,包括在腾讯也一样有这样的问题,他评估不到我在某个阶段要花多长时间去检验我们是否够快、是否高效。我们在布道这个环节下一步就是预发布,预发布追求的并不是快,而是能不能在临门一脚之前发现一些致命的问题,因此,可以在持续交付阶段追求快,而不应在预发布阶段。
导言
最近比较关注大数据、云计算、Docker、DevOps等几个方向,一会也简单围绕这几点跟大家做个交流。
聊运维人生这个主题有点大,^_^就先从个人怎么入运维这行说起吧。
人在天涯
2003年毕业后的第一份工作是当php、java程序员,人力紧张时还要兼顾美工设计的工作。
工作中一次偶然的机会看到导师在黑压压的界面中敲入不同指令,第一感觉非常震撼,很COOL,联想到《黑客帝国》电影中的画面,与之前接触到的Windows系统完全不一样,后来才晓得是Redhat9(红帽9)。此时还是一名普通码农。
2005年的10月,进入第二个东家-天涯社区,人生的第一个转折点在此酝酿。
由于赶上了公司快速发展的阶段,接触到了很多开源技术,包括LVS、Squid、Haproxy、MongoDB、Mysql、Cfengine等等,也不断应用在生产环境,取得了非常不错的效果,重点业务的高可用持续保持在99.99%。
如何高效运营?
随之新的问题也陆续出现,包括如何更好整合各类开源组件,发挥其最大效能,另一个是如何高效运营。不可否认,具有开发背景的运维人员有着先天性的优势,可以在不同角色之间进行思考,视野被放大。
事实上在天涯6年就做一件事,即主导并实施天涯社区从Windows技术路线往开源架构改造,驱动这个事情有两原因,一个是运营管理成本、另一个是正版化给企业带来的高额成本(视窗+Sqlserver License)。
改造最大难点是没有可参考及借签的对象,文档资料不全。完全依靠原有人员的技术储备,不断摸索。经过“试错 -> 失败 -> 回滚 -> 再尝试”的过程,个人能力在此期间也得到了一次升华。
对Linux环境下的C++做了深入的研究学习,具备这样的知识对开源软件的架构、分层理解及故障定位有很大的帮助。改造后的天涯新架构在当时比较具有代表性且通用。
架构图如下:
2010年天涯IT管理架构
天涯期间的开源项目
取之开源,同样也回馈开源,以下为个人在天涯期间的开源项目,其中开源后的“LVS管理平台”第一时间被国内某证卷公司采用,当时感觉很有成就感。
比较有意思的“服务器机柜模拟图平台”项目,不少公司在此基础上陆续出升级版本,平台截图如下:
可以通过下面网址,访问在线版本
https://blog.liuts.com/idc/
后面也将内部的运维管理平台原型做了开源,同时也在《Python自动化运维实践》书籍中做了介绍,下面为OMServer平台截图
源码托管在:
http://github.com/yorkoliu/pyauto
小经验:
05年开始写博客,当时目的比较单纯,即当笔记本来用,后来慢慢演变成交流沟通的平台,收到很多同行的评论、邮件,也认识了很多业界大牛,很多好友到现在还保持联系。
坚持写博客是一件非常困难的事。但在荣获了2010年度《十大杰出IT博客》的同时,也让我领悟到每写一篇博客其实就是个人对工作、生活的一次总结。不但可以锻炼你的语言组织、逻辑思维、表达等能力,还可以给你增加人气,提升个人影响力 ^_^。
腾讯CDN运维之旅
2011年加盟腾讯,主要负责了腾讯静态、下载类的CDN运维,截止当前已有400+加速节点(包括静态内容平台、游戏下载平台、UGC加速平台、流媒体平台、动态加速平台等),总带宽突破10Tb,覆盖了腾讯QQ、微信、QQ空间、腾讯视频等业务。
流量调度主要通过GSLB来实现,部分业务基于httpDNS来实现。
腾讯自建CDN除了强大的资源部署外,软实力方面做得非常不错,比如:协议栈优化TCP传输、DiskTank解决小文件读写瓶颈与碎片、链路实时调整等,其中链路实时调整依赖全网拓扑的实时测速的数据作为依据,调整事件是通过调用公司的GSLB接口进行刷新。
调度示意图如下:
What happened?
运维期间碰到最头疼的问题还是小运营商的域名、内容劫持,表现形式为TTL、目标指向、内容劫持等几个方面。
Why?:运营这样做的初衷是什么?
减少运营商LDNS设备的性能负载;
减少运营商跨网结算成本;
嵌入捆绑广告营销策略等。
How?:解决的一些思路,发现问题:
主动:遍历域名在所有运营商LDNS的解析结果,与公司的威权GSLB记录做比较,存在异常的解析可以立马被定位;
被动:产品投拆、网友论坛反馈等渠道。目前还没有彻底解决问题的方案,原因是站在运营商的角度,适当的劫持是合理的,不过可以通过商务去推动解决(局部),关于内容劫持比较好的解决方案就是上HTTPS。
腾讯数据运营大舞台
2013 年至今负责腾讯游戏大数据运营体系的建设,支撑百余款游戏的数据接入、传输、ETL分析、大数据基础平台运维等工作,确保日7000亿条(50T)日志流水传输,以及日均10万次计算任务调度质量。
在IT基础服务方面,利用Docker技术及DevOps理念,对游戏数据应用实施持续交付流程、服务弹性调度的落地,以及开发团队与运维团队融合制度的定制。
数据运营简介
当前腾讯游戏数据传输、存储规模:
游戏大数据服务架构图:
其中存储与计算都采用公司级的数据服务平台-TDW(基于Hadoop+Hive构建),传输采用自研的TDBank平台,类似于开源Flume+Kafka的技术方案。
数据采集采用自研的Tglog方案,更轻量、传输效率更高,支持UDP及TCP版本,两个特点:
耦和度低、标准开放接口、接入成本低;
统一化数据运营标准协议XML、数据本地化容灾。
Tglog简介:
也简单介绍下Tglog日志格式的定义吧,分两部分,一为日志描述,二为实体日志。
下图为日志格式描述文件(XML格式):
下图为采集原始日志格式(表名|字段值1|字段值2|… …):
支撑数据应用-iData(腾讯智能化游戏数据分析平台),提供了游戏生命周期管理,且每个环节都结合了数据挖掘算法,做到精准玩家触达,精细化运营的目的。
运维支撑难点:
如何保障海量游戏日志的采集、传输质量达到99.999% 的SLA标准?
需要从几个维度入手,包括元数据管理、数据地图、数据字典、血缘关系、数据对账、安全审计等。同时要确保与各类数据变更的强联动,感兴趣今后可以展开来讨论哈。
二级数据分析集群我们采用Flume+Spark,调度使用Mesos来实现,同时也结合kubernetes来实现长服务组件的调度,有兴趣今后可展开讨论。
我的DevOps观
Why DevOps?
DevOps是开发者和运维之间的高度协同与融合,这个过程贯穿整个软件开发生命周期,从业务规划到创建、交付再到反馈。
需要注意一点是,不仅仅包括是开发和运维团队,真正的 DevOps 方法需要业务部门、测试人员、企业高管、合作伙伴和供应商等配合完成。
主流观点
为什么要DevOps,国内认同度比较高的几个观点,更多可搜索老王分享过的一些文章。
改善团队协作;
帮助控管风险、成本、减少浪费;
提升软件品质;
提高软件迭代速度。
个人观点
个人更趋向于IBM的诠释,即增强客户体验、提高创新能力、更快实现价值。
建立一种机制,从所交付软件应用的所有利益相关方快速获取反馈,利益相关方包括客户、业务部门、用户、供应商、合作伙伴等等;
目标是减少浪费和返工,并将资源转移给价值更高的活动;
将软件快速、高效和可靠地交付于生产的文化、实践和自动化,快速达成目标,实现价值。
How?
怎么去做DevOps?
调整考核和激励机制;
绑定开发、测试、运维,共同输出价值;
全面自动化,减少人工干预;
开展培训和组织开发活动;
制定新体系结构标准。
持续集成、交付、部署是一个非常好的切入点,DevOps全景图:
So What is it?
Devops就是:
CALMS - Culture(文化)
Automation(自动化)
Lean (Lean[精益]理论,其思想源于消除浪费)
Measurement(量化)包括监控、指标、分析
Sharing(分享)
补充概念
很多人会混淆持续交付(Continuous Delivery)、持续部署(Continuous Deployment)两个概念。
简单说明下,持续交付并不是指软件每一个改动都要尽快的部署到产品环境中,它指的是任何的修改都已证明可以在任何时候实施部署,而持续部署是将所有通过了自动化测试的改动都自动的部署到产品环境里。
DEVOPS最终目标及原则方向:
运维要成为一等公民;
让开发人员完成一切;
谁构建,谁运行。
经验点:
前期的沟通铺垫很重要,一定要了解公司内部利益相关方,包括开发负责人、运维主管、项目主管、产品负责人等的诉求及关注点,尽可能共同捆绑目标及输出价值,不同角色区别只在于分工。
其次是让大老板了解DevOps的收益,且要得到老板的支持,因为DevOps落地是一项长期工作,不可能在短期内看到收益。
量化的指标一定要清晰,且直观易懂,包括业务监控平台、分析报告,同时需要提供至少一种产品或用户反馈的途径,可以是产品官网、在线客服,这对提升平台的品质,直接影响产品口碑。这里直接使用了公司现有的非常完善的基础组件及渠道。
持续集成、交付、部署,我们使用了SVN+Jenkins+Docker+应用商店(镜像)。
第一期自动化部署我们采用了HECD架构实现,第二期计划是与蓝鲸平台打通,通过APP形式来实现从集成至部署的封环,很大程度提高了软件迭代的速度及频率,对提升软件品质及运维服务水平至关重要。
此项工作一定要做好,这也是让相关利益方切身感受变化的关键一环。
小知识
什么是HECD架构:构建一个高可用及自动发现的Docker基础架构-HECD
https://blog.liuts.com/post/242/
从业经验
最后再简单分享个人在运维领域从业的两个小经验:
1、一步一个脚印,切忌一步到位。
关于运维自动化这件事情,几乎所有的IT企业都在做,看似是一件非常好的事情,忽略了前提条件,往往付出更大的代价及运营成本。
之前所提到的前提条件便是运维体系“标准化”、“流程化”、“规范化”的建设,覆盖企业中资源、版本、业务发布、监控、事件管理等环节。有了这些作为基础铺垫,运维自动化的建设才会很顺利实施,达成预期。
自动化程度的高低很大程度是随公司所处不同发展阶段,不断去演变而来,不要想着去复制BAT的架构,一步到位是一个很大的误区。
2、运筹帷幄,主动耦合。
对业务的生命周期进行管理,是运维扮演的角色。
一个产品在规划之初运维人员须第一时间介入参与,根据产品特点,提供业务平台前期架构设计、资源评估等数据。
当产品进入开发阶段,须与开发人员保持密切沟通与互动,提供业务接入、缓存、存储、监控、安全等方面规范,以便在编码阶段更好磨合与对接,避免上线后反复做不必要的版本迭代,也使得开发出来的产品具备更高的可运维性。
待业务上线后,务必定期同步相关运营数据给产品与开发人员侧,为后续优化、改进的工作提供数据支持,这也恰恰能体现运维人员的专业性及团队合作意识。
一个感悟
运维体系中各个环节的工作犹如散落在地上的珠子,每个珠子分别代表事件、资源、监控、安全、自动化、日常工作等。
看似是七零八落的,我们需要利用“流程”这条线将所有的珠子串起来。珠子的前后顺序及间隔由“标准规范”来控制。
这样就形成了一条完整的链子,是一个有机的整体,最后会促使运维工作开展得井井有条。这条链子扣在三个点子上,就是“质量”、“效率”、“成本”。
如何保持竞争力?
很喜欢乔希·维茨金在《学习之道》书中一句名言:追求卓越的关键在于,要坚持充满活力,长期的学习过程,不再满足于原地踏步、平平庸庸。
作为一名优秀的运维工程师,应该将学习成果与日常工作相结合,独立及深入思考发现的问题,善于发现不同问题之间的联系,并把它们升华为方法论,最后再做总结与传承。
我的感悟:不断学习才是保持竞争力的唯一途径,不断思考和总结会成为你潜意识的行为;
我的行动:坚持每天1~2小时的学习时间,从未停止。
那么问题来了:
如学习的动力不源于兴趣或好奇心怎么办?
这里跟大家分享我与团队小伙伴探讨的一个观点:
首先应该静下心好好思考,自己5、10年后想过什么样的生活,可以预见的状态是上有老下有小、背着沉重的房贷、车贷。
如此时再去与一个毕业生竞争同一工作岗位,必然会丧失了所有的优势与竞争力,被行业所淘汰只是时间问题。
因此,想过衣食无忧生活,在职业发展过程中处于不败之地,那么,从现在开始就应该怀着空怀心态,不断打怪升级,使自己变得更加强大。
引用萧帮主一分享主题:“危机前的自我拯救”,没有这个勇气或行动是否考虑该转行了?
如何挖掘专利?
再聊聊运维人员如何写专利,在很多人眼里,写专利是一件非常复杂且很难做到的事情,甚至会认为这是开发人员更擅长的领域。
其实写专利并不像大家想象的那么遥远,只要是一个可以实现的方法或思路就能写成专利。比如运维平台当中的一个功能点、一个快速安全扫描的方法、一项容灾传输的技术、自动化测试案例思路、一种有效服务监控的手段等。这些点子都可以写成一个发明专利。
当然,创新及新颖性非常重要,可以先对比现有的技术实现,突出该发明的优势及亮点,就可以开始写交底书了。
如真的没有一点头绪,大家也可以参考个人写过的一些专利,访问中国专利局网,检索发明人:“刘天斯”
http://www.pss-system.gov.cn/sipopublicsearch/search/searchHome-searchIndex.shtml
一则小广告^_^:
在个人著作《Python自动化运维:技术与最佳实践》中也分享一些运维自动化的实现方法与实践案例,供大家参考。
另一著作《Docker深入详解》预计8月上市,敬请关注!谢谢大家的聆听。
Q&A
Q1:自行研发tglog对于海量日志传输是否主要走的udp协议?如果是走的udp协议,怎么去解决一些数据包传输中数据乱序以及数据反序列化问题,或者做了哪些协议层面的优化?
A: 是的,主要走的是UDP协议。tglog同时也是一套数据日志的规范,约束开发人员打日志的标准。
目前未碰到数据乱序以及数据反序列化问题,以前面临一个比较大的问题是丢包情况,尤其在流量高峰期时段更为明显。
后面在内核、IO优化得到缓解,但无法规避,所以我们对比较重要的日志采用TCP传输。比如玩家消费流水。
Q2:规范化、标准化遇到最大问题是什么?我们遇到就是无法行政干涉开发如何写代码?有什么好的方式去引导规范?尤其是开发有很繁重的开发任务.
A: 这已经不是运维层面推动的事情,必须升级到运维及开发的上层领导,开发任务繁重不是理由,上线后出问题一样得不偿失,提前抛出风险,让开发人员认真做好上线前的评估。
Q3:Docker化应用,是否面临胖容器还是瘦容器问题,即每个容器单进程还是多进程,你们这块是如何使用的?
A: 这块没有统一的标准,看实际业务场景来决定,我们遵循一个原则是:最大化解耦。
另外一个需要考虑的点:是否为原子调度单元。
最近比较关注大数据、云计算、Docker、DevOps等几个方向,一会也简单围绕这几点跟大家做个交流。
聊运维人生这个主题有点大,^_^就先从个人怎么入运维这行说起吧。
人在天涯
2003年毕业后的第一份工作是当php、java程序员,人力紧张时还要兼顾美工设计的工作。
工作中一次偶然的机会看到导师在黑压压的界面中敲入不同指令,第一感觉非常震撼,很COOL,联想到《黑客帝国》电影中的画面,与之前接触到的Windows系统完全不一样,后来才晓得是Redhat9(红帽9)。此时还是一名普通码农。
2005年的10月,进入第二个东家-天涯社区,人生的第一个转折点在此酝酿。
由于赶上了公司快速发展的阶段,接触到了很多开源技术,包括LVS、Squid、Haproxy、MongoDB、Mysql、Cfengine等等,也不断应用在生产环境,取得了非常不错的效果,重点业务的高可用持续保持在99.99%。
如何高效运营?
随之新的问题也陆续出现,包括如何更好整合各类开源组件,发挥其最大效能,另一个是如何高效运营。不可否认,具有开发背景的运维人员有着先天性的优势,可以在不同角色之间进行思考,视野被放大。
事实上在天涯6年就做一件事,即主导并实施天涯社区从Windows技术路线往开源架构改造,驱动这个事情有两原因,一个是运营管理成本、另一个是正版化给企业带来的高额成本(视窗+Sqlserver License)。
改造最大难点是没有可参考及借签的对象,文档资料不全。完全依靠原有人员的技术储备,不断摸索。经过“试错 -> 失败 -> 回滚 -> 再尝试”的过程,个人能力在此期间也得到了一次升华。
对Linux环境下的C++做了深入的研究学习,具备这样的知识对开源软件的架构、分层理解及故障定位有很大的帮助。改造后的天涯新架构在当时比较具有代表性且通用。
架构图如下:
2010年天涯IT管理架构
天涯期间的开源项目
取之开源,同样也回馈开源,以下为个人在天涯期间的开源项目,其中开源后的“LVS管理平台”第一时间被国内某证卷公司采用,当时感觉很有成就感。
比较有意思的“服务器机柜模拟图平台”项目,不少公司在此基础上陆续出升级版本,平台截图如下:
可以通过下面网址,访问在线版本
https://blog.liuts.com/idc/
后面也将内部的运维管理平台原型做了开源,同时也在《Python自动化运维实践》书籍中做了介绍,下面为OMServer平台截图
源码托管在:
http://github.com/yorkoliu/pyauto
小经验:
05年开始写博客,当时目的比较单纯,即当笔记本来用,后来慢慢演变成交流沟通的平台,收到很多同行的评论、邮件,也认识了很多业界大牛,很多好友到现在还保持联系。
坚持写博客是一件非常困难的事。但在荣获了2010年度《十大杰出IT博客》的同时,也让我领悟到每写一篇博客其实就是个人对工作、生活的一次总结。不但可以锻炼你的语言组织、逻辑思维、表达等能力,还可以给你增加人气,提升个人影响力 ^_^。
腾讯CDN运维之旅
2011年加盟腾讯,主要负责了腾讯静态、下载类的CDN运维,截止当前已有400+加速节点(包括静态内容平台、游戏下载平台、UGC加速平台、流媒体平台、动态加速平台等),总带宽突破10Tb,覆盖了腾讯QQ、微信、QQ空间、腾讯视频等业务。
流量调度主要通过GSLB来实现,部分业务基于httpDNS来实现。
腾讯自建CDN除了强大的资源部署外,软实力方面做得非常不错,比如:协议栈优化TCP传输、DiskTank解决小文件读写瓶颈与碎片、链路实时调整等,其中链路实时调整依赖全网拓扑的实时测速的数据作为依据,调整事件是通过调用公司的GSLB接口进行刷新。
调度示意图如下:
What happened?
运维期间碰到最头疼的问题还是小运营商的域名、内容劫持,表现形式为TTL、目标指向、内容劫持等几个方面。
Why?:运营这样做的初衷是什么?
减少运营商LDNS设备的性能负载;
减少运营商跨网结算成本;
嵌入捆绑广告营销策略等。
How?:解决的一些思路,发现问题:
主动:遍历域名在所有运营商LDNS的解析结果,与公司的威权GSLB记录做比较,存在异常的解析可以立马被定位;
被动:产品投拆、网友论坛反馈等渠道。目前还没有彻底解决问题的方案,原因是站在运营商的角度,适当的劫持是合理的,不过可以通过商务去推动解决(局部),关于内容劫持比较好的解决方案就是上HTTPS。
腾讯数据运营大舞台
2013 年至今负责腾讯游戏大数据运营体系的建设,支撑百余款游戏的数据接入、传输、ETL分析、大数据基础平台运维等工作,确保日7000亿条(50T)日志流水传输,以及日均10万次计算任务调度质量。
在IT基础服务方面,利用Docker技术及DevOps理念,对游戏数据应用实施持续交付流程、服务弹性调度的落地,以及开发团队与运维团队融合制度的定制。
数据运营简介
当前腾讯游戏数据传输、存储规模:
游戏大数据服务架构图:
其中存储与计算都采用公司级的数据服务平台-TDW(基于Hadoop+Hive构建),传输采用自研的TDBank平台,类似于开源Flume+Kafka的技术方案。
数据采集采用自研的Tglog方案,更轻量、传输效率更高,支持UDP及TCP版本,两个特点:
耦和度低、标准开放接口、接入成本低;
统一化数据运营标准协议XML、数据本地化容灾。
Tglog简介:
也简单介绍下Tglog日志格式的定义吧,分两部分,一为日志描述,二为实体日志。
下图为日志格式描述文件(XML格式):
下图为采集原始日志格式(表名|字段值1|字段值2|… …):
支撑数据应用-iData(腾讯智能化游戏数据分析平台),提供了游戏生命周期管理,且每个环节都结合了数据挖掘算法,做到精准玩家触达,精细化运营的目的。
运维支撑难点:
如何保障海量游戏日志的采集、传输质量达到99.999% 的SLA标准?
需要从几个维度入手,包括元数据管理、数据地图、数据字典、血缘关系、数据对账、安全审计等。同时要确保与各类数据变更的强联动,感兴趣今后可以展开来讨论哈。
二级数据分析集群我们采用Flume+Spark,调度使用Mesos来实现,同时也结合kubernetes来实现长服务组件的调度,有兴趣今后可展开讨论。
我的DevOps观
Why DevOps?
DevOps是开发者和运维之间的高度协同与融合,这个过程贯穿整个软件开发生命周期,从业务规划到创建、交付再到反馈。
需要注意一点是,不仅仅包括是开发和运维团队,真正的 DevOps 方法需要业务部门、测试人员、企业高管、合作伙伴和供应商等配合完成。
主流观点
为什么要DevOps,国内认同度比较高的几个观点,更多可搜索老王分享过的一些文章。
改善团队协作;
帮助控管风险、成本、减少浪费;
提升软件品质;
提高软件迭代速度。
个人观点
个人更趋向于IBM的诠释,即增强客户体验、提高创新能力、更快实现价值。
建立一种机制,从所交付软件应用的所有利益相关方快速获取反馈,利益相关方包括客户、业务部门、用户、供应商、合作伙伴等等;
目标是减少浪费和返工,并将资源转移给价值更高的活动;
将软件快速、高效和可靠地交付于生产的文化、实践和自动化,快速达成目标,实现价值。
How?
怎么去做DevOps?
调整考核和激励机制;
绑定开发、测试、运维,共同输出价值;
全面自动化,减少人工干预;
开展培训和组织开发活动;
制定新体系结构标准。
持续集成、交付、部署是一个非常好的切入点,DevOps全景图:
So What is it?
Devops就是:
CALMS - Culture(文化)
Automation(自动化)
Lean (Lean[精益]理论,其思想源于消除浪费)
Measurement(量化)包括监控、指标、分析
Sharing(分享)
补充概念
很多人会混淆持续交付(Continuous Delivery)、持续部署(Continuous Deployment)两个概念。
简单说明下,持续交付并不是指软件每一个改动都要尽快的部署到产品环境中,它指的是任何的修改都已证明可以在任何时候实施部署,而持续部署是将所有通过了自动化测试的改动都自动的部署到产品环境里。
DEVOPS最终目标及原则方向:
运维要成为一等公民;
让开发人员完成一切;
谁构建,谁运行。
经验点:
前期的沟通铺垫很重要,一定要了解公司内部利益相关方,包括开发负责人、运维主管、项目主管、产品负责人等的诉求及关注点,尽可能共同捆绑目标及输出价值,不同角色区别只在于分工。
其次是让大老板了解DevOps的收益,且要得到老板的支持,因为DevOps落地是一项长期工作,不可能在短期内看到收益。
量化的指标一定要清晰,且直观易懂,包括业务监控平台、分析报告,同时需要提供至少一种产品或用户反馈的途径,可以是产品官网、在线客服,这对提升平台的品质,直接影响产品口碑。这里直接使用了公司现有的非常完善的基础组件及渠道。
持续集成、交付、部署,我们使用了SVN+Jenkins+Docker+应用商店(镜像)。
第一期自动化部署我们采用了HECD架构实现,第二期计划是与蓝鲸平台打通,通过APP形式来实现从集成至部署的封环,很大程度提高了软件迭代的速度及频率,对提升软件品质及运维服务水平至关重要。
此项工作一定要做好,这也是让相关利益方切身感受变化的关键一环。
小知识
什么是HECD架构:构建一个高可用及自动发现的Docker基础架构-HECD
https://blog.liuts.com/post/242/
从业经验
最后再简单分享个人在运维领域从业的两个小经验:
1、一步一个脚印,切忌一步到位。
关于运维自动化这件事情,几乎所有的IT企业都在做,看似是一件非常好的事情,忽略了前提条件,往往付出更大的代价及运营成本。
之前所提到的前提条件便是运维体系“标准化”、“流程化”、“规范化”的建设,覆盖企业中资源、版本、业务发布、监控、事件管理等环节。有了这些作为基础铺垫,运维自动化的建设才会很顺利实施,达成预期。
自动化程度的高低很大程度是随公司所处不同发展阶段,不断去演变而来,不要想着去复制BAT的架构,一步到位是一个很大的误区。
2、运筹帷幄,主动耦合。
对业务的生命周期进行管理,是运维扮演的角色。
一个产品在规划之初运维人员须第一时间介入参与,根据产品特点,提供业务平台前期架构设计、资源评估等数据。
当产品进入开发阶段,须与开发人员保持密切沟通与互动,提供业务接入、缓存、存储、监控、安全等方面规范,以便在编码阶段更好磨合与对接,避免上线后反复做不必要的版本迭代,也使得开发出来的产品具备更高的可运维性。
待业务上线后,务必定期同步相关运营数据给产品与开发人员侧,为后续优化、改进的工作提供数据支持,这也恰恰能体现运维人员的专业性及团队合作意识。
一个感悟
运维体系中各个环节的工作犹如散落在地上的珠子,每个珠子分别代表事件、资源、监控、安全、自动化、日常工作等。
看似是七零八落的,我们需要利用“流程”这条线将所有的珠子串起来。珠子的前后顺序及间隔由“标准规范”来控制。
这样就形成了一条完整的链子,是一个有机的整体,最后会促使运维工作开展得井井有条。这条链子扣在三个点子上,就是“质量”、“效率”、“成本”。
如何保持竞争力?
很喜欢乔希·维茨金在《学习之道》书中一句名言:追求卓越的关键在于,要坚持充满活力,长期的学习过程,不再满足于原地踏步、平平庸庸。
作为一名优秀的运维工程师,应该将学习成果与日常工作相结合,独立及深入思考发现的问题,善于发现不同问题之间的联系,并把它们升华为方法论,最后再做总结与传承。
我的感悟:不断学习才是保持竞争力的唯一途径,不断思考和总结会成为你潜意识的行为;
我的行动:坚持每天1~2小时的学习时间,从未停止。
那么问题来了:
如学习的动力不源于兴趣或好奇心怎么办?
这里跟大家分享我与团队小伙伴探讨的一个观点:
首先应该静下心好好思考,自己5、10年后想过什么样的生活,可以预见的状态是上有老下有小、背着沉重的房贷、车贷。
如此时再去与一个毕业生竞争同一工作岗位,必然会丧失了所有的优势与竞争力,被行业所淘汰只是时间问题。
因此,想过衣食无忧生活,在职业发展过程中处于不败之地,那么,从现在开始就应该怀着空怀心态,不断打怪升级,使自己变得更加强大。
引用萧帮主一分享主题:“危机前的自我拯救”,没有这个勇气或行动是否考虑该转行了?
如何挖掘专利?
再聊聊运维人员如何写专利,在很多人眼里,写专利是一件非常复杂且很难做到的事情,甚至会认为这是开发人员更擅长的领域。
其实写专利并不像大家想象的那么遥远,只要是一个可以实现的方法或思路就能写成专利。比如运维平台当中的一个功能点、一个快速安全扫描的方法、一项容灾传输的技术、自动化测试案例思路、一种有效服务监控的手段等。这些点子都可以写成一个发明专利。
当然,创新及新颖性非常重要,可以先对比现有的技术实现,突出该发明的优势及亮点,就可以开始写交底书了。
如真的没有一点头绪,大家也可以参考个人写过的一些专利,访问中国专利局网,检索发明人:“刘天斯”
http://www.pss-system.gov.cn/sipopublicsearch/search/searchHome-searchIndex.shtml
一则小广告^_^:
在个人著作《Python自动化运维:技术与最佳实践》中也分享一些运维自动化的实现方法与实践案例,供大家参考。
另一著作《Docker深入详解》预计8月上市,敬请关注!谢谢大家的聆听。
Q&A
Q1:自行研发tglog对于海量日志传输是否主要走的udp协议?如果是走的udp协议,怎么去解决一些数据包传输中数据乱序以及数据反序列化问题,或者做了哪些协议层面的优化?
A: 是的,主要走的是UDP协议。tglog同时也是一套数据日志的规范,约束开发人员打日志的标准。
目前未碰到数据乱序以及数据反序列化问题,以前面临一个比较大的问题是丢包情况,尤其在流量高峰期时段更为明显。
后面在内核、IO优化得到缓解,但无法规避,所以我们对比较重要的日志采用TCP传输。比如玩家消费流水。
Q2:规范化、标准化遇到最大问题是什么?我们遇到就是无法行政干涉开发如何写代码?有什么好的方式去引导规范?尤其是开发有很繁重的开发任务.
A: 这已经不是运维层面推动的事情,必须升级到运维及开发的上层领导,开发任务繁重不是理由,上线后出问题一样得不偿失,提前抛出风险,让开发人员认真做好上线前的评估。
Q3:Docker化应用,是否面临胖容器还是瘦容器问题,即每个容器单进程还是多进程,你们这块是如何使用的?
A: 这块没有统一的标准,看实际业务场景来决定,我们遵循一个原则是:最大化解耦。
另外一个需要考虑的点:是否为原子调度单元。