Google的Borg论文都说了啥?


一直以来,Google大名鼎鼎的Borg没有对业界公开其资料,大家只能从各种渠道拼凑出系统大致的模样。在EuroSys’15上,Google终于发表了介绍Borg的论文,揭开了它神秘的面纱。为了缩短大家的阅读时间,整理了这篇文章,阐述下论文披露出来的一些关键设计思想,并结合自己的理解进行一些探讨。

Borg定位于解决什么问题?

与绝大多数集群操作系统(Cluster Operating System)一样,Borg立足于解决以下三方面的问题:

屏蔽底层基础设施,使得产品线专注于自身需求

当系统规模大到一定程度,许多基础设施的升级,比如更换系统内核/基础库环境(glibc, kernel等)、底层网络建设等,都不可避免的会被上层业务感知、需要逐个推动业务线的升级调整,实施非常困难。而从业务线来说,这些升级和自身的主营业务并不相干,却需要进行配合而产生不小的人力开销,是一件没有业务收益、低优的事情。这种矛盾进一步使得基础设施的演化推进变得更加艰难。时间一久,基础设施建设将会远远落后于业内的最新进展。

Borg类系统的出现,解耦了基础设施和上层业务。业务可以近似无成本的享受到诸如内核、网络建设等底层系统调优升级带来的好处,将精力更多的聚焦于自身业务。而对于基础设施的人员来说,则减少了各种推动性工作带来的大量人力开销。

以内核的升级为例,Google要求业务都具备一定比例的宕机容灾能力,IDC会按照规划、强制按照一定比例随机shutdown机器进行维护。在这种机制下,全公司可以持续更新至使用业界最新版本的内核、更新操作系统环境。且由于经常重启、遇到内核问题的概率也随之下降了许多。强制重启机器的机制,不仅可以消除五花八门的机器环境问题,也倒逼这上层系统按照分布式系统的方式进行系统架构设计,提高了业务的可靠性。

提供稳定可靠的API,方便产品线方便运维

borg的API、尤其是Borgcfg工具的出现,使得任何一个人都可以方便的部署、运维自己的服务。Google的MapReduce、Flume、Pregel,甚至大名鼎鼎的GFS、Bigtable等著名分布式系统,都是基于Borg的API、托管在Borg系统之上的。这种分层结构,大大简化了上层系统在运维方面的设计。

此外,borg提供的borgcfg是Google内部员工日常使用的重要工具之一。该工具可以方便的执行诸如线下的各种测试及调研任务、甚至直接操作线上服务。borgcfg描述支持继承和导入,这种描述能力使得用户可以最大程度的复用历史积攒的经验,将搭建环境的行为自动化起来。

管理好物理资源,提高资源利用率

通过Borg系统托管的业务,具体进程启动在那台机器上,是由调度算法决定的。于是,Borg可以根据当前集群负载和被调度业务的资源需求,通过充分的隔离、超发、自动扩缩容等技术,进行混布以提升物理资源的使用率。和业务线自己进行手工混布的方式不同,这类工作是由独立、专业的研究团队通过数据分析等方式反复进行迭代优化的。此外,相对于业务线零碎机器池,由于Borg掌管了全公司的物理机器,使得调度算法具备全局资源视图,能够充分调配并做出全局更优的选择。

负载的类别:service与batch job

运行于Borg系统之上的应用(“进程”)大体有两类,一类被称为”service”,启动后即长时间运行不断接受并处理收到的请求,类似daemon进程。一般而言,service对请求处理延迟和可用性比较敏感、多数服务于终端用户(如Gmail、Google Docs等)。第二类应用被称为batch job,这类程序执行结束后自行退出,往往执行时间短、对执行失败不那么敏感。典型的batch job为各色的离线计算任务。

那么,为什么需要区分两种不同的负载呢?原因是这两类负载的差异性实在太大,需要用不同的思路去处理,具体包括:

  • 二者的运行状态机不同::service的状态机中,是存在『环境准备ok,但进程没有启动』、『健康检查失败』等状态,这些状态离线作业是没有的。状态机的不同,决定了对这些应用有着不同的『操作接口』(对应状态机中的『边』),进一步影响了用户的API设计(比如离线作业没有『更换程序重启』、而是『提交重做』)、上层控制系统的内部实现(控制系统需要通过一致的『操作接口』来控制所有『进程』的运行状态)。
  • 关注点与优化方向不一样:一般而言,service关注的是服务的『可用性』,而batch job关注的是系统的整体吞吐。关注点的不同,会进一步导致内部实现的彻底分化。比如,对于服务来说,其调度更多的关注于Failure Domain的处理,而离线作业更多的是通过DAG等信息优化任务的启动顺序、确保系统的整体吞吐等。

基本架构:borgmaster/borglet/scheduler

Borg是非常典型的Master(borgmaster)+Agent(borglet)架构。用户的操作请求提交给Master,由Master负责记录下『某某实例运行在某某机器上』这类元信息,然后Agent通过与Master通讯得知分配给自己的任务、在单机上执行管理操作。

borg-arch

每套borg部署称为一个cell。在Google的机房环境下,IDC和cell是1:n的关系,一般而言是一个主Cell运行着大多数的业务,和若干个特殊用途的小cell。每个cell有一组borgmaster进程,以及部署在众多机器上的borglet(一台机器一个)进程组成,管理的机器规模一般在万级别。

每组borgmaster由5台机器组成,使用paxos协议进行选主和元数据的同步、消除系统单点。所有的写操作由选举出来的leader执行。borgmaster定期通过rpc向borglet查询状态、下发分配的任务等等。当系统机器规模很大的时候,过多的agent通讯和查询需求可能导致leader负载过重。因此,borg将轮询工作分摊到各个follower上,只有borglet汇报的状态发生变化的时候,才将变化通知给leader处理;此外,对于数据没有强一致需求的查询请求,也由follower处理。

在早期的borg设计中,调度器是实现在borgmaster中的,如今borg已经将调度器拆分成独立的服务(融入了omega的设计),一方面降低了master的压力、另一方面也利于调度策略的独立迭代。论文没有披露太多关于调度器的实现细节,讲了一些常见考虑要点、show了一些图表表明集群调度的好处以及调度算法评估的一些初步知识(论文嘛,总得有些图和数据show一下,你懂的)。

在论文中,borg还有一些重要的功能,比如内置了名服务用于服务发现、公司级别的rpc框架内置http server以方便获取监控信息、带web ui的sigma系统用于日常稳定定位追查、fauxmaster负责进行线上负载的仿真以支持调度算法优化和borg自身的debug等。

为提升资源利用率,borg做了哪些工作?

从论文披露的信息上来看,Google为支持混布,做了许多精细的工作,具体包括:

cgroups进行物理资源隔离

事实上,当前linux kernel中用于物理资源隔离的cgroups,就是google borg研发团队贡献给社区的。这个工作是后面众多容器技术的基础。早期的lxc,以及后面发展起来的docker等,都受益于google的贡献。

优先级、超发与抢占

在borg系统上运行的程序,都需要指定具体的优先级。优先级是一个数值,但会从高到低分成四个大的区间(priority-band):monitoring, production, batch, best-effort。从名字上就可以看出,分别对应:基础服务、在线业务、离线计算,还有一个特殊的best-effort。业务预算时需要指明自己需要购买的资源优先级。在业务提交请求的时候,borg会检查当前对应优先级下是否还有配额可用。不同级别优先级的资源有不同的价格,影响到具体业务部门的最后财务报表中。

在borg上运行的程序,一般原则是,高优先级可以抢占低优先级,但production及monitoring通常不会被抢占。在整机资源不足的时候,borglet会按照优先级数值的倒序(这时候不管处于哪个priority band了)逐个kill,避免机器被打死。当borgmater感知道一个任务被evict了,就会将这个任务重新调度到另一台机器上去执行。

在系统运行的过程中会发现,用户往往会多申请一些资源,以确保程序压力突然上升时能有一定的冗余空间(required > used)。如果在分配资源的时候,简单的以用户的请求值来分配,那么机器上就会累积大量的闲置资源。为此,borg提出了reclaimed-resource的概念解决这个问题。

简单通过例子来说,一台机器有100大小的物理资源,这时候先以monitor/production优先级申请了60,但是实际只使用了40,那么机器就出现了(60-40)=20的闲置资源(reclaimed-resource)。borg的处理思路是,当来了一个batch/best-effort优先级的资源需求的时候,那么就认为这台机器总共有100+20=120、还剩120-60=60的可分配资源,而对于monitor/production优先级的请求来说,则认为机器还有100-60=40的可分配。

这种分配方式,确保了在单机上分配给monitor/production级别任务的资源之和,不会超过真实物理资源。当monitor/production级别的资源使用增长到其申请的配额数的时候(比如流量增长导致资源使用从40变成了60),可以通过抢占低优先级任务来满足其需求。

borg通过这种机制实现了机器资源的超发,大大提高了资源利用率。从一些小道消息了解到,Google的机器利用率长期处于高位,极大的节约了公司运营成本。

通过CPI进行混布干扰的评估

尽管目前隔离技术已经做得比较完善了,但将多个进程在一台机器上运行,还是可能引发一些性能上的overhead。borg团队为此做了一些研究,最后选择了使用CPI指标来进行度量、并基于这个指标进行了一些优化工作。CPI是Cycles Per Instruction的缩写,CPI上升则意味着程序性能下降,是一个无关于具体应用、可以被硬件采集的通用指标。borg通过采集CPI数据,可以对比一个应用混布与非混布相对的性能损耗,以及不同应用混布所带来的干扰大小(用于调度算法),并结合优先级、CPU利用率等信息,从众多的进程中识别出干扰源并kill。这部分工作google有另外一篇单独的论文介绍(CPI2 : CPU performance isolation for shared compute clusters),感兴趣的人可以展开阅读。

修改内核调度算法以减少对延时敏感应用的影响

有些应用对延时非常的敏感,比如大搜索等直接服务于用户的业务。对于延时敏感的业务,borg支持在提交资源的时候,打上LS(Latency-Sensitive)标记。borglet看到有LS标记的时候,会确保LS与LS应用不会共享物理cpu核发生干扰。但,none-LS应用可以与LS应用共享物理cpu核,而后通过修改内核调度算法,确保LS在调度的时候比none-LS获得更多的cpu时间片,从而减少none-LS与LS共享物理cpu核带来的影响。

结语:Borg引发的思考

在阅读完borg论文之后,个人最大的感触在于Google的基础设施建设上的强大的前瞻能力、并且能够投入十多年进行不断的优化和改进。正是Google在基础架构建设方面的前瞻性和精益求精的精神,奠定了它在技术领域的领先定位和在业务上彪悍的创新能力。