Firmament调度算法二(算法篇)


这周花时间把Firmament剩余部分看完了,说实话有些失望。论文并没有想象中的那么好,因此决定简单的记录一下,就转去阅读Quincy。Firmament是Quincy的改进版,主要贡献在于结合调度的场景需求提高了MCMF的执行效率,让Flow-based的调度算法具备现实的工程意义。

Quincy的核心消耗是在对MCMF这个问题的求解上。MCMF问题,可以简单理解成这样:

有一堆的货物(上一篇中的\(T_{i,j}\)节点),要从一些地点运输到另外一些地方(上篇中的\(S\),sink node),其间需要经过许多”道路”(边)和”中转站”(中间结点),选择每条路都有一定的cost、且道路允许通过的流量是有限的。那么问题就来了,如何用最小的代价(Min-cost)、运送最多的货物(Max-flow)?

这个是一个标准的图论问题,相信很多人都会猜到,这个问题和网络路由的场景是十分match的。许多人已经对这个问题有所研究,给出了五花八门的解法。

文章介绍了四个MCMF的算法,并将注意力集中到了其中的两个:Relaxation和Cost-scaling。Relaxation的大思路是先找到一个最小cost的解,而后迭代式的调整、满足MCMF的约束条件;而Cost-scaling相反,其基本思路是先找到一个满足约束条件的解,而后迭代式的去降低消耗的cost。文章中的剩余两个算法,感觉就是陪衬用的,用来突出这两个算法的好。

四个算法的算法复杂度如下图:

firmament-algos-comp

图中的数据上来看,貌似successive shortest path更好,但从实验的数据表明,大多数还是Relaxation比较好。可能是因为在调度的场景下,一般是节点数很大(N很大)、每个节点连接的边不会太多(虽然节点很多),这个分布对Relaxation是有利的。但Relaxation算法在边界情况表现挺差的,对一个负载很重的集群来说,其中的”边”很多(M很大),它的性能就会急剧下降。但与此同时,Cost-scaling的性能就表现出众了!因此,论文作者干脆提出:两个算法一起跑,谁先出结果就用谁的!暴力手段解决问题。

另外,文章还做了以下几个措施来缩短算法的执行时间:

  • 根据调度场景变更不会太多的情况,在Relaxation和Cost scaling算法上都使用增量计算的算法,即尽可能使用前面计算结果。graph变更的时候,接着前面计算的结果而不是每次都重来。这样可以显著减少计算量。我想这也是为什么作者选用这两个算法的缘故,因为他们都有迭代计算的版本。
  • 引入一些启发式的信息,减少计算量。论文里面提到了两个:首先,图中的边在迭代中选择哪条,其实是可以结合调度的场景、提供额外的提示信息给算法,让其优先选择。这个思路相当于剪枝,减少了不必要的计算;另一个想法是当任务结束的时候,将Task Node从图中挪走,尽量减少节点数。这两个算法,前者提速大概45%,后者大概提高10%。

最后,论文作者非常慷慨的给出了算法的源代码,大概有24,000行,其中的MCMF部分大概有8,000行,总体规模还是挺大的,对算法细节感兴趣的可以去阅读。

好了,这篇论文就简单介绍到这里。如文章开头所说,后面会去研读下Quincy,将更多的精力集中在对调度问题的建模上。也许当决定在现实场景中使用Quincy算法的时候,需要再回过头来重新强化阅读下这篇论文。由于这篇论文是OSDI’16的,很推荐大家关注下论文后面的引文,感觉质量都相当不错,后面有时间我也会逐步展开阅读。