↓推荐关注↓
作者:邦彦,前华为员工,已获转载授权
来源:
https://www.zhihu.com/question/350418562/answer/857462430
InfoQ的一篇文章介绍华为的源代码总行数 1100 亿,代码仓库数 60 万 +、每天下载容量 60 T、高峰并发下载达到 1 万次 / 秒,这些数据非常惊人......
我当时所在的是某个五级部门,下面某个产品编译一次版本,大概是700多万行C/C++代码,并行编译半个小时,串行编译的话,三个小时以上。
但是这700多万行代码如果用工具去分析,会有大量的废代码,比如,某某淘汰单板的代码,某某淘汰芯片的代码。另外,有一些外购的第三方库。还有一些由于架构不合理造成的冗余,比如两块单板大部分芯片相同,小部分差异,架构不合理造成80%以上的代码重复。
华为的主营业务是网络设备。在网络设备的软件架构上会划分不同的层,比如分为平台,转发,驱动,底软等等。转发又会分为主机侧和单板侧等等,不同产品的架构不同。每一个层,都有多套代码仓库。
比如,我参与的库就有十来个,印象比较深的有平台层有两个,转发层有四个,驱动两个。一些工作了十几年的老员工,参与几十个库很正常的。
另外,上面说的每天的代码下载量非常大,这完全是内部管理机制造成的。
举个例子,如果使用敏捷开发,大概会在两周发布一个版本,这个发布版本就包括前面说的平台,转发,驱动,底软等等,每个模块发布一个库,这些库都是由不同的团队发布的,最后由一个团队牵头发布网络设备上的软件。
在版本迭代中,往往会更新两个库之间的接口,造成的结果就是当前开发的版本使用前一周的库可能就不配套了,上设备验证的时候,一直复位。但是前一周的代码可能有bug需要修复,甚至前几周某个版本有疑难问题没解决,所以每个人的电脑和服务器中就会保留多份代码。
这个多份,可能多到几十份。你可以认为这是不善于使用版本管理工具造成的。事实上,几乎没有开发人员完全知道自己代码对应的tag,该tag需要使用其它库的哪个tag才配套。所以,我所在的部门专门有一个团队,十来号人专门负责发布版本,可见这是有多麻烦的一个事。
另外,代码下载量大还有一个原因,公司搞了一些检测工具,比如检测你提交的代码能不能编译通过,有没有代码重复,有没有使用全局变量,有没有圈复杂度超标,有没有函数调用时间超过某个阈值等等。
这些检测工具工作的前提就是把代码下载下来,然后在本地上检测。换句话说,我提交一行代码,结果整个库被下载了二十多次,下载量不大那才怪了。
华为是通信产业,和目前很多软件公司,尤其互联网公司是不同的。华为的代码质量要求非常严格,如果发现有bug,是必须搞定的,即便这样的bug几个月才出一次,非常难以复现,想尽一切办法都要搞定,实在不行就加人力,让人去穷举。
举个例子,像国庆大阅兵直播,在直播的过程中,如果通信的某个关键节点出了问题,那么影响是非常大的。
但是大家常用的QQ,你正在视频聊天的时候,突然软件闪退了,你会做的仅仅是重新打开QQ,然后再和对方打视频电话,也不过是影响了下你的情绪,一般不会造成什么恶劣的后果。
为了提高代码质量,肯定不能完全靠人力去检视代码,这样是做不到的,即便做得到,也没有那么多钱去请牛人专门来看代码。所以,华为就上线了很多代码质量的分析工具来保证代码质量,这些分析工具就是上面所说的,提交一行代码,整个库被下载了二十多次。
你要问这些代码分析工具有没有用,肯定是有用的,有了这些代码分析工具,可以让很多的半吊子程序员也能参与开发。比如,一个函数写到底的,一个工作五年没有自己写过类的,一个for循环写一天的(指的是二十几行代码,写在一个for循环里,一直写不正确,花了一整天)。。。。
这些工具使得半吊子程序员提交的代码,有工具检视,告诉他们你这样写不满足xx要求,可能会造成xx问题,整个库会腐化等等。
换句话说,你让这些半吊子程序员的代码直接给资深程序员看,那不得气死,不仅仅气死,还会把你骂死,最主要的原因还是花了时间看了一堆垃圾。
大家可能对华为生产的网络设备没啥概念,觉得就是交换机嘛、路由器嘛,基站嘛。。。。实际上,就交换机一项就会有非常多的种类。
举个例子,如果让你做一个交换机,从产品的角度,最简单的想法就是交换机的整体带宽和每个端口的带宽越高,那么性能就越好,确实也是这样,但是,这种交换机有个致命的缺点---太TM贵了。
华为面对的是全球业务,每个国家需求千奇百怪,有些国家的人口没有那么密集,所以只需要小带宽的设备,但是在某些关键节点(商业CBD)需要大带宽的设备。有些国家的关键节点需要在发生故障后毫秒级恢复,这时候就需要支持一些环网保护协议,这类新增项也是要给华为付费的。
总之就一句话,华为的产品千奇百怪,可能两个设备外型一样,仅仅是路由表容量大了一倍,就变成了两个产品型号。
每当开发一个版本,这个版本的代码是要支撑多个产品,但是多个产品之间有一些差异,这些差异可能非常的微小,比如端口数量不一样,端口的最大带宽不一样,每个端口支持的配置不一样,是否支持三层协议等等。
如果写的是C++代码,那么这些差异使用什么样的办法来实现呢?以前的做法是,写一个基类,里面的接口全部都定义成virtual,不同产品去继承基类再实现一份,当编译的时候,使用不同的makefile文件来分开编译,这就是我说的,可能两个产品只有小部分的差异,但是你的代码必须写两份,代码重复度达到了80%以上。
这样的办法,华为用了十几年,所以会有大量的重复代码,重复代码的弊端在于,如果发现了bug,你就得把每个产品的代码都分别修改。
如果改漏了,就有人找你麻烦了。如果这个bug暴露到客户那里,就不仅仅是找你麻烦了,可能扣掉你的离职补偿,让你走人。
如果你拿着上述的祖传代码,去问一些所谓的软件工程大师,问他怎么优化,他大概率会回答你---重构。
然后,你回去告诉部门的人,某某大师说了,我们现在这个情形,得重构。
事实上,你重构不了,这些代码支持的产品已经运行好多年了,在线上运行稳定,没有故障,如果你重构以后出了问题,你得背全锅。
你回家后仔细琢磨,狠下心来,抱着背水一战的态度回去给领导说,我要把代码重构,如果出了问题,我离职走人。
领导会觉得你勇气可嘉,真要去实施还是算了吧,部门的职员搞出了大问题,主要责任人就是领导自己。
所以,在华为,想要重构的可能性几乎为0,主要是谁都担不了这个责任。当然,这里指的重构是整个软件架构的重构,类似把switch case语句改成表驱动的修改,不叫重构。
那么当一套代码腐化以后怎么办呢?只有重写,就是重新从零写一套代码。
写这套代码之前,要写很多的ppt去贬低前一套代码架构如何的有问题,性能如何的差,新特性加不进去,原本只要2人/月的工作量,腐化的架构上会激增成10人/月。反正就是尽可能的侮辱这套代码(当然,某些原因是成立的,某些原因的话就呵呵了)。
最后几页ppt还要写上,现在需要重写一套架构,会使用什么什么技术,将网络的xx问题抽象成了xxx问题,这样的话,代码量可以减少xx%,性能可以提高xx%。最终,原本需要5人/月的特性,现在可以降低到1人/月。
最搞笑的是,可能前一套代码和准备用来吹牛逼的这套代码,是同一个人架构的。
紧接着,就是层层汇报,审批,终于有个能说上话的大佬拍板了,就可以开干了。
这就是前面说的为啥每一个层(平台、转发、驱动、底软等等)会有多套架构,一个原因是各个部门之间各自为战,不停的重复造轮子;
所以架构腐化了只有重写,没有重构。
重写代码和重构代码最大的区别在于:重写的代码你还可以再犯之前犯过的错误。
一套代码库,刚刚开始用的时候,一定是非常优秀的,新增特性也比较方便,但是时间长了以后,嵌套和耦合就会越来越复杂,直到新增特性的工作量大到不能忍受,才会想着去重构。
不过,前面有说过,在华为没有重构,只有重写。在十多年前,没有那么多代码检测的工作可以使用,架构的看护,主要靠的就是人工。
代码写得有没有问题,满不满足设计,全是靠人力。但总有人力忙不过来的时候,这时候只有马马虎虎,草草了事。时间一长,全局变量满天飞,整个类都是public,甚至别人的private接口都被改成public了。
直到新增一个特性,写几十行代码,发现影响其他多个模块的功能,这时候这套架构就不能用了。
现在,已经有了门禁系统,有了很多的代码检测工具,按道理讲,架构应该就能看护住了,实际上不是这样的。
举个例子,现在需要新增某个特性,给了1个月的工作量(ps:有人会说,这里工作量预估明显有问题。实际上,没有问题,一套新架构拿出去吹嘘的就是能减少工作量,所以不会给太多的工作量)。
但是,具体分析的时候发现,有一个种方法,可以在1个月内搞定,但是要破坏架构。另一个种方法,按照架构要求要新增一个模块,用这个模块作为代理才能搞定整个特性,需要的工作量变成了10个月。
如果,你负责架构看护,你一定会赞成第二种方法;如果你是负责项目交付的,你一定会赞成第一种方法。
然后,架构师和交付经理吵一架,闹到领导那里去。大多数没有追求的领导会说:“项目成功是为了支撑商业成功,如果商业不成功,架构再好也没用,所以我支持第一种做法,但是等项目交付以后,需要把这技术债还上”,架构就这样慢慢腐化了。
等项目交付以后,谁TM敢动这个代码?没有搞出问题,算你运气好,搞出问题得背全锅。
从上面的案例可以看出,华为的中低层管理总是对自己的位置负责的,架构师负责一套代码,可能要负责五六年。
而交付经理,可能一两个版本交付成功后就高升了,所以他哪管什么架构腐化,以后在不在这个部门还难说。中层领导同样的思维,几个产品成功以后,可能就到其他研究所去当部长了。
但是,上述的这一切最终都会转嫁为底层员工无休止的加班和逐渐增高的发际线。
全文完,觉得不错的话点个赞或者在看吧!
最近几年软考热度持续上升,报考人数自2022年以来逐步由90w上升到120w再到137w,明年估计只会更多。。。
这里分享一个极客时间软考资源包,其中包含中级以及高级软考资料,有历年真题、试卷解析、重难点文档、官方教程、论文范文等。
小编只申请到30个内测名额,扫描下方二维码自取,如果还能加得了客服就说明还有名额,如果无法添加就说明名额已经完了。。。
扫描上方二维码自取