华为是怎样开发硬件的——问题攻关
因为世界上没有完美的东西,所以就算再高的水平开发出来的产品也不可能像蒙娜丽莎一样完美无缺。所以不管大问题,还是小问题,都可能有问题。
第一部分、网上问题造成的三种后果:
1、 网上事故
2、 网上问题
3、 单板返还
网上事故
最严重的当然是“网上事故”,网上事故一般是造成“安全事故”、“客户损失”、“客户投诉”。等等情况。
最严重的网上问题,自然是“安全事故”,危及客户人身安全。
例如曾经有一个海量级发货的设备,曾经因为修改背板时,动了一条电源线的走线。这个电源线,被修改后,隔着绿油与机框的金属件,碰在一起。由于绿油本身有一些绝缘的作用,所以在研发测试和生产测试的过程中并没有暴露这个问题。
但是由于在运输过程中,震动等原因,造成绿油在此过程中被磨损。在客户出上电后,有的设备出现的了短路,发生了烧板的情况。
液态光致阻焊剂(俗称绿油)是一种保护层,涂覆在印制电路板不需焊接的线路和基材上。目的是长期保护所形成的线路图形。
这是非常严重的情况,如果着火,发生火灾,在运营商的机房,那是非常严重的事故。
但是,这种问题发生的时候,已经各种机框和单板发往五大洲,上百个国家。去解决这个问题,付出了非常惨重的代价。
网上事故的另外一种情况,是造成运营商的业务中断;按照话费一分钟0.6元计算,一个省的运营商的用户都是千万级,甚至亿级的。如果造成客户的一分钟的业务中断,带来的损失,如何计算?
正式由于这个原因,所以大多数运营商的设备,都有备份机制。例如核心侧设备的内部交换模块,一定是1+1冗余备份的;如果是DSP资源,一些信令处理单元一般都是N+1备份的。这样如果出现单点故障,既不影响用户业务,也不影响设备的容量规格。
第三种情况,就是客户投诉。有可能虽然没有造成什么严重的后果,如果客户投诉了,这个问题也会比较严重。例如,新机框和新单板邮寄到运营商处。这是出现了,电路板插不进去的情况,自然客户会非常恼火,觉得非常影响公司的品牌形象。那这个事情就会非常大。或者很早以前,任老板在现场的时候,某四川移动的领导,说“你们的设备还不如大唐好看”。于是,结构部的人就倒霉了。
网上问题:
如果网上出了问题,那么一定通过一些手段,例如原先设计好的一些“可维护性”、“可测试性”的软硬件设计,尽量的去定位问题。
当然这些措施都不能影响客户的正常业务。
另外,会有一些寄存器,或者一些日志,去查看设备异常的记录。还可以查看一些设备的“临终遗言”。临终遗言,会利用处理器复位前,向存储区域存储的关键信息,便于后续去发现和解决问题。
单板返还:
一线交付的人员一般都会抱怨:“你们研发都是三招:复位,下电,换单板”。
其实网上问题分析,如果已经用上这三招了,那说明这个问题已经比较严重了,说着基本上是硬件问题了。
可是“单板返还率”是非常重要的KPI,决定着大家的“考评”。所以维护人员都希望单板不要返还,或者不要记入指标。如果真的硬件已经不能正常工作了,那么一定会操作这个单板返还到实验室,进行失效分析,找失效原因。
以上不管是哪个级别的问题,哪怕是实验室发现的一些问题,都非常重视。因为如果任何一个问题,都可能造成不可预见的效果。所以对每个问题都刨根问题,分析彻底。
另外就是在做一些试验(EMC、环境),或者在测试的过程中,发现和暴露的问题,都会当做网上问题一样重视,进行一些问题的攻关。为什么呢?
因为有一个理论,问题越早解决,所付出的代价越小。
问题攻关的三个信条:
1、 凡是“实验室”问题,如果不解决的话,一定会在网上出现。
2、 凡是出现过的问题,一定可以被复现。
3、 凡是不能复现的问题,一定是没有找到复现的规律。
案例1、当时有一款NetLogic的处理器(NetLogic的网络处理器来自RMI。RMI收购了处理器创业公司Sandcraft,它本身又被NetLogic购买。后来NetLogic被博通收购),出现了器件失效的情况,但是网上还没有出现类似的情况。
但是,有没有找到规律,是如何让器件失效的。于是双方进入了扯皮阶段。但是通过X光照射,发现失效的器件是焊盘开裂。但是是什么让焊盘开裂呢?当时怀疑了应力,高低温。试了各种措施,但是始终没有答案。
后来大家讨论和试验的过程中,就有同事发现,单纯的低温和高温,都不足以引起器件失效。但是当高低温经历次数过多之后,器件失效的概率明显提高。后来这个同事通过多次试验,反复地使用热风枪和液氮,加速器件的老化。就非常容易出现焊盘开裂的情况。
当拿着这个结论再去找Netlogic时,对方只能投降,承认问题,同意修改器件的工艺。
非常说明问题的两件事情:
第一, 后来实验室出现故障的单板,基本都是厂家改进工艺前的问题。
第二, 另一个发货量很大的产品,在2年后,网上出现大规模这个问题的单板。
案例二、如果在试验中发现问题,一定会把问题分析清楚,或者把问题解决掉。也许这个问题解决很难,经历时间很长。但是这个问题一定把记录下来,根据优先级把问题最后解决掉。
例如曾经一个同事在做试验的时候,发现三极管有漏电流。
理论分析之后,由于三极管作为开关管使用,所以理论分析不可能产生这么大的电流,导致电压变化;把三极管更换成MOS管,也无济于事。
由于这个漏电流是在低温的时候才会出现的。所以当时就用液氮,让三极管处于极其低温的状态(-10度以下),试验中温度情况也差不多在这个范围(-40度到0度)出现问题。
但是经过两周的试验,都没有找到规律,偶尔会复现一下问题,完全没有规律。
我跟那个同事觉得非常费解,当时就观察天气,觉得这个三极管的漏电流感觉与天气有关。如果阴天,就容易复现,如果晴天就完全不复现。
通过这个规律,我们开始怀疑“湿度”作祟。
后来,我们通过增加器件的湿度,果然非常容易复现问题。
把我们的结论去找厂家,厂家确认SOT封装的器件,在高湿度低温的前提下确实会有漏电流的现象。这个漏电流不是通过PN节流走的,所以跟PN节的漏电流的规律完全不符合。
而是从SOT32的塑料封装上漏走的电流。
后来通过调整电路参数,规避了这个问题。
所以整个分析和试验的过程,哪怕是极端的环境条件下的问题,也绝不放过。
其实产品的问题攻关,就是这样的,扎扎实实的解决每一个问题之后,产品质量才有试制性的提升。
形式:
1、攻关组:任何问题攻关,为了表示重视,一般都会成立个什么问题攻关组。就是把相关的人,还有有经验的人走组织起来,一起参与讨论,这样可以拓宽思路,同时丰富经验。避免钻牛角尖,或者无头苍蝇。
2、例会:重大的问题攻关,一定是每天例会,把前期讨论的问题汇总跟踪,把每项措施对应的结论记录下来,明确下一步的措施。
3、日报:这种问题攻关,一定是领导重视的,所以每天都会发布进展。当然领导也会看,偶尔也会发现很久没有进展,之后会调配资源,协调兵力。
4、总结:问题解决之后,一定把中间的九九八十一难,整理成案例、培训,给大家分享。这样所有的同事,虽然没有亲身经历这个攻关过程。可以通过分享,学习相关专业知识,和问题解决的思路。得到提升。
问题攻关是痛苦的,问题突破了也是非常有成就感的,痛并快乐着。
最后两句话:
越是不舒适区,其实就是你成长的机会。
越是困难的时候,越是要咬牙顶住;只要你坚持,你离成功永远都只有一步之遥。