文章:如何提升编码器及自动化产品的可靠性、一致性、可信度

所有者:TerryWang(呢称); 发布时间:2019-10-02 18:15:52; 更新时间:2019-10-07 15:52:15

阅读所需积分:0; 

简介:本文源自于作者与本企业18年聚焦在一个产品上的实践与总结分享——钢铁是怎样炼成的。  如复一日 产品“好不好”,其实是一个质量可靠性一致性问题。 AI、工业互联网、工业4.0、机器人、无人工厂,数字化工厂,,我们正被一群卖洋产品的”布道传销者”眼花缭乱的新名词迷惑的不知所措,焦虑在怕自己是不是要跟不上了,要被机器人淘汰的边缘。 但是,再先进的技术最

产品“好不好”,其实是一个质量可靠性一致性问题。


AI、工业互联网、工业4.0、机器人、无人工厂,数字化工厂,,我们正被一群卖洋产品的”布道传销者”眼花缭乱的新名词迷惑的不知所措,焦虑在怕自己是不是要跟不上了,要被机器人淘汰的边缘。


但是,再先进的技术最终是要给用户使用的,需要根据面向用户对象的实际使用场景落地的。“长江后浪推前浪,前浪死在了沙滩上”,试用这些新玩意儿,会不会是去做了实验的小老鼠?这其中 ,这些新玩意儿是否能真实为用户使用场景设计的?是否有产品质量可靠性一致性的可以保证?投入产出比真的像卖产品推销说的那样好吗?


在中国自动化行业,讲到编码器和其他自动化产品,关于质量好不好:

“欧洲品牌的比日本品牌的好”?

“进口品牌的比国产品牌的好”?


自动化行业不是在工业?怎么上起了地理课,是以地区划分的?

进口的就一定比国产的好吗?这个什么标准的“好”的是怎么回事?

这里面就有一个很大的误区,本文就由此讨论。


“这个品牌传承了多少多少年了”,就算几十年了,一百年了,它大部分时间是在干什么的,跟这个产品有关吗?自动化讲起了故事课,于是,就还真有一位做工控低压电器产品的,去转行写起了历史小说。原来自动化是属于文科班的,擅长写故事。


时间久,要看积累并沉淀的是什么。


自动化行业为什么常常会听到一些“不太工业”的话?


评判产品质量,常常会听到是以自己使用过的或者听说过的传话,却拿不出比较的实际标准。


因为每个工程师做的自动化项目往往是几个类似的场景,不具备统计学意义,就容易“以偏代全”的讲不工业的话了。我们需要理科生的声音,而不是文科生的。


那么,所谓的这个编码器好不好?所谓的谁家的性价比高,它到底有没有理科生的标准?工业制造的语言?


产品的应用标准分为“功能”与“性能”,功能就是可以用,但是一致性那么样,可靠性怎么样?我们一般说的“好不好”就是这个“性能”与可靠性、一致性的保证。本文重点是可靠性一致性的实践,只有把可靠性一致性做好了,把诚信竖起来了,才会有客户对你的可信度。这是一个长期积累的、完整的从用户场景设计开始的可靠性设计与管理工程。


千里之堤,溃于蚁穴——自动化产品对于控制系统的质量可靠性的重要性


1.设备系统的复杂化:随着技术的发展,一个控制系统中的元器件越来越多,系统相关的任何一部分失效而导致整个系统失效的机会增多。设备的复杂性同时也降低了设备的可靠性,使得故障率提高了。


2.中国地大物博行业种类齐全,自动化系统使用的场景越来越多样复杂,产品所处的工作场景面临也越来越多的复杂性。例如强电磁波干扰、电气冲击、高低温、机械冲击振动、灰层、南方沿海地区的高湿度水汽等等,使产品的可靠性受到了影响。


3.产品生产周期上市周期的缩短,因市场竞争激烈。传统的产品都要经过几轮的设计-试制-生产-试验-试用-回馈改进的过程,然后才能设计定型生产工艺定型,然后才能批量生产并交付用户使用。随着市场上创新产品的一波波冲击,市场竞争的加剧,使得这样严格的几轮的流程周期无法适应现代市场竞争的时间要求,从设计开发到产品成熟的周期缩短,要求系统内的每一个部件本身具有高可靠性。


可靠性:

从工程的角度出发,可靠性定义为产品无故障完成任务的能力。


从统计的角度出发,可靠性定义为产品在规定场景下和规定时间内,完成规定功能的能力与概率。


1.产品的可靠性与规定的场景条件是分不开的,这里的场景包括温度、湿度水汽、灰层污染、振动、冲击、运输、安装等等的使用最恶劣的条件及其中几种极限的集合,例如高温的同时高湿度。


2.产品的可靠性与规定的时间密切相关。产品的可靠性对于时间有一个可靠性变化曲线。


3.产品的可靠性还与规定的功能密切相关,还与使用者的素养基本条件与培训程度密切相关,还与使用的其它配置条件密切相关。


可靠性的几个术语:

MTBF——平均故障间隔时间

MR——任务可靠度

MTBCF——致命性故障间隔任务时间。


事实上可靠性工程是从场景的了解熟悉到设计,到供应链的管理与生产,试验与认证,用户使用到18个月的用户反馈闭环,其中贯穿的是诚信体系(企业文化)、一致性保证(质量管理)、失效追溯归零(产品一品一码的可追溯)


可靠性工程流程:


1.产品客户应用场景的从了解到熟悉,

2.依据此应用场景范围要求设计可靠性参数目标,

3.设计、试生产这些产品的长期的一致性保证这些可靠性参数的实现,对上游供应链的管控,对下游用户承诺的诚信保证,ISO9000质量管理体系的建立,ERP及供应商追溯管理体系的建立。如果没有这样的体系,做的设计做的试验跑无轨电车,做错了都不知道在哪里错了。(第一证)


4.产品可靠性参数设计的执行实现,从供应链到生产到售后服务的设计保证。试制与试验。每一个产品有唯一可追溯的一品一码及对应的合格证。(第二证)


5.产品试制功能性成功后的性能测试,并送与外部第三方的对这些产品可靠性参数的认证,认证证书。(第三证)


6.产品销售人员对用户场景的了解与正确选型,出现问题诚信的态度。


7.此认证产品在各种设计的应用场景下使用十八个月后的可追溯性,问题出现后的认知态度,可追溯事件三坐标分析,纠错,


8.多轮次循环的持续改进提高。可靠性实践有长时间的科学管理的积累才是有效的。


归纳

应用场景——可靠性参数目标设计与实现——从供应链管控的长期一致性保证ISO9000——试制试验与生产的持续可追溯性——可靠性实现与第三方认证确认证书——对市场与用户的诚信企业文化——依据用户场景的正确选型——可追溯性的持续改进提高。


可靠性起点:场景——站在用户的场景设计的可靠性才是真实的可靠


没有一样产品它可以覆盖全部应用场景。没有一家编码器厂家市场上什么编码器都能做。工业领域,技术创新产品如果没有可靠性工程的保证,那都是折腾。没有应用场景没有可靠性技术参数要求,讲什么性价比,那是忽悠。


如果没有诚信的企业文化,没有一致性的保证,以忽悠欺骗市场起家的,他讲的,你能信他多少?


 场景:


中国的应用场景与德国工厂的应用场景肯定是有不同的,如果德国产品在中国没有用好,不能责怪中国的场景这个没做好,那个你不会用,而应该是德国的产品设计师没有依据中国市场特点设计。这是依据场景设计可靠性的理念。


德国工厂内的应用场景,与在中国户外使用的应用场景,一定是不同的。都是用德国同一家的产品的系统,与在中国用八国联军与国产混合使用的系统,抗干扰的应用场景一定是不同的。小型伺服电机运动控制的应用场景,与大型起重工程设备的应用场景,一定是不同的。


所以,行业内总有一个“长期在细分领域精耕细作”的说法,那就是针对一个细分领域,先要熟悉用户的使用场景,站在客户的场景与客户利益上设计产品,而不是站在自家样本上推销产品。就算是国际大品牌,他们也是各自有自己的优势细分领域,


这就是从应用场景的了解到熟悉,设计的可靠性。


例如,我所熟悉的海德汉编码器是在机床行业,精密测量行业,电梯伺服行业。


而SICK是在港口机械,重型加工机械。每一家编码器厂家都有自己熟悉的细分领域应用场景。那么,他们到中国来了以后呢,场景是否一样呢?


我将德国海德汉的编码器也用于水利自动化,将一个精密仪器类别的编码器在中国水利自然户外的环境下使用,就会发现在电源供电上的外壳发烫、不稳定,振动大,电气启动瞬间的电磁冲击与雷击感应等等现场场景的恶劣引起的损坏,我不能说这是海德汉编码器质量可靠性降低了,而是我选用的场景不对路了。



在长江口青草沙水库的编码器使用场景:夏日的高温、高湿,台风、振动,雷击、海风盐分的长期户外使用的场景。


一般有两种可靠性设计策略:安全(敏感)报警性策略,与鲁棒性(容错及冗余设计)策略。


安全(敏感)报警策略:


对各种场景的了解有限,为保证各种场景使用的可靠性,采取了故障风险评估预判到报警规避的策略。对于使用者来说,报警提示后依赖人去现场做二次判断,或者干脆就停机。


对于一些通用型大品牌而言,他们很难对每一个细分场景一个个去熟悉,为保持通用性与可靠性的平衡,往往会采取这种安全报警性策略。


但是,过度的标榜“安全性”,过敏的频繁的报警停机影响了自动化使用效率,对于有些操作者会难以忍受而故意忽视这种报警,甚至关闭这项报警停机功能。这种策略的产品设计者是自我保护免责的。你如果关注这些报警会影响自动化的效率,而你如果忽视这样的报警,一旦出现可靠性故障甚至事故,责任是要使用者自己承担。


这就是被某些进口大牌的市场销售常拿来惯用的推卸责任策略,你想找它产品的错误?没门!“用不好一定是你家自己的场景没有按他手册”“EMC没有做好”,或者是“你自己没有看好说明书”。我们经常能听到这些进口代理商的口头禅,他家进口的所谓的“安全可靠性”怎么“好的”,原来是如此建立起来的。


这种“安全性”就像卖香烟,国外香烟的外壳子上都印有各种癌症的图片,他已经警告你吸烟会致癌的,然后继续卖香烟给你,“吸烟致癌”就跟他没有关系了免责了,至于香烟的安全性(会不会致癌)就提高了吗? 


这是一种有可能被偏向于推卸责任的不完整的可靠性设计策略。
在有些场景下的可靠性,正是不允许停机的,哪怕是安全报警了,比如福岛核电站当海啸来的时候,最后一道防水密闭门的关闭,结果失效了海水进入了,比如波音飞机正飞呢,报警了,要紧急的怎么从自动状态转向手动状态,要赶紧查飞行员手册了,来不及了就栽下去了,但是事故发生后波音有人开始仍然在说是飞行员自己没有看手册,是没有培训好,,比如水库在洪水来时的闸门打开流量调节,这时不管有没有报警都必须上了。



鲁棒性(容错性及冗余)设计策略:


鲁棒(Robust)就是可以粗暴地使用。


针对细分领域的应用场景有充分的了解,对于可能出现的各种恶劣环境的集合做提前预判,产品使用的参数范围已经包括了出现恶劣环境的集合下,仍然可以被“粗暴地”使用,或者有第二顶替者(备胎,冗余)顶上去,先保证用户的继续使用。


同时,对于产品内部零件在使用过程中可能会出现的随机性错误提前评估,具有自我容错与纠错功能,这是一种容错性思维去设计产品。例如我们会设计双重确认原则的双回路互检。在安全认证SIL的定义中,两个较低等级的“安全编码器”的组合,包括数据反馈的独立通道,优于一个较高等级的“安全编码器”。故障概率的计算,双败失效的概率低。


对于某些进口品牌,他们无法对于中国使用场景有充分的了解,人工成本太高了,鲁棒性设计往往是采取”过质量设计”与过度拔高参数,这样会使得产品成本售价很高。但是卖进口产品的人他们对用户使用场景也许并不了解,会用可靠性唬人,让用户付出超场景代价。


在我们去德国莱茵TUV实验室做产品可靠性认证的时候,我们看到了这家TUV实验室的座右铭:



——Precisely Right,精确恰当地做正确的事。


这是真正的德国制造的理念,但是某些德国品牌跑到中国来就走样了,因为隔着代理商仗着大品牌的傲气,慢慢脱离了中国用户的场景。


这就是一家企业要做可靠性,就先要有企业文化上的认知统一,企业经营管理的质量管理体系对诚信与一致性的保证。可靠性是站在当前用户场景上为用户利益设计的,而不是卖产品的站在自家产品手册上推卸责任的,“都是用户自己没有用好”那就不是好产品了。只有是站在用户场景上体验并设计、生产的可靠性,才是真实的可靠的。


“都是用户没有用好”,“没有看手册”,“EMC自己没有做好”,不会检讨产品是否是按中国用户场景设计,这些都是某些西洋进口大品牌代理商的口头禅,带坏了整个自动化行业严谨的风气,甚至当某个英文软件的中文版本明明是还没有做好,还不够完善,就会有西洋马屁精出来打掩护怪中国人工程师了,却不惜伤害中国人用户的尊严!有这种态度,这就不是一家好公司,这就不是一个好产品。


美军降落伞的故事:降落伞的初期,可靠性在达到某个概率的时候就遇到了瓶颈,再也难以提高了。哪怕是万分之一的故障率,美军在每次训练演习时,都有士兵因为打不开降落伞而丧命,严重打击了部队的士气。美军就要求降落伞的设计师和生产管理者自己去跳伞试验后,再拿给士兵用。当产品设计师、生产管理者拿自己的生命去体验用户场景的时候,降落伞可靠性的问题“神奇”的解决了。这就是场景体验并设计、生产对于可靠性的重要性。

质量管理体系——诚信、一致性、可追溯性的“持续改进提高”闭环

没有规矩不成方圆,工业的标准化,就是做工业的规矩。

讲工业化的话,做工业化的事。


产品设计、试制、实验、从供应链采购到生产交付,都需要有一个可知、可控的一致性的保证,不然各种实验与设计数据是捉摸不定的,这次做好下次又不好了,不知道问题会出现在哪里。所以,可靠性工程需要有一致性的保证,而且这个数据一致性又需要有诚信的保证。这就需要先要建立一个标准化的质量管理体系ISO9000


很多人误以为ISO9000就是一个认证证书,甚至有人觉得就是花几千块钱买一个证书,这是天大的误会!ISO9000的第一次认证其实很容易,就是建立一个框架,企业从上至下的做一次培训,建立一套文件。但是,ISO9000真正的意义,是企业诚信文化长期培养与工业化科学管理长期坚守,建立一个可记录可追溯的坐标系,可以不断的内审、外审,主动找出问题的PDCA的循环、持续改进提高。(在我公司员工中,超过1/3员工具有经过培训考核的内审员证书。)


——包括从供应链起的ERP、供应商进入审核、供应商每年考核的管理体系。


——包括一个对产品所有功能性能参数的双重确认实验确认,生产流程的记录可知可追溯


——包括产品交付后18个月内的跟踪、反馈闭环、与失效追溯归零,其中需要有每一个出厂产品唯一的一品一码管理。


而最重要的,是对人的培训,是从企业领导的诚信、严谨开始,到每一个员工的对质量可靠性的重视程度。守住诚信与严谨。这都需要一年年的积累,逐渐形成的一种企业文化,并深入到每一个员工的血液里去的企业气质。


企业文化,从领导人做起的诚信、严谨、以客户场景客户利益为思考

质量管理体系ISO9000,持续的年份(五年以上)


供应商审核管理体系,供应链风险评估。

产品每一个功能性能参数对用户负责,双重确认的始终保证

每一个流程的记录数据,并可追溯性管理

产品一品一码,出厂18个月的跟踪、客户反馈闭环。

依据一品一码及生产流程记录的失效追溯体系,MECE分析。



关键的18个月


产品出厂后关键的18个月,故障率浴盆曲线

关于“18个月”我已经在多篇文章中提到过了,这次我们看一下故障率浴盆曲线

1.早期失效期:失效率高,随着时间增加逐渐的降低。原因分析,最主要的就是设计缺陷与体系缺陷。


这一时期的故障失效,除了安装调试时的人为错误,大部分是在设计没有依据用户场景设计的,就已经埋下了地雷,然后就是质量管理体系的问题——供应商原材料零部件的管理缺陷、生产工艺的管理缺陷。


这是启动失效追溯的重点时期,每一个错误都要用MECE法则分析,每一个错误也都是有价值的。


2.偶然失效期:这是产品最好的稳定工作期,失效的原因是外部和内部一些随机偶然的因素引起的,但是需要做数据统计及正态分布图,如果偶然失效的原因比较集中,仍然需要启动失效追溯。

出厂后18个月应该已经在这个故障率稳定时期内了。


3.耗损失效期:随着工作时间的增长,到某个时期又开始故障率增长,这类损耗由于材料老化疲劳、磨损、现场场景过于恶劣而引起的。预测性维护是针对这一个时期的重点,对于可靠性重要的场合,也许会在这一个时期出现前就做更换。对于这样一个时期从什么时候开始,需要产品设计厂家与用户共同评估。


因此,失效追溯最关键的是抓住产品出厂后的18个月,尤其是针对新产品。 做质量可靠性管理者,对别人的 可靠性失败案例也非常敏感,常常也会拿过来仔细分析,他山之石,可以攻玉。


做好产品质量需要有定力,是企业文化


现在市场竞争越来越激烈,创新的、低价的、打着“进口品牌就是好的”吓唬人的(也许是波兰印度制造的)、布局的资源垄断的、和坚持做好质量的,大浪淘沙究竟哪个更能生存下来?机会成本考量,在采购量大的时候,一次两次的不靠谱在总采购量中的比例不高,机会成本损失不大。在采购量减少的时候,即使一次两次的不靠谱就会显得在比例中很高了,损失比例大了,心理状态压力大了,就会选择质量好的供应商靠谱的采购。最终,是坚持把质量能做好的活下来。这就是市场经济的普遍规律。


“除非这个产品已经全部被淘汰了,只要这个产品还在市场上有人要买,就要继续把它做好”。止于至善,这就是一家企业做好质量可靠性的定力。创新,是要做第一家;做质量,是要守住做最后一家。这是企业文化。


关于质量体系,我们可以用两个“证书”向用户展示:


1,由第三方认证的ISO9000证书,而且可以知道起始年及持续时间(五年以上,因为需要长期习惯培养及持续改进提高的几个轮次循环)



2,每一个产品的一品一码合格证。每一个产品的编号码都是唯一的,由两部分组成,一部分是序列,另一部分是随机防伪码,合格证与编码器上的激光打标码一致,并数据记录保存,表明可以发现问题后的可追溯、分析、改进、提高。




有了质量可靠性一致性的保证,我们才可以进行下一步的可靠性参数的实现与认证。


世界上最怕“认真”两个字,方法对头,认真去做,我们中国制造是一定可以做好产品的!


文章来源:AQ编码  @Q裘奋 上海精浦  

直驱与传动

https://mp.weixin.qq.com/s/VA5_SSG1rJMdvtoZwRTi1w