谈工业数据建模!

智能制造IM 2021-12-14 20:30


       导读

这是我正在撰写的新书中的一节。从某种意义上说,是我在宝钢20年实践的总结。相对系统地阐述了我对工业数据建模的认识。全文约4500字。


文章来源

本文作者郭朝晖老师,优也首席科学家,前宝钢研究院首席研究员,中国工业智能领域权威专家,公号蝈蝈创新随笔。






工业界使用的模型本质上有两种类型:一种是研发设计阶段的建模,目的是生产出与模型一致的物理产品。这时,一般是先有数字世界中的模型后有物理世界中的实体。另外一种是针对特定客观对象的建模,目的是让模型与客观对象吻合。这时,往往是先有物理世界中的对象,后有数字世界的模型。本节讨论的是后一种建模。这种模型是参照实际数据建立的,人们希望模型的结果与实际数据吻合。
 
针对特定物理对象的数据建模有两个层次的用途:一种是模型的正向应用,用于预测或计算某个变量;一种是模型的反向应用,用于优化和控制。前一种用途的模型不一定采用因果关系,而后一种用途的模型则要符合因果关系。
 
01

模型应用的场景


完整地理解模型的重要性,就要理解模型的局限性。我们前面曾经谈到,模型都是有误差的,这很大程度上限制了模型的应用。在维纳的理论中,通过反馈来应对模型的误差问题。传统控制论的模型,往往针对线性系统。线性系统往往适合用参数变动比较小的场景下。但智能时代的模型,往往针对的是变化范围变化较大的场景。这样的场景,往往是非线性的。
 
所以,基于工业数据的建模,往往面对的是大范围和高精度的矛盾。下面我们会讨论:这样的矛盾是如何产生的,又是如何解决的。
 
02

数据建模的基础


很多人认为,工业数据建模的原因是“原理不清楚”。事实上,工业对象都是物理对象,都符合自然科学的规律。工业对象是人造对象。人们建立物理的工业对象时,往往也都是在科学原理的指导下做成的。
 
有些人不明白:既然科学原理清楚了,为什么还要建立模型。工业人建立模型的原因有两个:首先是科学模型是抽象的、工业模型是具体的。从抽象走到具体,需要给出若干参数。而这些参数并不一定容易获得。其次,科学原理针对的都是简单对象,工业对象却往往是复杂的系统,需要大量的参数。参数多的问题是:如果参数准确度不高,理论模型的精确度就会低到难以忍受的程度,无法满足工业生产的需要
 
下面给出一个形象的说法:某个工业对象可以用函数Y=F(X)描述,假设它的理论模型是。应用模型时必须依靠现实中能够获得的数据。现实中,X往往是无法准确、及时获得。这时,人们要设法在可以得到的数据中,寻找一些与X相关的变量,如Z。于是,现实的数据模型往往就变成Y=H(Z)。
 
某厂发现:一种材料的合格率与生产这种材料的班组有关。事实上,合格率与某个工艺参数有关,不同班组采用的工艺参数不一样。但每个班组采用的参数不同、也没有记录。所以,人们看到的是合格率与班组有关。在这个例子里,工艺参数就是X,而班组就是Z。
 
人们经常发现:材料的性能与生产的季节相关。本质上,材料的性能与生产材料时的温度、湿度、空气流动的综合情况有关。在这里,温度、湿度、空气流动情况是人们需要的X,而生产季节就是Z。
 
人们预报钢水温度时,采用了一个经验做法:如果盛放钢水的钢包是第一次使用,则钢水温度降低5度。真正的原因是:钢包第一次盛放钢水时,钢包壁是比较冷的,钢水温度降低得更快。但是,人们容易得到使用次数的参数,却不容易得到钢包壁温度相关的参数。
 
变量的选取是非常重要的。变量的选择不同,最终的模型就不一样。其中,一个重要的差别是:模型的精度和适用范围不一样。对科学理论模型来说,模型的精度高往往意味着适用范围大,而现实的模型则不一定。从这种意义上说,模型精度未必是是越高越好。
 
工业企业追求稳定,而模型往往用来应对不稳定的工况。工况稳定的时候,参数波动的范围往往较小,简单的线性模型往往就可以奏效。复杂模型往往用于不稳定的场合。用于不稳定的场合时,对模型适用范围的要求就会比较大。
 
有些人开发的模型精度比较高,却不能得到生产厂的认可。背后的原因是:模型在生产稳定的时候精度很高,在生产不稳定的时候精度较低。由于多数时间的生产是稳定的,模型的平均精度往往较高。但是,生产稳定的时候,工人对模型没有需求;工人对模型有需求的时候,往往是生产不稳定的时候。
 
模型精度和适用范围的矛盾,是建模时最常见的问题之一。
 
03

工业大数据时代的机会


大数据时代的重要机会,就是可以用简单的方法建立好的模型。
 
从A地到B地时,要找到一条速度最快的路径。理论上讲,建立相关模型时需要给出许多参数,如距离、行驶速度等。而行驶速度,受到各种不确定因素的影响。在大数据的背景下,这个问题就容易解决了:看看其他人怎么走的、花了多少时间。找到合适的走法,按照他们的路子走就是了。为了提高精度,还可以根据日期、时段和道路事情情况做些修正。
 
事实上,工业大数据的方法,早已出现在前人的实践中。这类方法的基本思路就是:找一个类似的做法,在此基础上进行修订。
 
钢水冶炼前,需要给出合适的工艺参数。计算过程涉及到很多参数,不容易算对。解决这个问题的思路:先从历史数据中找类似的成功案例。以此为基础,根据案例炉与本炉次的参数差异进行修正。
 
热轧带钢轧制结束后,需要确定冷却水阀门的打开组数,以便冷却到特定的目标温度。在冷却过程中,冷却速度受钢种、厚度、起始温度、冷却目标温度、冷却水温度等多个因素的影响,纯粹的机理模型很难准确计算。解决问题的办法是对带钢进行分组,在每个分组内确定一组与冷却速度有关的参数。在此基础上,对具体带钢参数进行变换、得到对于的冷却制度,并根据实测结果对参数进行修订。在某些钢铁企业,响应的分组有几万个。
 
我们注意到:上述方法其实解决了模型的应用范围大和精度要求高之间的矛盾。外表上看,模型适合于各种产品、应用范围很大。在这个范围内,模型本质上可能是非线性关系。但是,通过寻找类似的案例,就自然地回避了非线性问题。而历史的案例,本质上是实践积累的结果。具体地看,非线性模型本质上是由若干个小模型组成的,每个模型的应用范围很小。这样,就可以在每一个小的范围内设法提高模型的精度。在这个小的范围内,参数的影响往往可以用线性模型或者广义线性模型近似。在范围足够小的时候,人们就可以采用反馈调节等手段,进一步提升模型的精度。
 
我们曾经提到:工业对象复杂、对精度要求高的时候,知识往往来自于实践。上述办法本质上就是把实践中行之有效的做法记下来,用于指导下次的实践。从本质上讲,这种办法与PDCA持续改进的思想是一致的。但这种持续改进是由计算机自动完成的。
 
对从事算法研究的人来讲,上面的思想其实并不新颖。所谓近邻方法、CBR方法、模式识别、R2R等方法,基本上就是这个思路。但是,在过去数据基础有限的条件下,这些方法不一定能用好。比如,人们可能找不到相同或者类似的案例。
 
在笔者看来,工业大数据的根本优势是数据的质量好。质量好的一个方面,就是数据分布范围大,覆盖了各种可能发生的情况。这就是所谓 样本等于全体在这样的前提下,就总能从历史上找到类似的案例。所以,大数据的本质优势是数据来源全面,而不是数量多到什么程度。如果数据存储得足够久、场景存储得足够多,新问题就会越来越少,这类方法就容易走向实用了。
 
以设备故障诊断为例。针对单台设备研究问题时,故障样本就少,甚至每次都不一样。但是,如果把成千上万台设备的信息收集起来,情况就不一样了:每次出现问题,都容易在历史数据库中找到类似的案例。这时,人们研究的重点,往往是如何利用理论的指导,更加准确地寻找类似案例、更加准确地修正。
 
“戒烟最容易了:我都戒过100多次了”。
 
从事数据建模工作时,往往就会遇到这样的问题:用一批数据建立数学模型,结果非常理想。但不久以后,精度却很快降低下去、无法继续使用。所以,许多结果很好的学术论文,在现实中却是没有用的。为什么会出现这样的问题呢?
 
有个小朋友说:穿红裙子的人是我的妈妈。在特定的时间、特定的地点,小朋友的话是正确的。但如果换了一个场景、换一个日子,这个判别标准可能就错了:妈妈可能不穿红裙子了,穿红裙子的女士也可能有很多个。
 
数据建模的失效常常也是类似原因导致的:当场景变化时,模型很容易失效。要解决这样的问题,必须综合运用多个方面的特征。
 
许多人脸识别算法非常成功。有的算法在人脸上找到了一百多个特征。识别时综合考虑这些特征,就不容易出错了。有些罪犯过了几十年、相貌发生了很大变化,机器仍然能识别出来。
 
在大数据时代,数据的完整性很好。人们有可能找到若干独立的特征进行综合。这样,模型识别的准确率就大大提高了。

04

第四范式与科学规律发现


自然科学规律本质上也是用数学模型描述的。自然科学规律的特点是:模型精度高、适用范围大。我们前面曾经提到,经典科学原理往往有个特点:变量的数目非常少。这背后有个重要的原因:
 
科学结论都是需要经过严格检验和论证的。按照科学哲学的观点,科学理论的基本特征是可证伪。所谓的证伪,就是理论上存在一种验证办法,如果验证结果与理论不符,就可以证明理论是错的。如果一个理论涉及到因素,就容易证伪。
 
复杂问题的影响因素多,不容易严格论证。例如,新药的开发困难,就与此有关。在大数据时代,这类问题可能得到改变。图灵奖得主吉姆·格雷(Jim Gray)将科学研究分为四类范式(Paradigm)即实验归纳,模型推演,仿真模拟和数据密集型科学发现。其中,最后一种就是通过大数据发现科学知识。
 
理论上讲,许多工业过程都可以用科学公式来描述。但现实的影响因素太多。化工、冶金等行业的一种典型的现象是:在同一个生产过程中同时存在着几十种化学反应。每个化学反应都可以用简单的化学反应方程来描述。但反应之间互相影响,许多参数会动态变化、无法准确确定,整体的化学反应过程就很难准确描述。
 
钢铁材料中的很多物理和化学变化是在固体中进行的、反应过程不充分、不彻底。故而导致产品质量与工艺过程密切相关。钢铁产品的力学性能是多种元素的含量和工艺参数综合影响的结果。力学性能与影响因素都是可以测量的物理量,而成分和工艺可以决定性能。理论上讲,存在一个科学的公式来描述性能与成分、工艺的关系。
 
对于这样的情况,传统的办法很难建立准确的模型。除了问题本身复杂外,一个重要的原因就是许多干扰是不可见的。这就会对模型的验证带来巨大的困难。
 
在大数据的背景下,为解决这类困难提供了可能。一个重要的原因是:当数据量足够大的时候,随机干扰是可以通过平均的方法滤除的。这相当于数据的精度可以大大提高。同时,大数据还可能为人们提供较好的样本分布,有助于复杂问题的解耦,即把复杂的、变量多的模型简化成若干变量数目少的简单模型。模型简单以后,也便于科学地验证。
 
模型简化的过程,其实是一个猜测和排除的过程。这一点和传统的科学研究非常类似。是一个循环往复、不断深入的过程,需要不断地进行定性判断和定量的估计。在这个过程中,科学知识和数据中反映出来的现象可以共同起作用。人的经验也是非常重要的:优秀的专家往往“猜得准”,能够提高研究的效率和成功率。
 
需要特别指出的是:这样的研究并不能保证成功。成功的必要条件是数据本身决定的。一定数量的科学实验和仿真研究也是必要的。

2021中国工业互联网应用论坛


长按下图二维码报名
制造企业6个免费参会名额
智能制造IM 智能制造IM是e-works数字化企业网联合中国人工智能学会智能制造专业委员会、湖北省人工智能学会共同打造,为您带来智能制造领域前沿的资讯、技术、教程和实施案例.
评论
  • 车机导航有看没有懂?智能汽车语系在地化不可轻忽!随着智能汽车市场全球化的蓬勃发展,近年来不同国家地区的「Automotive Localization」(汽车在地化)布局成为兵家必争之地,同时也是车厂在各国当地市场非常关键的营销利器。汽车在地化过程中举足轻重的「汽车语系在地化」,则是透过智能汽车产品文字与服务内容的设计订制,以对应不同国家地区用户的使用习惯偏好,除了让当地车主更能清楚理解车辆功能,也能进一步提高品牌满意度。客户问题与难处某车厂客户预计在台湾市场推出新一代车款,却由于车机导航开发人
    百佳泰测试实验室 2025-01-09 17:47 61浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 108浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 113浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 91浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 125浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 112浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 131浏览
  • 1月9日,在2025国际消费电子展览会(CES)期间,广和通发布集智能语音交互及翻译、4G/5G全球漫游、随身热点、智能娱乐、充电续航等功能于一体的AI Buddy(AI陪伴)产品及解决方案,创新AI智能终端新品类。AI Buddy是一款信用卡尺寸的掌中轻薄智能设备,为用户带来实时翻译、个性化AI语音交互助手、AI影像识别、多模型账户服务、漫游资费服务、快速入网注册等高品质体验。为丰富用户视觉、听觉的智能化体验,AI Buddy通过蓝牙、Wi-Fi可配套OWS耳机、智能眼镜、智能音箱、智能手环遥
    物吾悟小通 2025-01-09 18:21 85浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 131浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 111浏览
  • Snyk 是一家为开发人员提供安全平台的公司,致力于协助他们构建安全的应用程序,并为安全团队提供应对数字世界挑战的工具。以下为 Snyk 如何通过 CircleCI 实现其“交付”使命的案例分析。一、Snyk 的挑战随着客户对安全工具需求的不断增长,Snyk 的开发团队面临多重挑战:加速交付的需求:Snyk 的核心目标是为开发者提供更快、更可靠的安全解决方案,但他们的现有 CI/CD 工具(TravisCI)运行缓慢,无法满足快速开发和部署的要求。扩展能力不足:随着团队规模和代码库的不断扩大,S
    艾体宝IT 2025-01-10 15:52 82浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦