本文转载自 美林大数据
上文中我们将工业大数据分为公共资源数据、工程类数据、管理类数据和物联数据。其中管理类数据一般也称业务数据,即由业务活动产生的记录。传统的数据仓库理论将业务数据的管理理论和应用模式发展到一个很成熟的水平,目前无论制造企业还是IT公司在谈工业大数据时,更多是按照数据仓库理念在进行企业数据的管理和应用。
美林公司认为传统的数据仓库理论是建立在结构化业务数据的基础上,是工业大数据的重要组成部分之一。其难点在于从千变万化的业务中找到稳定的数据结构,又能方便的支撑业务数据的统计和分析,下面重点阐述业务数据如何从业务中来又如何到业务中去。
数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其核心是数据组织。为了能够对数据进行有效组织,演化出了主题域、主题、子主题等概念,这几个概念是建立起虚拟的数据分类关系,如一颗大树不断的分叉直到挂接到某几个关系相对稳定的数据模型。元数据是数据的数据,用来对数据属性进行定义,比如人的元数据包括姓名、电话、年龄等。数据实体就是数据模型的实体化,比如人的数据实体包括张三、135XXXX5678、30岁等。具体关系如下图所示:
小结一下,业务域、业务主题域、业务子主题域等的划分都是虚拟的,元数据是对业务实体的属性定义(目前我们将编码规则和编码值当成元数据的重要属性进行管理),其目的是为了方便数据实体的查询、检索和维护,都是数据标准的重要组成部分。数据实体对于具体的物理实体,根据应用和管理需要分为主数据、业务数据、主题分析数据。
从业务系统中抽象出稳定的数据结构,一直是业务数据的管理和组织的基础核心,业界主要采用IRP和EA两种建模手段进行数据结构设计。IRP理论从组织机构入手,识别各部门的用户视图(单据或报表),通过对业务单据或报表中数据项的识别和归纳得到相应数据模型;EA理论从主辅价值链入手,从而得到最末端流程,并通过关键活动产生的数据进行分析得到相应的数据模型。IRP相对于EA属于自底向上的轻量级的建模方法,主要解决数据建模问题,EA属于自顶向下的重量级的建模方法,主要解决业务建模、应用建模和数据建模,数据模型只是企业模型的一部分。
美林公司目前采用EA+IRP的方式进行企业数据建模,从企业主价值链入手并导入最佳实践,根据二、三级流程关键活动节点识别核心数据,从核心系统应用入手识别核心数据关键属性和集成关系,从而快速得到企业级的数据视图。
业务数据的查询浏览
业务数据通过线上采集或线下导入进入数据中心后,供业务人员进行查询、浏览,并能支持漫游和穿透。
业务数据的共享集成
由于各业务系统按照各自业务域进行建设,企业价值链的协同势必涉及各业务域之间的数据集成和交互。利用业务数据集中管理将过去点对点的集成变成总线式集成,提升系统集成的效率和可靠性。
业务数据的统计分析
业务数据结构化以后最大的价值是统计分析,将业务记录通过统计变成业务规律用以指导业务改进。传统上我们利用Excel工具就开发了大量的离线数据的统计应用,现在各种BI工具更是提供了在线统计应用能力。
作者简介:于洋,美林数据技术股份有限公司技术总监,国家信标委工业大数据标准编制组成员,参与多个国家大型集团公司数据中心及数据架构设计工作,参与军工制造,电力装备等行业智能制造方案论证与申报工作,拥有多年的信息化建设经验。
更
多
精
彩
请猛戳右边二维码
公众号ID
iCoastline360