数据管理简史:从人工到人工智能

BOE知识酷 2023-04-11 11:59

知识酷 👆
显示技术 | 显示资讯 | 知识管理

第1402篇推文



编者按:本文比较系统地整理了数据发展的历史,是广大数据从业者丰富自身数据素养的好内容。数管管理的历史更早可以追溯到古巴比伦,早在公元前4500年,巴比伦就出现了人口、土地、牲畜、财产的统计。此后的古埃及王国、古罗马帝国,以及到中世纪欧洲的许多国家,已经比较广泛地利用统计方法来搜集有关人口、军队、世袭领地、财产、居民职业等资料,并编制了较为详细的财产目录。

一、指尖上的负担

(1800年以前,数据管理0.1)

公元1790年,美利坚合众国举行了一次全国性人口普查,当时美国经济正处于迅速发展阶段,人口流动十分频繁,需要统计的项目繁多,如年龄、性别等,并且还要统计出每个社区有多少儿童和老人,有多少男性公民和女性公民等。再加上统计手段落后,调查员们花了7年半的时间才把数据处理完毕。也就是说,直到快进行第二次人口普查时,美国政府才能得知第一次人口普查的状况。

调查员们终日埋在数据堆里,一天下来,也统计不出几张表格的数据。这个时期数据的概念初步形成,但数据相关工作全靠手工,数据管理工作成为调查员们指尖上的沉重负担。

图 1 埋在数据堆里面的调查员们

二、卡片上的艺术

(1800-1960年,数据管理0.2)

美国第一次人口普查过后,Hollerith深知人工统计数据之痛,发明了分拣机、制表机和记录机,用来记录完整的数据,可以说第一次把数据转变成了二进制信息。一直到1910年-1960年代中期,打卡和制表机都是企业办公的前提条件。1946年2月14日,第一台计算机出世,用穿孔卡片输入数据的方法一直沿用,数据处理也发展成为计算机的主要功能之一。

这个时期数据变成了可以存储的计算机语言,但是计算机速度很慢,仍然需要大量的手工劳动才能运行,主要还是依靠人工处理数据,数据不能长期保存,数据不能共享,数据管理工作依然难以进行。


图 2 工作人员在操作机器

三、磁盘中的储备

(1950-1965年,数据管理0.3)

50年代-60年代中期,主要通过文件系统对数据进行管理。文件系统是一种能够快速检索打卡信息的机械手段。当时适逢第二代编程语言(汇编语言)兴起,程序员能使用字母表中的字母进行编程,而不是使用复杂的1和0字符串,程序初步拥有了可读性,使程序员免于繁琐并且容易出错的计算,因此汇编语言成为了组织用作管理数据的早期方法。

这个时期数据主要以磁盘为存储介质,可以初步实现联机实时处理和批处理,并且数据可以长期保存,但是数据冗余多、共享性与独立性差,仍然谈不上实现了系统性的数据管理。

图 3 用汇编语言编写的代码

四、结构化的飞跃

(1965-1995,数据管理0.6)

20世纪60年代末,美国通用公司研发的第一个数据库系统DBMS诞生,也标志着数据管理进入了一个新的时代。同时大容量磁盘的产生,让数据能够实现大规模管理。在这个时期,一批数据库软件系统出世,数据由DBMS统一管理和控制,第一次实现了数据的结构化,数据有了物理独立性与逻辑独立性,人们可以通过DBMS实现一致的数据处理并减少重复数据的数量。数据可以被联机实时处理、分布处理、批处理,共享性高、冗余度低、易扩充,很大程度减少了数据管理工作人员的人工压力,系统性数据管理初见端倪

五、元数据的萌芽

(1995-2000年,数据管理0.7)

1995年3月,由OCLC(联机计算机图书馆中心)和NCSA(美国国家超级计算应用中心)联合在美国的都柏林镇召开的第一届元数据研讨会上,产生了一个精简的元数据集——都柏林核心元素集(Dublin Core Element Set),简称DC。旨在用一个简单的元数据记录来描述种类繁多的电子信息,达到有效地描述和检索网上图书资源。

DC能较好地解决网络资源的发现、控制和管理问题,1998年9月,因特网工程任务组(IETF)将其作为一个正式标准予以发布(RFC2413)。DC元数据概念的提出,为现代基于元数据驱动的数据管理奠定了坚实的基础,到此,数据管理的序幕才真正被拉开

六、初步认知的建立

(2000-2008年,数据管理0.8)

国外学界关于“数据治理”的认识始于2004年,起因是H. Watson探讨了“数据仓库治理”在 Blue Cross 和 Blue Shield of North Carolina 两家公司的最佳实践,由此拉开了“数据治理”在企业管理中的大幕。同年,非营利组织DAMA协会成立,以提升数据管理行业及专业的意识和教育。

2005年之后,陆续有学者对“数据治理”展开研究,讨论了数据治理环境下企业、政府、医院的职能角色、模型、框架、因素与机制等。2008年国际标准化组织ISO又围绕数据治理和数据管理(ISO/IEC 2008)提出差异化概念。

从这个时期开始,数据管理因其在组织内部和外部管理数据使用上的重要性和优势而受到越来越多的关注,国内外相关组织初步建立了在数据管理上的认知

七、“5V”的驱动

(2008年,数据管理0.9)

2008年8月中旬,在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中正式提出大数据概念和大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据和其相关概念的提出,让数据成为公司战略竞争力,驱动了各大企业在数据管理上的欲望,数据管理工作得到进一步发展

八、监管下的推进

(2008-2016年,数据管理1.0)

2008-2012年这段时间,国内数据管理工作主要还是面向监管报送系统的单纯的数据质量提升。以银行为代表,为了满足监管报送的数据质量要求,各大银行都先后根据1104设计质量检核体系与质量专项计划,旨在提升报送数据质量。

这个时期的数据管理虽然能解决和发现监管上的数据质量问题,但是由于数据管理职能在IT中是分散的,忽略了数据在更广泛的数据环境中的关系,因此还是处于头痛医头,脚痛医脚的水平,难以从整体上提升数据质量。随着IT在银行应用的不断深入,银行建设了大量IT系统并积累了海量数据,如何高效开展数据管理工作,对于公司具有重要意义。2012年7月,国际数据管理协会DAMA出版《DAMA数据管理知识体系指南》一书,一度畅销,也进一步推进国内数据管理走向了正轨。

九、系统中的主数据

(2010-至今,数据管理2.0)

随着MIS、MRP、ERP等系统的产生,企业发现像客户、产品、员工等这些数据总是需要在各个系统之间分享,最早的是外国ERP厂商推出MDM产品,例如Informatica、 Oracle 、IBM、SAP 、微软都采取了自有产品并提供主数据管理解决方案,旨在集中管理单一版本的、完整的和可信任的主数据信息。到目前为止,还有很多企业处在这个时期,例如对于一些制造型企业来说,由于制造产品信息的复杂、数据量巨大、信息化程度不一,目前主数据如何管理仍是很大的挑战。

十、仓库中的标准

(2012-至今,数据管理3.0)

2008-2012年这段时间,国内数据管理工作的重点转向面向数据仓库的数据标准的建立和落地。以银行和大型企业为代表,在Inmon提出数据仓库理论后,2010年左右,各大企业都开始了数据仓库的建设,单点解决数据质量问题已经不能满足需求,需要根据数据标准规范数据仓库上下游数据,实现数据拉通,同时建立完善的数据管理机制,解决数据管理没有管控流程、数据管理与业务流程结合的问题。数据管理3.0引入了数据驱动业务的原则,承认了对协作数据管理的需求,拆除了数据孤岛并且将数据管理责任分散到了更多角色。

十一、服务化与消费

(2018-至今,数据管理4.0)

2018年到未来2020年,数据管理的重点将放在面向数据服务化的数据消费支撑场景。以银行、政府、公安等行业为代表,在数据质量基本得到保障,近几年,在元数据管理技术和平台日益增强的背景下,大中型企业基本实现了自动分析数据资产,同时能够在二代系统的基础上提供数据资产可视与数据服务化能力,数据管理由单纯的内部管理转型为企业支撑业务数字化的必要手段

十二、云与人工智能

(未来,数据管理5.0)

一方面,随着服务的开发,许多企业开始将大部分数据存储和处理转移到云端。公司从传统的单片架构转向分布式混合云架构。云将根据需要为组织提供专用的数据管理资源,数据管理将与底层基础架构无关。它使用新协议的新形式访问媒体边缘和移动设备,用一种新的不断扩展的数据结构、容器和接口,支持数据驱动,例如自助数据准备、自助分析等。未来数据管理方面将会有新的创新,以满足在这些新的混合云环境中保护和管理数据的需求。

另一方面,可以预见,在未来十年内,人工智能将帮助企业识别和分类大量存储数据,并对基本数据管理程序做出例行决策。作为数据管理的助手,人工智能将变得越来越有价值。包括处理、管理和存储非结构化数据;去掉不相关的冗余数据、实现最大化数据集成、确定存储数据的最佳位置等。


图 4 Gartner数据与分析治理和主数据管理成熟度曲线


参考文献

[1]Saul Judah.Hype Cycle for Data and Analytics Governance and Master Data Management, 2019[R].America:Gartner,2019.

[2]Keith D. Foote.A Brief History of Data Management[EB/OL].https://www.dataversity.net/brief-history-data-management/,2018-03-20.

[3]Michael Hiskey.He Who Rules The Data, Rules The World: A Brief History Of Data Governance[EB/OL].https://www.forbes.com/sites/ciocentral/2017/11/16/he-who-rules-the-data-rules-the-world-a-brief-history-of-data-governance/,2017-11-16.

[4]刘桂锋,钱锦琳,卢章平.国内外数据治理研究进展: 内涵、要素、模型与框架[J].图书情报工作,2017,61(21):137-144.

[5]未知.数据处理发展的三个历史阶段[EB/OL].https://wenku.baidu.com/view/a417aa71854769eae009581b6bd97f192379bf13.html,2018-10-06.

[6]蔡春久.数据治理平台工具前世今生[EB/OL].http://www.uml.org.cn/bigdata/201906042.asp,2019-6.

[7]清心悟道.大数据发展历程[EB/OL].https://www.cnblogs.com/qxwd/p/5988640.html,2016-10-22.

[8]大大里.数据库的发展历史[EB/OL].https://baijiahao.baidu.com/s?id=1591609627735692351&wfr=spider&for=pc,2018-02-06.

[9]刘宏仓.数据发展简史[EB/OL].https://max.book118.com/html/2018/0614/172617019.shtm,2017-01-13.

来源:龚菲  DG数据治理 

欢迎关注知识酷Pro

BOE知识酷 欢迎加入知识酷Pro,分享显示行业知识、最新黑科技、办公软件技巧等。
评论 (0)
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 102浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 105浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 152浏览
  •        在“软件定义汽车”的时代浪潮下,车载软件的重要性日益凸显,软件在整车成本中的比重逐步攀升,已成为汽车智能化、网联化、电动化发展的核心驱动力。车载软件的质量直接关系到车辆的安全性、可靠性以及用户体验,因此,构建一套科学、严谨、高效的车载软件研发流程,确保软件质量的稳定性和可控性,已成为行业共识和迫切需求。       作为汽车电子系统领域的杰出企业,经纬恒润深刻理解车载软件研发的复杂性和挑战性,致力于为O
    经纬恒润 2025-03-31 16:48 81浏览
  • 文/Leon编辑/cc孙聪颖‍步入 2025 年,国家进一步加大促消费、扩内需的政策力度,家电国补政策将持续贯穿全年。这一利好举措,为行业发展注入强劲的增长动力。(详情见:2025:消费提振要靠国补还是“看不见的手”?)但与此同时,也对家电企业在战略规划、产品打造以及市场营销等多个维度,提出了更为严苛的要求。在刚刚落幕的中国家电及消费电子博览会(AWE)上,家电行业的竞争呈现出胶着的态势,各大品牌为在激烈的市场竞争中脱颖而出,纷纷加大产品研发投入,积极推出新产品,试图提升产品附加值与市场竞争力。
    华尔街科技眼 2025-04-01 19:49 76浏览
  • 在智能交互设备快速发展的今天,语音芯片作为人机交互的核心组件,其性能直接影响用户体验与产品竞争力。WT588F02B-8S语音芯片,凭借其静态功耗<5μA的卓越低功耗特性,成为物联网、智能家居、工业自动化等领域的理想选择,为设备赋予“听得懂、说得清”的智能化能力。一、核心优势:低功耗与高性能的完美结合超低待机功耗WT588F02B-8S在休眠模式下待机电流仅为5μA以下,显著延长了电池供电设备的续航能力。例如,在电子锁、气体检测仪等需长期待机的场景中,用户无需频繁更换电池,降低了维护成本。灵活的
    广州唯创电子 2025-04-02 08:34 50浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 145浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 133浏览
  • 职场之路并非一帆风顺,从初入职场的新人成长为团队中不可或缺的骨干,背后需要经历一系列内在的蜕变。许多人误以为只需努力工作便能顺利晋升,其实核心在于思维方式的更新。走出舒适区、打破旧有框架,正是让自己与众不同的重要法宝。在这条道路上,你不只需要扎实的技能,更需要敏锐的观察力、不断自省的精神和前瞻的格局。今天,就来聊聊那改变命运的三大思维转变,让你在职场上稳步前行。工作初期,总会遇到各式各样的难题。最初,我们习惯于围绕手头任务来制定计划,专注于眼前的目标。然而,职场的竞争从来不是单打独斗,而是团队协
    优思学院 2025-04-01 17:29 93浏览
  • 文/郭楚妤编辑/cc孙聪颖‍不久前,中国发展高层论坛 2025 年年会(CDF)刚刚落下帷幕。本次年会围绕 “全面释放发展动能,共促全球经济稳定增长” 这一主题,吸引了全球各界目光,众多重磅嘉宾的出席与发言成为舆论焦点。其中,韩国三星集团会长李在镕时隔两年的访华之行,更是引发广泛热议。一直以来,李在镕给外界的印象是不苟言笑。然而,在论坛开幕前一天,李在镕却意外打破固有形象。3 月 22 日,李在镕与高通公司总裁安蒙一同现身北京小米汽车工厂。小米方面极为重视此次会面,CEO 雷军亲自接待,小米副董
    华尔街科技眼 2025-04-01 19:39 81浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦