对于数据库,大家应该都不会觉得陌生。作为重要的基础软件,数据库在我们的工作和生活无处不在。最简单的,我们电脑里有很多的excel表,其实也可以算是一个“微型数据库”。
从定义上来看,数据库,是一个存放和管理数据的仓库。或者说,是一个数据集合。那么,我们硬盘上也有大量的数据,是不是硬盘也是一个数据库呢?硬盘是一个硬件。基于硬盘构建的文件系统,存储了大量的数据,但这些数据是以不同类型文件的形式存在的,彼此独立。而数据库是一个软件层面的概念。它对数据进行了登记和整理,形成了一个整体系统,既包括了数据,也包括了数据之间的逻辑关系。简单来说,如果有一个仓库,你往里面放了各种类型的物品,例如家具、花草、书籍等。那么,硬盘就像是这个仓库,文件就是这些物品。
如果你在仓库里划分了一个区域,安排了一个管理员,负责存放物品并进行登记。那么,这个区域(这套体系),就是数据库。
广义的数据库,是一种数据集合。我们口头上所说的数据库(狭义),大部分是指那些用于搭建、使用和维护广义数据库的系统软件,叫做数据库管理系统(DBMS)。数据库管理系统对数据进行统一控制管理,以保证数据的完整性和安全性。它还具有对外的标准接口,方便其它应用软件对数据进行读写操作。
我们比较熟悉的数据库管理系统,包括MySQL、SQL Server、Oracle、DB2、Redis、MongoDB等。数据库是信息时代最重要的基础软件之一,地位仅次于操作系统。如今,大量的信息化系统遍布社会的每个角落,每时每刻都在产生海量的数据。如果没有一个高效的系统和平台对这些数据进行统一管理,那么,效率就会下降。数据库存储了海量的多类型数据。用户可以通过数据库,创建数据、查找数据、修改数据、删除数据、分析数据、共享数据。对于个人、企业甚至国家部门,数据库有着不可替代的作用。现在整个社会都在讲数据价值挖掘。AI的三大要素里,也包括了数据。数据的价值在提升,数据库的价值也随之提升。一个优秀的数据库管理系统,需要具备以下几个方面的优势。
数据库涉及到大量的数据读写操作,所以,性能就显得非常重要。
如果数据库的用户少,问题倒是不大。但是如果用户多,例如12306、淘宝双11等场景,瞬时并发读写特别大,就要看数据库是否能hold得住。
这里就要提到著名的ACID(原子性、一致性、隔离性、持久性)特性。
原子性(Atomicity):为避免纠纷,数据库中的事务执行被视作原子不可再分,事务(例如转账)中的操作要么全部执行,要么失败回滚(Rollback)。一致性(Consistency):为保证业务逻辑的一致性,数据库通过设置约束和触发器来保证其完整性约束不被破坏,即每个事务能够看到的数据总是保持一致。隔离性(Isolation):为防止事务之间的脏读、幻读、不可重复读,数据库通过加锁,保证多个事务并发访问时,事务之间是隔离的,互不干扰。持久性(Durability):为防止意外事故(例如断电)导致数据缺失,数据库保证事务对其所作的修改被永久保存,不会被回滚。现在业务需求变化很快,数据库的数据很可能迅猛增长。所以,数据库也需要具备一定的扩展性和弹性,能够灵活地变大或者变小,满足需求和成本之间的平衡。数据安全的重要性,无需多言。一个优秀的数据库,需要拥有完善的安全机制,保护数据免受未授权的访问,以及来自外部的攻击。
数据库也需要有完善的备份和恢复机制,在极端情况下,能够快速恢复到最近的状态。
数据库需要遵循开放标准的API,使得自身更容易与其它应用和服务集成,促进数据共享和互操作性。总之,数据库的作用远不止于简单的数据存放。作为一个核心组件,它必须经过严格且缜密的设计,能够为各类应用程序提供稳定可靠的支撑,保障数据的安全性、完整性和高效利用。数据库的种类很多,分类方法也很多。我们不妨就以历史时间线的维度,对几种主要的分类方式进行介绍。
上世纪60年代,随着计算机技术的不断发展和成熟,越来越多的大型机开始应用于金融证券、航空航天、工业制造、军事国防等领域,掀起了一场信息化革命。
有了信息化,就催生了大量的数据。为了更好地管理这些数据,就有人开始提出数据库系统的概念。
1961年,美国通用电气公司的查尔斯·巴赫曼(Charles Bachman),成功开发出世界上第一个数据库管理系统——IDS(IntegratedData Store,集成数据存储),奠定了网状数据库的基础,并在当时得到了广泛的发行和应用。1968年,IBM公司创建了层次式数据库管理系统IMS(Information Management System),是世界上首个商业数据库系统。又过了两年,到了1970年,IBM公司的研究员埃德加·弗兰克·科德(Edgar Frank Codd)发表了一篇名为《大型共享数据库数据的关系模型》的重磅论文。在论文中,他提出了数据库的关系模型,开创了关系数据库时代。
1973年,IBM启动了System R项目。后来,在System R项目的基础上,加利福尼亚大学柏克莱分校启动了ingres项目。这两个项目的意义极为重大。1970-80年代出现的多个经典数据库产品,包括Oracle、DB2、Informix、Sybase、SQL Server,都是基于System R和ingres项目衍生出来的。这些数据库产品,极大地助力了当时的信息化浪潮,为计算机的普及发挥了重要作用。数据库有很多种模型。比较原始的,是层次模型和网状模型。比较主流的,是关系模型和非关系模型。关系模型的最大特点,就是可以使用表格来表示实体和实体之间的关系。每一行代表一个实体实例,每一列代表实体的一个属性。关系型数据库中,每个表有唯一的名字。表的每一行代表了一组值之间的联系,称为元组(Tuple)。每一列是实体的描述,具有相同的数据类型,称为属性(Attribute)或者字段(Field)。大家应该注意到了,很多关系型数据库(包括SQL Server、MySQL、PostgreSQL),都有一个SQL。SQL的意思,是Structured Query Language,结构化查询语言。这是一种用于访问和处理“关系型数据库”的标准计算机语言。SQL语句既可以查询数据库中的数据,也可以添加、更新和删除数据库中的数据,还可以对数据库进行管理和维护操作。例如,下面这个,就是一个典型的SQL命令,表示要插入一条数据:INSERT INTO students (id, name, age) VALUES (1, '张三', 20);80-90年代的主流数据库,除了基本属于关系型数据库之外,在业务类型上,也属于事务型数据库(交易型数据库),即OLTP(Online Transactional Processing)。这类数据库主要用于管理实时交易(银行、电商、订票等),主要特点是能够支持大量的读写操作(简短的、小规模),能够确保数据库的完整性和一致性。上世纪90年代末,数据库的发展进入一个新的阶段。非关系型数据库开始崛起。
1998年,卡罗·斯特罗兹(Carlo Strozzi)开发了一个轻量、开源、不提供SQL功能的数据库,即NoSQL。值得一提的是,NoSQL并不是“No SQL”(拒绝SQL)意思,而是“Not Only SQL”(不只是SQL)。NoSQL并非完全替代关系型数据库,而是为了应对Web 2.0时代互联网应用快速增长所带来的挑战。它针对不同的应用场景,提供了更多选择。非关系数据模型并不遵循传统的关系数据库模型及其SQL查询语言。它的出现,能够解决关系型数据库在扩展性和灵活性方面的一些局限性。非关系型数据库包括了很多子类型,例如键值数据库、列族数据库、文档数据库、图数据库等。具体类型和典型产品如下:除了非关系型数据库之外,数据库也从事务性向分析型发展,即OLAP(Online Analytical Processing)。这也是由时代决定的。因为数据除了用于查询和记录之外,要开始为大数据、数据分析等新兴业务服务。分析型数据库允许用户对大量历史数据进行复杂的查询和分析,以揭示隐藏在数据中的模式和趋势,为上层决策提供支持。需要注意的是,那一时期,数据仓库(Data Warehouse)的概念出现了。所谓数据仓库,就是数据库的一种演进。它集成了来自不同来源的数据,并经过清洗、转换和整合,以便于进行高效的数据分析和报告。限于篇幅,关于数据仓库和待会提到的数据湖,小枣君后续会专门介绍。2010年之后,数据库技术继续蓬勃发展,出现了很多新的趋势。首先,继SQL、NoSQL之后,又出现了NewSQL的概念。NewSQL是一类新型的关系型数据库管理系统,结合了SQL和NoSQL的优点。它解决了传统关系型数据库在处理大规模数据和高并发访问时的性能瓶颈,同时保留ACID特性以及对SQL查询语言的支持,非常适用于需要处理大规模数据和高并发访问的场景。NewSQL的代表产品,包括Google Spanner、CockroachDB、TiDB等。其次,继事务性、分析型之后,出现了混合型数据库(HTAP,Hybrid Transactional / Analytical Processing)。简单来说,HTAP是结合了OLTP和OLAP的优点。它是一种新兴的数据库架构,能够同时支撑OLTP和OLAP场景,避免传统架构中大量数据交互造成的资源浪费和冲突。这个比较好理解。以前都是单机数据库。后来,数据库并发越来越大,对安全要求越来越高,就有了主从数据库,再然后,就是分布式数据库。分布式数据库,数据分布在多台服务器上,通过网络连接协同工作。这样一来,既可以扩展存储和处理能力,也可以提高系统的可用性和容错性。云数据库,是响应云计算的发展,把本地数据库迁移到云端。AI能发挥的作用很多。一方面,可以实现更高的查询和存储效率,并自动化处理各种任务。另一方面,可以分析大量数据记录,标记异常值和异常模式,自动防范恶意访问与攻击,提升安全性。除此之外,AI还可以主动实现数据库的智能调优,提升数据库的整体性能。或者,自动进行系统维护操作,减少运营维护成本,也避免人为错误。最近十多年,国产数据库的发展速度极快。在信创战略的推动下,越来越多的国内企业和政府部门开始启用国产数据库,进行国产化替代。
数据是21世纪最有价值的无形资产。存储和利用数据,对每个人、每个企业、每个政府都意义重大。像数据库、数据仓库、数据湖这样的数据平台,是充分利用数据价值的前提,也是发展AI的前提。相信未来几年,数据库技术还将保持高速发展,涌现出更多的创新。