第三代分布式数据库(2)——创新之源

IT阅读排行榜 2023-09-20 19:15

本文来源:那海蓝蓝知数行云

■ 创新源自哪里?

数据库的发展,有很多推动因素。如硬件技术、AI技术、架构技术等都会对数据库技术的发展和变迁产生较大影响。但是,我们的思维,仅要局限于此吗?数据库的初心在哪里?

所以,我们需要思考:数据库革命式的创新,又会源自哪里?前面谈到共识协议,解决了数据库系统的系统级高可用的问题,这一问题是数据库的基本问题之一(三高一易)。能解决数据库的基本的、核心的问题,将会对数据库产生重大影响。

第一,创新源自数据库的本质与不足

前面我们讨论了,诸如数据正确性和高性能以及易用性,这些都是数据库的核心问题,但又未被完美解决的,如果能够被完美解决,那么数据库工业将迈入一个新台阶。在2022年的DTCC上,我们就一致性相关的技术做过分享,该技术对于解决数据库正确性、解决并发算法的高性能带来帮助。

事实上,数据库技术的创新,其最大推动力,源自数据库自身的本质(这是用户需求确定的),也源自其巨大的不足(只是这些本质和巨大的不足之处,却容易被人漠视;如至今Oracle并不提供真正的可串行化隔离级别而使用者却习以为常)。

不断从数据库自身的不足上寻求突破,“数据库之未来,就在于专注于本心、本职、本职的创新”。

第二,创新源自与新技术融合

近几年,AI技术大火,同时带动了“AI4DB”大火。数据库技术有望在AI技术加持下,变得更加智能更加易用。

2023年,ChatGPT大火,同时进一步带动了“DB4AI”技术(如向量数据库),也带动了一些“智能助手”类软件。数据库的“智能助手”也火了起来,其背后,是大模型对数据库知识的集成使得“数据库知识平民化”,这将进一步使得数据库的易用性得到提升。

更进一步,如果我们不只把数据库的“智能助手”置于数据库的前端,只用于生成SQL语句或改变数据库的输入等,而是让大模型技术还能接管数据库的输出、能配合数据库的可观察性而实现数据库系统的自动管理和调度,则数据库的易用性会进一步得到大幅提高。

如果我们能不断反思数据库的本质、不断结合新技术解决数据库新需求和已知不足,那么数据库将有一个更加美好的未来。

图5 我们看到了什么?

第三代分布式数据库

分布式数据库的发展,如图6和第一节所述,已经经历了两个阶段。但是第二个阶段的产品,仅仅是做到了“可实用”但不够好用。我们期待,未来一代的数据库产品,能够真正让数据库变得好用起来。

图6 三代分布式数据库核心技术

在三高一易的背景下,需要新一代数据库产品,具备明显区别于前两代的技术特征,如图7,也就是第三代分布式数据库至少需要解决的核心问题包括:极简的易用性、可控时延的高可用性、100%的数据正确性。这也将是第三代分布式数据库的核心特征。

1. 极简的易用性

解决数据库产品的易用性的问题,极简的易用性,包括三个层面的含义:

1.1 第一是易理解性:数据库中涉及的理论自洽可100%解释,即能把相关的知识体系融会贯通而使人信服,不存在知识困惑点而无法理解和解释,这是一个产品体系最基础的部分,能够减少用户的学习成本,称之为易理解性。易理解易学习是对于所有人而言的易用;

1.2 第二是易维护性:数据库产品功能与组件易增减易演进,使得数据库自身具备好的扩展性,这是从数据库内在架构的角度来看待的,它影响着一个数据库产品的可维护性和可长期发展性,称之为易维护性。易维护性是对于内核研发人员而言的易用,如果一个数据库内核不易被长期维护或永生,则建立在该产品上的系统亦将短命;甚至在未来,如果一个软件产品不具备易维护性,则采用类似ChatGPT等技术进行数据库引擎自动编程则未来难以可期;易维护性是对于数据库引擎研发人员的易用,更是对数据库内核引擎的生命维护的易用;

1.3 第三是易使用性:数据库产品能够尽量的自动化、智能化,减少用户的使用、运维、管理成本,减少DBA和专业的设计与开发负担,简化与减少需要用户参与的交互参数,对数据库的输入和输出能够自动分析,对数据库引擎内核能够进行自动监控和智能调度,使得数据库系统具备高度的智能,称之为易使用性。易使用性是对用户而言的易用;

这三个层面从原理、实践角度,从研发和用户角度对第三代分布式数据库做了总结,合称为“极简的易用性”。

2. 可控时延的高可用性

是一个极其复杂且充满挑战的问题,其复杂度不在于理论层面是否完备,而在于架构设计时的所秉承的架构设计理念和工程实现过程中对内核组件的把握程度。

2.1 数据库的高可用性,分为三种类型:一是跨地域高可用性,用以实现异地容灾,Paxos/Raft等共识协议是一种实现异地容灾的技术选择;二是跨节点的高可用性,用以实现计算节点的高可用性,Paxos/Raft等共识协议或是传统的主备复制技术可做技术备选;三是事务高可用性,用以解决事务级别的高可用性问题;

2.2 事务级别的高可用性问题,在于解决Daniel J. Abadi在《Consistency Tradeoffs in Modern Distributed Database System Design》中提出的“PACELC”[1]问题。

用户业务类型丰富,不同类型的业务,对于时延、对于是否在事务管辖下执行,有着不同的需求。纳秒级的应用、毫秒级的应用以及秒级等的应用,有最大时延范围的要求,最大时延是根据业务对时延的不同要求进行类型划分的一种重要方式。而高时延意味着系统面临着“逻辑不可用”(传统数据库的事务尾延迟居高不下使得数据库在逻辑层面达到不可用的程度,而CAP中网络分区事件是“物理层面的不可用”)。

因此,在谈及高可用时,必须增加“可控时延”作为对“高可用性”的限制,这种限制对于数据库架构的设计有着至关重要的作用,不同的时延,需要不同的系统架构,需要考虑不同的因素。例如,传统的磁盘型单机数据库MySQL、PostgreSQL等,一个事务完成的时延,通常在20毫米之内,基本能满足金融业务的需求但不能满足更短时延的应用;但是如果把他们分布式化,或者提高并发压力,则这些系统的时延尤其是P99时延会大幅增长,使得他们很难在高并发场景下被采用。

故此,第三代分布式数据库的设计,需要着重考虑时延而进行设计,而不是像传统的数据库系统先有系统后让应用完成对既有数据库的适配工作,因此可控时延的高可用,是对数据库高可用性的进一步要求。也将成为第三代分布式数据库的重要特征之一。

2.3 可控时延的高可用性,指的是事务级别的高可用性,是事务在物理网络分区发生和较长时延下事务的处理和应对方法,该方法是一套体系化的应对方案,需要在事务管理器中有明确的处理方案;传统的数据库系统对事务的实现方式,主要在于采用并发访问控制算法实现事务的“保序”调度,其缺乏一个事务管理器的角色,对事务进行精细化、一体化的管理,确保事务的可用性得到实施。

3. 100%的数据正确性

解决各种应用对于数据正确性的隐忧,从根本上消除数据的正确性问题,同时兼顾数据库的性能的问题,因此也是第三代分布式数据库的基础、核心问题。

如上三个特征问题,自数据库诞生之日起即存在,一直没有被彻底解决,尤其是数据正确性和性能都被确保的问题(数据正确性和性能这鱼和熊掌可兼得),制约了数据库技术进一步发展。这些问题被第一、第二代分布式数据库所遗留至今久拖未解,势必成就第三代分布式数据库系统。

本节提出的极简的易用性、可控时延的高可用性、100%的数据正确性三个基础且核心的特征,可作为第三代分布式数据库的设计目标。其中,遵照CAP和PACELC原理,分布式事务型数据库需要优先确保一致性,因此事务处理技术成为三个特征中最核心的问题,需要在架构层被优先考虑。

图7 第三代分布式数据库的技术特征

待续,下一篇,我们将谈谈:如何阅读一致性八仙图?

大会上我们分享了这一核心技术,如图8(一致性八仙图),该图所示技术有很多特点,如下参见与Jespen的对比表1。好多同学会后问该图详情,内容重要且较多,如下单独成文进行介绍。

图8 一致性“八仙图”
  • 表1 一致性八仙图所用方法(简称八仙方法)与Jespen的对比T型表

Jepsen对比内容八仙方法
能(只能穷举,但所基于的理论尚未被证明能覆盖所有情况)理论层面能覆盖所有情况能,但更精细精准
不能(单次测试只能随机构造有限的用例)实践层面能覆盖所有情况全面覆盖(测试用例不随机,全面覆盖)
特别高(测试时间随测试覆盖范围增长而增长)测试成本几乎零成本(对硬件和时间无要求)
不容易,单独使用、单独测试容易集成到回归测试用例中非常容易
每次都随机构造,一次性构造一次性使用测试用例的生命周期一次构造,永久使用,
可短可长(有限时间构造有限个数用例)单次测试时间分钟级完成(固定个数的用例)
特别复杂,需要运行特定程序构造人类难以看懂的环每个测试用例构造复杂度非常简单
几乎不能(靠运气复现)错误是否可复现100%可复现
不容易分析定位问题(测试用例是边长个数不确定的环)复现后的错误是否容易分析容易分析定位问题(测试用例是最精简的最少边长的环)

历史阅读:

  • 第三代分布式数据库(1)——踢球时代


延伸阅读

《分布式数据库原理、架构与实践》

推荐语:腾讯T14级别专家、腾讯金融云数据库首席研究员、腾讯TDSQL首席架构师执笔,从原理、架构、案例三个维度深度剖析分布式数据库所涉一致性、高可用性等,人大教授等鼎力推荐


  • 本文来源:那海蓝蓝知数行云,图片来源:那海蓝蓝知数行云、pexels

  • 责任编辑:王莹,部门领导:卢志坚

  • 发布人:白钰

IT阅读排行榜 技术圈的风向标,有趣,有料,有货,有品又有用
评论
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 107浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 175浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 171浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 63浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 71浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 73浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 122浏览
  • 车身域是指负责管理和控制汽车车身相关功能的一个功能域,在汽车域控系统中起着至关重要的作用。它涵盖了车门、车窗、车灯、雨刮器等各种与车身相关的功能模块。与汽车电子电气架构升级相一致,车身域发展亦可以划分为三个阶段,功能集成愈加丰富:第一阶段为分布式架构:对应BCM车身控制模块,包含灯光、雨刮、门窗等传统车身控制功能。第二阶段为域集中架构:对应BDC/CEM域控制器,在BCM基础上集成网关、PEPS等。第三阶段为SOA理念下的中央集中架构:VIU/ZCU区域控制器,在BDC/CEM基础上集成VCU、
    北汇信息 2025-01-03 16:01 188浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 166浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 41浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 76浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 78浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 66浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 73浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦