大数据的3V、4V、7V,到底是什么意思?

原创 鲜枣课堂 2024-12-05 17:07
大数据,顾名思义,就是大量的数据。


更专业来说,大数据,是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合。



我们通常说:“量变引起质变。大数据,就属于这种情况。

当数据体量增加到一定程度时,相关技术、理念、思维等,都随之发生质变,从而形成了一个新的领域,这就是大数据领域。

大数据,通过对海量数据的采集、分析和处理,寻找其中的特征和趋势,提炼更多的高价值信息,用于改善业务流程,或者辅助决策行为。


在大数据领域,我们经常看到一些关于3V、4V、7V的说法。这些V,到底是什么意思呢?

今天这篇文章,小枣君就简单给大家介绍一下。


3V、4V、7V的来源

2001年,美国麦塔集团分析师道格·兰尼(Doug Laney)在对大数据进行理论研究的时候,发现大数据具备三个特征。而这三个特征的英文单词,恰好又以字母“V”开头,即:


Volume(体量大)、Variety(多样化)、Velocity(速度快)。


后来,“3V”这个特征理论,逐渐被业界所接受,成为描述大数据特征的标准。


再后来,在“3V”的基础上,业界的一些专家们又陆续提出了“4V”、“5V”,甚至“7V”,包括:


Veracity(真实性)、Value(价值密度)、Variability(变异性)、Visualization(可视性)等。


所有这些V,就变成了对大数据特征的新定义。


接下来,我们就分别看看,这些“V具体是什么意思。



No.1 :Volume(体量大)


大数据,到底有多大?


我们传统PC和手机处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的关系,大家应该都很熟悉了:

1 KB = 1024 B  (KB - kilobyte) 
1 MB = 1024 KB (MB - megabyte) 
1 GB = 1024 MB (GB - gigabyte) 
1 TB = 1024 GB (TB - terabyte) 

而大数据是什么级别呢?PB/EB级别。

1 PB = 1024 TB (PB - petabyte) 
1 EB = 1024 PB (EB - exabyte) 

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是20万部电子书。

1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听差不多两千年。

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

数据中心

EB还不是最大的。目前全人类的数据量,是ZB级。

1 ZB = 1024 EB (ZB - zettabyte) 

根据IDC的数据,在2020年,全球创建、捕获、复制和消耗的数据总量约为64ZB。而到了2025年,全球数据总量可能会达到惊人的163ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比196个鸟巢体育场还大。

人类社会的数据体量不仅大,增长速度也很快——每年增长50%。也就是说,每两年就会增长一倍多。

数据的增长,为什么会如此之快?

说到这里,就要回顾一下人类社会数据产生的三个重要阶段。

第一个阶段,是1940-1990年。

计算机和数据库被发明之后,数据管理的复杂度大大降低。各行各业开始产生了计算机数据,并记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是结构化数据)。数据的产生方式,是被动的。

第二个阶段,是1990-2010年。

伴随着互联网的爆发,网络内容开始迅速增长,增加了很多的专业输出内容(PGC)。Web2.0出现后,人们开始使用博客、facebook、youtube这样的社交网络,输出大量的用户原创内容(UGC),从而主动产生了大量的数据。移动智能终端时代的到来,也加速了该阶段数据的产生。

第三个阶段,是2010年至今。

随着物联网的发展,各种各样的感知层节点(例如遍布各个角落的传感器、摄像头)开始自动产生大量的数据。企业的数字化转型,构建了大量的系统,沉淀和管理这些数据。人类的数据总量,再次跃升。


经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的爆炸式膨胀。

值得一提的是,如今,随着我们逐渐进入AI智能时代,很可能会迎来第四次数据暴增阶段。以AIGC为代表的智能机器生产内容,正在急剧增加。


No.2 :Variety(多样化)

多样性主要体现在三个方面——数据来源多、数据类型多和数据之间关联性强。

数据来源多:

如前面所说,数据来源于不同的应用系统和设备。

例如,企业所产生的营销数据、业务系统数据、生产数据等,互联网行业所产生的社交内容数据、订单数据、用户数据等,政府部门所产生的社会治理数据、地理数据、经济数据等。

数据类型多:

数据又分为结构化数据、非结构化数据和半结构化数据。

结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

   
结构化数据


而网页文章、邮件内容、图像、音频、视频等,都属于非结构化数据。

半结构化数据,介于结构化和非结构化数据之间。如XML、JSON等格式的数据,它们有一定的组织形式,但不如结构化数据那样严格。

目前,非结构化数据的占比是最高的。例如,在互联网领域里,非结构化数据的占比已经超过了80%。

数据之间关联性强:

数据与数据之间,有一定的关联性,而且频繁交互。

例如,游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。


No.3 :Velocity(速度快)

这个特性,指的是大数据的产生速度快、处理速度快、传播速度快。从数据的生成到消耗,时间窗口非常小。

数据产生速度快,体现在生产生活中的方方面面。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?
Email:2000万封被发出
Google:380万次搜索请求被提交
Youtube:2100分钟的视频被上传
Facebook:69.5万条状态被更新
12306:9000张车票被卖出
……

怎么样?是不是瞬息万变?

数据处理速度快,体现在大数据可以在实时分析和决策需求的推动下,通过实时处理、并行处理等方式,快速对所产生的数据进行处理。


这就要求大数据系统具备高并发、低延迟的能力。举例来说,大数据所采用的流式处理技术,能够在数据不断产生的同时进行实时处理,确保系统能够及时获取并利用最新的信息。


数据传播速度快,体现在大数据与以往的档案、广播、报纸等传统数据载体不同。大数据的交换和传播,是通过互联网等方式实现的,远比传统媒介信息交换的传播速度快。



 No.4 Veracity(真实性)

数据很多,但也要真实才行。

大数据的真实性,指的是数据的质量和可信度。

在大数据环境中,由于数据来源广泛且多样,就会导致容易出现错误、冗余和不一致的数据,进而影响到最终分析的准确性和可靠性。

确保大数据的真实性,需要采用数据清洗、元数据管理、数据治理等手段。


此外,随着技术的发展,越来越多的技术工具和服务被开发出来,用于对大数据真实性的管理和优化。例如数据验证工具、自动化的数据清理流程、先进的统计方法用于检测异常值等。


No.5 :Value(价值密度)

大数据的数据量很大,但随之带来的,就是价值密度很低。数据中真正有价值的,只是其中的很少一部分。

例如通过监控视频寻找犯罪分子的相貌,也许数十TB的视频文件,真正有价值的,只有几秒钟。

例如,2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。这张照片的价值,毋庸置疑。


大数据中包含很多低价值的信息,而且,信息碎片化的情况严重。因此,需要通过深度分析和挖掘,才能发现有用的内容。


数据挖掘、机器学习和人工智能等技术,正在逐渐提升数据分析和挖掘的效率,帮助人们从低价值密度的数据中提取高价值的信息。


No.6 :Variability(变异性)

不要怕!这里的变异,并不是生化危机。

大数据的变异性,指的是数据在处理过程中可能发生变化的能力,也可以理解为数据的动态性、不确定性。

变异性包括几个方面:

数据分布的不均匀性。

大数据集合可能包含来自不同来源、不同时间、不同地点的数据,这使得数据的分布呈现出不均匀性。不同的子集,可能具有不同的统计性质。在数据分析和建模时,需要考虑这个因素。

数据的动态性。

大数据往往是动态变化的,尤其是实时场景(例如股价)。变化速度,也从以前的秒级,变成了现在的毫秒级,甚至更短。这就要求大数据系统和技术必须能够适应这个动态变化的特性。

数据质量的波动。

前面说了,大数据中可能包含大量的噪音、异常值和错误。这些负面因素,也可能随时间变化,导致数据质量出现明显波动。

环境因素的影响。

大数据的变异性,还可能受到环境因素的影响,如天气、地理位置、社会事件等。对于一些特殊场景的大数据应用,需要考虑这些外部因素可能导致的变化。


 No.7 :可视性(Visualization)


这个大家应该比较熟悉。我们现在在很多的政府部门和企业,都会看到数据大屏,其实也就是可视性的一种体现。


大数据的可视性,是指利用图形化、图像化的方式,对大数据进行呈现。这种方式,可以更直观地展示数据的模式、趋势和关系,快速把握数据的关键特征

可视化,能够帮助人们更好地理解和解释复杂的数据集,提高对信息的洞察力,促使更明智的决策。

除了观看之外,可视化也可以借助辅助工具,提供一些交互性功能。

例如,用户能够自由选择感兴趣的数据子集、调整视图参数,从而更灵活地进行数据探索。这有助于用户深入挖掘数据,找到其中的规律和异常。


 最后的话

好啦,以上就是大数据的7V特性。


当然了,这些特性定义,除了前几个以外,并没有一个官方的认可。如果你愿意,也可以再想一个V,变成8V。


作为一种全新的思维方式和商业模式,大数据正在改变我们的工作和生活。下一期,小枣君再和大家详细聊聊,大数据到底有哪些应用场景,能发挥什么样的作用和价值。

敬请关注!


—— The End ——




鲜枣课堂 学通信,学5G,就上鲜枣课堂!
评论
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 41浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 73浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 71浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 76浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 78浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 166浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 175浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 107浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 63浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 73浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 66浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 171浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦