大数据的3V、4V、7V,到底是什么意思?

原创 鲜枣课堂 2024-12-05 17:07
大数据,顾名思义,就是大量的数据。


更专业来说,大数据,是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合。



我们通常说:“量变引起质变。大数据,就属于这种情况。

当数据体量增加到一定程度时,相关技术、理念、思维等,都随之发生质变,从而形成了一个新的领域,这就是大数据领域。

大数据,通过对海量数据的采集、分析和处理,寻找其中的特征和趋势,提炼更多的高价值信息,用于改善业务流程,或者辅助决策行为。


在大数据领域,我们经常看到一些关于3V、4V、7V的说法。这些V,到底是什么意思呢?

今天这篇文章,小枣君就简单给大家介绍一下。


3V、4V、7V的来源

2001年,美国麦塔集团分析师道格·兰尼(Doug Laney)在对大数据进行理论研究的时候,发现大数据具备三个特征。而这三个特征的英文单词,恰好又以字母“V”开头,即:


Volume(体量大)、Variety(多样化)、Velocity(速度快)。


后来,“3V”这个特征理论,逐渐被业界所接受,成为描述大数据特征的标准。


再后来,在“3V”的基础上,业界的一些专家们又陆续提出了“4V”、“5V”,甚至“7V”,包括:


Veracity(真实性)、Value(价值密度)、Variability(变异性)、Visualization(可视性)等。


所有这些V,就变成了对大数据特征的新定义。


接下来,我们就分别看看,这些“V具体是什么意思。



No.1 :Volume(体量大)


大数据,到底有多大?


我们传统PC和手机处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的关系,大家应该都很熟悉了:

1 KB = 1024 B  (KB - kilobyte) 
1 MB = 1024 KB (MB - megabyte) 
1 GB = 1024 MB (GB - gigabyte) 
1 TB = 1024 GB (TB - terabyte) 

而大数据是什么级别呢?PB/EB级别。

1 PB = 1024 TB (PB - petabyte) 
1 EB = 1024 PB (EB - exabyte) 

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是20万部电子书。

1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听差不多两千年。

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

数据中心

EB还不是最大的。目前全人类的数据量,是ZB级。

1 ZB = 1024 EB (ZB - zettabyte) 

根据IDC的数据,在2020年,全球创建、捕获、复制和消耗的数据总量约为64ZB。而到了2025年,全球数据总量可能会达到惊人的163ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比196个鸟巢体育场还大。

人类社会的数据体量不仅大,增长速度也很快——每年增长50%。也就是说,每两年就会增长一倍多。

数据的增长,为什么会如此之快?

说到这里,就要回顾一下人类社会数据产生的三个重要阶段。

第一个阶段,是1940-1990年。

计算机和数据库被发明之后,数据管理的复杂度大大降低。各行各业开始产生了计算机数据,并记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是结构化数据)。数据的产生方式,是被动的。

第二个阶段,是1990-2010年。

伴随着互联网的爆发,网络内容开始迅速增长,增加了很多的专业输出内容(PGC)。Web2.0出现后,人们开始使用博客、facebook、youtube这样的社交网络,输出大量的用户原创内容(UGC),从而主动产生了大量的数据。移动智能终端时代的到来,也加速了该阶段数据的产生。

第三个阶段,是2010年至今。

随着物联网的发展,各种各样的感知层节点(例如遍布各个角落的传感器、摄像头)开始自动产生大量的数据。企业的数字化转型,构建了大量的系统,沉淀和管理这些数据。人类的数据总量,再次跃升。


经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的爆炸式膨胀。

值得一提的是,如今,随着我们逐渐进入AI智能时代,很可能会迎来第四次数据暴增阶段。以AIGC为代表的智能机器生产内容,正在急剧增加。


No.2 :Variety(多样化)

多样性主要体现在三个方面——数据来源多、数据类型多和数据之间关联性强。

数据来源多:

如前面所说,数据来源于不同的应用系统和设备。

例如,企业所产生的营销数据、业务系统数据、生产数据等,互联网行业所产生的社交内容数据、订单数据、用户数据等,政府部门所产生的社会治理数据、地理数据、经济数据等。

数据类型多:

数据又分为结构化数据、非结构化数据和半结构化数据。

结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

   
结构化数据


而网页文章、邮件内容、图像、音频、视频等,都属于非结构化数据。

半结构化数据,介于结构化和非结构化数据之间。如XML、JSON等格式的数据,它们有一定的组织形式,但不如结构化数据那样严格。

目前,非结构化数据的占比是最高的。例如,在互联网领域里,非结构化数据的占比已经超过了80%。

数据之间关联性强:

数据与数据之间,有一定的关联性,而且频繁交互。

例如,游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。


No.3 :Velocity(速度快)

这个特性,指的是大数据的产生速度快、处理速度快、传播速度快。从数据的生成到消耗,时间窗口非常小。

数据产生速度快,体现在生产生活中的方方面面。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?
Email:2000万封被发出
Google:380万次搜索请求被提交
Youtube:2100分钟的视频被上传
Facebook:69.5万条状态被更新
12306:9000张车票被卖出
……

怎么样?是不是瞬息万变?

数据处理速度快,体现在大数据可以在实时分析和决策需求的推动下,通过实时处理、并行处理等方式,快速对所产生的数据进行处理。


这就要求大数据系统具备高并发、低延迟的能力。举例来说,大数据所采用的流式处理技术,能够在数据不断产生的同时进行实时处理,确保系统能够及时获取并利用最新的信息。


数据传播速度快,体现在大数据与以往的档案、广播、报纸等传统数据载体不同。大数据的交换和传播,是通过互联网等方式实现的,远比传统媒介信息交换的传播速度快。



 No.4 Veracity(真实性)

数据很多,但也要真实才行。

大数据的真实性,指的是数据的质量和可信度。

在大数据环境中,由于数据来源广泛且多样,就会导致容易出现错误、冗余和不一致的数据,进而影响到最终分析的准确性和可靠性。

确保大数据的真实性,需要采用数据清洗、元数据管理、数据治理等手段。


此外,随着技术的发展,越来越多的技术工具和服务被开发出来,用于对大数据真实性的管理和优化。例如数据验证工具、自动化的数据清理流程、先进的统计方法用于检测异常值等。


No.5 :Value(价值密度)

大数据的数据量很大,但随之带来的,就是价值密度很低。数据中真正有价值的,只是其中的很少一部分。

例如通过监控视频寻找犯罪分子的相貌,也许数十TB的视频文件,真正有价值的,只有几秒钟。

例如,2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。这张照片的价值,毋庸置疑。


大数据中包含很多低价值的信息,而且,信息碎片化的情况严重。因此,需要通过深度分析和挖掘,才能发现有用的内容。


数据挖掘、机器学习和人工智能等技术,正在逐渐提升数据分析和挖掘的效率,帮助人们从低价值密度的数据中提取高价值的信息。


No.6 :Variability(变异性)

不要怕!这里的变异,并不是生化危机。

大数据的变异性,指的是数据在处理过程中可能发生变化的能力,也可以理解为数据的动态性、不确定性。

变异性包括几个方面:

数据分布的不均匀性。

大数据集合可能包含来自不同来源、不同时间、不同地点的数据,这使得数据的分布呈现出不均匀性。不同的子集,可能具有不同的统计性质。在数据分析和建模时,需要考虑这个因素。

数据的动态性。

大数据往往是动态变化的,尤其是实时场景(例如股价)。变化速度,也从以前的秒级,变成了现在的毫秒级,甚至更短。这就要求大数据系统和技术必须能够适应这个动态变化的特性。

数据质量的波动。

前面说了,大数据中可能包含大量的噪音、异常值和错误。这些负面因素,也可能随时间变化,导致数据质量出现明显波动。

环境因素的影响。

大数据的变异性,还可能受到环境因素的影响,如天气、地理位置、社会事件等。对于一些特殊场景的大数据应用,需要考虑这些外部因素可能导致的变化。


 No.7 :可视性(Visualization)


这个大家应该比较熟悉。我们现在在很多的政府部门和企业,都会看到数据大屏,其实也就是可视性的一种体现。


大数据的可视性,是指利用图形化、图像化的方式,对大数据进行呈现。这种方式,可以更直观地展示数据的模式、趋势和关系,快速把握数据的关键特征

可视化,能够帮助人们更好地理解和解释复杂的数据集,提高对信息的洞察力,促使更明智的决策。

除了观看之外,可视化也可以借助辅助工具,提供一些交互性功能。

例如,用户能够自由选择感兴趣的数据子集、调整视图参数,从而更灵活地进行数据探索。这有助于用户深入挖掘数据,找到其中的规律和异常。


 最后的话

好啦,以上就是大数据的7V特性。


当然了,这些特性定义,除了前几个以外,并没有一个官方的认可。如果你愿意,也可以再想一个V,变成8V。


作为一种全新的思维方式和商业模式,大数据正在改变我们的工作和生活。下一期,小枣君再和大家详细聊聊,大数据到底有哪些应用场景,能发挥什么样的作用和价值。

敬请关注!


—— The End ——




鲜枣课堂 学通信,学5G,就上鲜枣课堂!
评论
  • 5小时自学修好BIOS卡住问题  更换硬盘故障现象:f2、f12均失效,只有ESC和开关机键可用。错误页面:经过AI的故障截图询问,确定是机体内灰尘太多,和硬盘损坏造成,开机卡在BIOS。经过亲手拆螺丝和壳体、排线,跟换了新的2.5寸硬盘,故障排除。理论依据:以下是针对“5小时自学修好BIOS卡住问题+更换硬盘”的综合性解决方案,结合硬件操作和BIOS设置调整,分步骤说明:一、判断BIOS卡住的原因1. 初步排查     拔掉多余硬件:断开所有外接设备(如
    丙丁先生 2025-05-04 09:14 53浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 480浏览
  •  一、‌核心降温原理‌1、‌液氮媒介作用‌液氮恒温器以液氮(沸点约77K/-196℃)为降温媒介,通过液氮蒸发吸收热量的特性实现快速降温。液氮在内部腔体蒸发时形成气-液界面,利用毛细管路将冷媒导入蒸发器,强化热交换效率。2、‌稳态气泡控温‌采用‌稳态气泡原理‌:调节锥形气塞与冷指间隙,控制气-液界面成核沸腾条件,使漏热稳定在设定值。通过控温仪调整加热功率,补偿漏热并维持温度平衡,实现80K-600K范围的快速变温。二、‌温度控制机制‌1、‌动态平衡调节‌控温仪内置模糊控制系统,通过温度
    锦正茂科技 2025-04-30 11:31 63浏览
  • 某国产固态电解的2次和3次谐波失真相当好,值得一试。(仅供参考)现在国产固态电解的性能跟上来了,值得一试。当然不是随便搞低端的那种。电容器对音质的影响_电子基础-面包板社区  https://mbb.eet-china.com/forum/topic/150182_1_1.html (右键复制链接打开)电容器对音质的影响相当大。电容器在音频系统中的角色不可忽视,它们能够调整系统增益、提供合适的偏置、抑制电源噪声并隔离直流成分。然而,在便携式设备中,由于空间、成本的限
    bruce小肥羊 2025-05-04 18:14 68浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 320浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 209浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 157浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 66浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 584浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 140浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 313浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦