AI高速崛起,数据平台迎来重要革新!

原创 鲜枣课堂 2024-12-23 13:42

12月17日,一家名叫Databricks的美国科技公司,宣布成功融资100亿美元,公司的估值也因此达到620亿美元。


新闻一出,引起了整个行业的关注。要知道,不久前的10月份,业界最受追捧的OpenAI公司,也只不过融了66亿美元。这个Databricks的融资金额比OpenAI还高,是有史以来最大的风险投资之一,凭什么?


答案很简单,就凭——“数据和AI”。Databricks是全球数据分析和云数据平台巨头。近年来,他们的数据平台产品吸引了大量的企业用户,用于数据价值挖掘和辅助决策,增长势头强劲。


那么,到底什么是数据平台呢?在AI时代,数据平台又能发挥怎样的作用?


今天这篇文章,小枣君就和大家做一个详细的解读。



 数据平台的发展演进


数据平台,顾名思义,就是用于存储、处理和分析数据的平台。我们常说的数据库(Oracle、MySQL等),还有这些年来特别火的数据仓库、数据湖,都属于数据平台。有了它们,我们才能更好地“玩转”数据,挖掘其中的价值。


人类的IT技术发展史,其实说白了,就是一部数据“折腾”史。发展CPU,是为了更好地处理数据。发展硬盘,是为了更好地存储数据。发展网络,是为了更好地搬运数据。所有的信息通信技术,都是紧密围绕数据开展工作的。



数据平台,是以数据为中心的平台。它的发展历程,同样也和数据的演进密切相关。

上世纪40年代至50年代,计算机刚刚诞生的早期阶段,因为硬件技术不成熟,人类的数据体量较小。所以,并没有发展出数据平台,仅仅依靠人工进行数据的管理。

到了60年代至70年代,随着软硬件技术的不断成熟,我们终于有了数据库系统,并且,很快开始实现了商业化。尤其是到了80-90年代,商业数据库蓬勃发展,用于各种交易型(OLTP)和分析型(OLAP)场景,为人类社会的信息化浪潮做出了很大的贡献。

那一时期,很多高精尖行业(例如航空或者国防等),因为数据量越来越庞大,所以对数据平台的要求也越来越高。大数据这个概念,也是在那个时候开始诞生和萌芽的。1997年10月,美国宇航局(NASA)研究员发表论文,首次提到了“大数据问题”。

其实,当时的数据量在现在看来也不是很大。全世界加在一起的数据量,可能不会超过1 PB,还停留在TB级别。所以,传统的以Oracle为代表的数据仓库,勉强可以搞定。

进入21世纪后,互联网的全面爆发,带来了数据量的又一次跃升。大数据时代真的到来了,传统的数仓已经hold不住了。于是,以Hadoop为代表的数据平台应运而生(2006年),扛起了大梁。

再后来,因为互联网业务的复杂多样性,加上数据处理的负载和实时性要求越来越高,就有了各种各样的开源数据组件,面向不同的工作场景。

这时的数据平台,就以基于开源的组装式数据平台为主流。各种数据湖、湖仓一体技术,进入了蓬勃发展的阶段,勉强能够满足各行各业的场景需求。

大数据发展的重要阶段

时至今日,情况又发生了巨大的变化。正如大家所看到的,AI浪潮来了。


 AI时代的数据平台挑战

从2023年开始,以ChatGPT为代表的AI大模型,掀起了一股席卷全球的AI浪潮,改变了人类社会的方方面面。

作为AI的三大要素之一,数据的重要性进一步提升。我们不仅需要更多、更可靠、更准确的数据,还需要更强大的数据平台,能够为业务应用(尤其是AI应用)提供支撑。

传统数据平台,一般拥有三大典型应用场景。

第一个是BI看板和离线报表。BI就是Business Intelligence,商业智能。通过BI看板和离线报表,可以将各种数据指标以可视化方式展示出来,帮助企业管理层更好地了解和分析企业运营情况。

第二个是离线数据处理。这个主要是指业界常说的ETL(Extract,Transform,Load,即提取、转换、加载)。通过数仓分层和数据预处理,对数据做“精炼”,为后面的数据分析或BI应用做准备。

第三个是实时的交互式分析。这个主要是要实现毫秒级的AD-Hoc(临时性的、非计划性的活动或决策)实时分析。

传统数据平台的典型应用场景

进入AI时代,数据平台的各方面开始发生变化。

先看看传统数据工程领域的变化。

首先,场景开始有点延伸。有了大模型所提供的自然语言处理能力,用户与数据平台之间的交互,就可以变成自然语言交互。例如,企业管理者直接提问,自然语言理解生成分析SQL,数据平台给出数据洞察的结果。

其次,数据平台需要实现一体化。以前,一家企业的某个业务处理数据的方式只有一种,离线处理或者交互式处理。未来,可能同时需要多种处理方式,需要数据平台能够以一个平台承载多种需求(例如离线数据处理+交互式处理),实现一体化。

第三,数据的规模急速扩张,但是高效实时处理的需求是不能打折扣的。这就要求平台实现批流一体、增量计算。也就是说,批处理+实时处理也要一体化。

大数据与AI的融合,也产生了一些新的场景。数据平台需要支持大模型的发展。

第一个场景,是数据和AI的一体化。

在大模型开发架构中,通常是数据团队和模型团队是分开的,各自使用各自的平台、工具,会增加开发成本,影响开发效率。更好的解决方案,是数据平台提供一个统一的接口,实现“DataOps+AIOps一体化”,降低运维与开发成本。

第二个场景,RAG的应用。

RAG是Retrieval-Augmented Agenerated(检索增强生成),可以理解为大模型的一个“数据辅助外挂”。当企业搜索场景单独采用大模型无法满足要求时,可以基于企业数据平台的运营数据,提供一站式的高精度全文检索+向量检索RAG方案,实现更强大的AI搜索。

第三个场景,AI Agent智能体的应用。

AIGC能思考,但AI Agent增加了行动的能力,现在成为AI的新焦点,相关的应用数量也急剧增加。企业基于数据平台,将业务数据与大模型融合,可以产生更好的生成式AI应用,创造更多的AI Agent。

我们可以举一个数据平台支撑RAG、Agent应用的例子。

假如你有一个咖啡店,想要发布朋友圈广告,进行咖啡和配套糕点的推荐。首先,你可以基于数据平台,通过对订单数据的大数据查询,找到销量最好的咖啡。然后,你可以基于数据平台的历史数据,训练一个模型(这里应该小模型就够了),找到推荐搭配的糕点。

接下来,基于数据平台知识库和大模型,采用RAG方案,找到一个最合适的广告词。大模型再基于广告词和咖啡糕点的图片,生成一个广告文案。

所有上述过程,都可以配置到Agent里面。以后,只需要一个指令,就能够按步骤快速完成这项工作。是不是很高效?

AI时代的数据平台,除了支持AI发展之外,也要让AI反向赋能平台。例如,将AI能力应用于数据平台的资源管理与运维管理,将大幅提升工作效率。

AI时代的数据平台

简单来说,AI时代的大模型应用开发,核心要素就是算卡(算力)、大模型(算法)和数据。在这种应用里,最好的架构,是大模型直接和数据联动。以数据为核心,数据平台足够简单、足够融合、足够智能,让大模型以最高效的方式完成训练和推理。


 TCHouse-X,AI时代的数据平台创新解决方案

那么,数据平台该如何重构设计,才能满足上面提到的场景和能力需求呢?

最近,腾讯云给出了他们的解决方案——一站式数据智能平台TCHouse-X

TCHouse-X整体架构

TCHouse-X的核心设计理念,是一体化、智能化、高性能以及云原生。

● 一体化

前面反复提到了一体化。TCHouse-X在架构设计层面,就贯彻了一体化的思想。

它通过云原生多集群共享数据及元数据管理,打破了传统数据平台在离线计算、在线计算和AI开发之间的壁垒。用户可以基于同一份数据,运行在线分析、离线处理、数据湖探索和机器学习等多种业务负载,无需在不同的系统间切换和数据的拷贝搬迁,实现AI、BI和Data在一个平台上开发和共建。

对于用户来说,数据平台的极致简化,不仅方便了产品的开发,改善了体验,也大大降低了产品运维的难度和成本。这是做减法带来的优势。

一体化

● 智能化

智能化,是指TCHouse-X获得了来自AI的赋能,借助AI进行技术优化和迭代。

TCHouse-X能够通过智能化的系统交互、资源管理与运维管理功能,实现运维“自动驾驶”,显著提升易用性与运维效率。

以资源管理为例,TCHouse-X具备AI智能调度系统,能够实时感知负载并智能规划资源,从而提高计算资源的利用率。

TCHouse-X还支持前面提到的自然语言交互。用户可通过自然语言描述,快速查询分析数据,无需SQL相关的专业培训与学习。

智能化

● 高性能

一款优秀的数据平台,当然在性能上不能拉垮。

TCHouse-X基于腾讯云自研核心引擎技术(数据平台三大件,包括优化器、计算引擎、存储引擎,腾讯云都是从零到一进行自研),在计算、存储、网络等多维度优化,能够为用户提供全链路极致性能。在效率层面,TCHouse-X能够支持实时加工处理源头数据,并且具备毫秒级的在线分析能力。

同时,TCHouse-X支持多种弹性策略,无论是应对突发流量高峰还是处理大规模查询,都能有效帮助企业实现资源的灵活配置,降低成本并提高效率。

高性能

● 云原生

云原生,是TCHouse-X的核心基因。它带来的优势,是可以提供极致的资源弹性。基于云原生,可以实现存算分离,可以对计算和存储进行弹性配置,增加灵活性。这也是前面一体化开放的前提条件。

弹性可以体现在多个场景。例如分时段(白天/夜晚)的资源分配,资源使用量的智能预测,突发负载的智能弹性伸缩,等等。可以看出,设计理念(云原生和智能化)之间,也是有相互关联的。

云原生(灵活弹性)


 TCHouse-X的实际落地表现

我们可以看出,TCHouse-X是腾讯云精心打造的一款大数据数仓产品。

它大幅提升了平台的性能,简化了传统数据平台的复杂架构,并引入了智能化系统交互、资源管理与运维管理能力,能够为大模型时代的应用创新提供一站式数据处理能力。

根据测算,TChouse-X的在线查询性能优于市场同类产品50%,而离线批处理的综合性价比则提升了10倍之多。在计算资源层面,采用TCHouse-X,企业计算资源成本最高也能降低50%。

目前,TCHouse-X已在腾讯内部多个业务线以及多个外部企业客户场景中得到应用,具体包括大模型AIGC应用、车联网数据平台、安全厂商、CRM平台、跨境电商企业、物流平台和手游公司等。

在实际应用中,TCHouse-X充分展示了自身的强大性能和成本效益。特别是在大规模数据处理和实时分析方面,表现非常出色。

以腾讯会议应用为例。采用TCHouse-X后,该应用实现了显著的性能提升和存储优化。

在进行会议质量分析和日志分析时,TCHouse-X相比于原来的Presto/Trino查询性能提升了5到10倍,日均查询数约40万,显示了其在高并发查询处理方面的强大能力。同时,存储从原来的4份减少到1份,大幅降低了存储成本。与原Spark相比,性能提升了2倍,进一步证明了TCHouse-X在处理复杂查询时的高效率。


 结语

TCHouse-X的发布,是腾讯云在大数据领域长期深耕和积累的成果。

很多人可能不知道,作为腾讯云基于海量业务打造的世界领先级大数据平台,腾讯云大数据目前的算力规模已经超过千万核,是全球最大规模的大数据平台之一。平台每天实时计算量数百万亿次,每天运行容器数数亿个,每天计算数据量数百PB,量级位居国内第一。

TCHouse-X是企业打造数据基座的一个神器。随着AI浪潮的愈演愈烈,相信越来越多的行业用户会开始采用TCHouse-X,享受它带来的效率提升和成本节约。AI数智时代的数据价值挖掘,将进入一个全新的阶段!


鲜枣课堂 学通信,学5G,就上鲜枣课堂!
评论
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 131浏览
  •                                                窗        外       年底将近,空气变得格外寒冷,估计这会儿北方已经是千里
    广州铁金刚 2024-12-23 11:49 67浏览
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 127浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 92浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 103浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 139浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 104浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 171浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 221浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 121浏览
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 172浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 129浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 103浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 90浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦