AI高速崛起,数据平台迎来重要革新!

原创 鲜枣课堂 2024-12-23 13:42

12月17日,一家名叫Databricks的美国科技公司,宣布成功融资100亿美元,公司的估值也因此达到620亿美元。


新闻一出,引起了整个行业的关注。要知道,不久前的10月份,业界最受追捧的OpenAI公司,也只不过融了66亿美元。这个Databricks的融资金额比OpenAI还高,是有史以来最大的风险投资之一,凭什么?


答案很简单,就凭——“数据和AI”。Databricks是全球数据分析和云数据平台巨头。近年来,他们的数据平台产品吸引了大量的企业用户,用于数据价值挖掘和辅助决策,增长势头强劲。


那么,到底什么是数据平台呢?在AI时代,数据平台又能发挥怎样的作用?


今天这篇文章,小枣君就和大家做一个详细的解读。



 数据平台的发展演进


数据平台,顾名思义,就是用于存储、处理和分析数据的平台。我们常说的数据库(Oracle、MySQL等),还有这些年来特别火的数据仓库、数据湖,都属于数据平台。有了它们,我们才能更好地“玩转”数据,挖掘其中的价值。


人类的IT技术发展史,其实说白了,就是一部数据“折腾”史。发展CPU,是为了更好地处理数据。发展硬盘,是为了更好地存储数据。发展网络,是为了更好地搬运数据。所有的信息通信技术,都是紧密围绕数据开展工作的。



数据平台,是以数据为中心的平台。它的发展历程,同样也和数据的演进密切相关。

上世纪40年代至50年代,计算机刚刚诞生的早期阶段,因为硬件技术不成熟,人类的数据体量较小。所以,并没有发展出数据平台,仅仅依靠人工进行数据的管理。

到了60年代至70年代,随着软硬件技术的不断成熟,我们终于有了数据库系统,并且,很快开始实现了商业化。尤其是到了80-90年代,商业数据库蓬勃发展,用于各种交易型(OLTP)和分析型(OLAP)场景,为人类社会的信息化浪潮做出了很大的贡献。

那一时期,很多高精尖行业(例如航空或者国防等),因为数据量越来越庞大,所以对数据平台的要求也越来越高。大数据这个概念,也是在那个时候开始诞生和萌芽的。1997年10月,美国宇航局(NASA)研究员发表论文,首次提到了“大数据问题”。

其实,当时的数据量在现在看来也不是很大。全世界加在一起的数据量,可能不会超过1 PB,还停留在TB级别。所以,传统的以Oracle为代表的数据仓库,勉强可以搞定。

进入21世纪后,互联网的全面爆发,带来了数据量的又一次跃升。大数据时代真的到来了,传统的数仓已经hold不住了。于是,以Hadoop为代表的数据平台应运而生(2006年),扛起了大梁。

再后来,因为互联网业务的复杂多样性,加上数据处理的负载和实时性要求越来越高,就有了各种各样的开源数据组件,面向不同的工作场景。

这时的数据平台,就以基于开源的组装式数据平台为主流。各种数据湖、湖仓一体技术,进入了蓬勃发展的阶段,勉强能够满足各行各业的场景需求。

大数据发展的重要阶段

时至今日,情况又发生了巨大的变化。正如大家所看到的,AI浪潮来了。


 AI时代的数据平台挑战

从2023年开始,以ChatGPT为代表的AI大模型,掀起了一股席卷全球的AI浪潮,改变了人类社会的方方面面。

作为AI的三大要素之一,数据的重要性进一步提升。我们不仅需要更多、更可靠、更准确的数据,还需要更强大的数据平台,能够为业务应用(尤其是AI应用)提供支撑。

传统数据平台,一般拥有三大典型应用场景。

第一个是BI看板和离线报表。BI就是Business Intelligence,商业智能。通过BI看板和离线报表,可以将各种数据指标以可视化方式展示出来,帮助企业管理层更好地了解和分析企业运营情况。

第二个是离线数据处理。这个主要是指业界常说的ETL(Extract,Transform,Load,即提取、转换、加载)。通过数仓分层和数据预处理,对数据做“精炼”,为后面的数据分析或BI应用做准备。

第三个是实时的交互式分析。这个主要是要实现毫秒级的AD-Hoc(临时性的、非计划性的活动或决策)实时分析。

传统数据平台的典型应用场景

进入AI时代,数据平台的各方面开始发生变化。

先看看传统数据工程领域的变化。

首先,场景开始有点延伸。有了大模型所提供的自然语言处理能力,用户与数据平台之间的交互,就可以变成自然语言交互。例如,企业管理者直接提问,自然语言理解生成分析SQL,数据平台给出数据洞察的结果。

其次,数据平台需要实现一体化。以前,一家企业的某个业务处理数据的方式只有一种,离线处理或者交互式处理。未来,可能同时需要多种处理方式,需要数据平台能够以一个平台承载多种需求(例如离线数据处理+交互式处理),实现一体化。

第三,数据的规模急速扩张,但是高效实时处理的需求是不能打折扣的。这就要求平台实现批流一体、增量计算。也就是说,批处理+实时处理也要一体化。

大数据与AI的融合,也产生了一些新的场景。数据平台需要支持大模型的发展。

第一个场景,是数据和AI的一体化。

在大模型开发架构中,通常是数据团队和模型团队是分开的,各自使用各自的平台、工具,会增加开发成本,影响开发效率。更好的解决方案,是数据平台提供一个统一的接口,实现“DataOps+AIOps一体化”,降低运维与开发成本。

第二个场景,RAG的应用。

RAG是Retrieval-Augmented Agenerated(检索增强生成),可以理解为大模型的一个“数据辅助外挂”。当企业搜索场景单独采用大模型无法满足要求时,可以基于企业数据平台的运营数据,提供一站式的高精度全文检索+向量检索RAG方案,实现更强大的AI搜索。

第三个场景,AI Agent智能体的应用。

AIGC能思考,但AI Agent增加了行动的能力,现在成为AI的新焦点,相关的应用数量也急剧增加。企业基于数据平台,将业务数据与大模型融合,可以产生更好的生成式AI应用,创造更多的AI Agent。

我们可以举一个数据平台支撑RAG、Agent应用的例子。

假如你有一个咖啡店,想要发布朋友圈广告,进行咖啡和配套糕点的推荐。首先,你可以基于数据平台,通过对订单数据的大数据查询,找到销量最好的咖啡。然后,你可以基于数据平台的历史数据,训练一个模型(这里应该小模型就够了),找到推荐搭配的糕点。

接下来,基于数据平台知识库和大模型,采用RAG方案,找到一个最合适的广告词。大模型再基于广告词和咖啡糕点的图片,生成一个广告文案。

所有上述过程,都可以配置到Agent里面。以后,只需要一个指令,就能够按步骤快速完成这项工作。是不是很高效?

AI时代的数据平台,除了支持AI发展之外,也要让AI反向赋能平台。例如,将AI能力应用于数据平台的资源管理与运维管理,将大幅提升工作效率。

AI时代的数据平台

简单来说,AI时代的大模型应用开发,核心要素就是算卡(算力)、大模型(算法)和数据。在这种应用里,最好的架构,是大模型直接和数据联动。以数据为核心,数据平台足够简单、足够融合、足够智能,让大模型以最高效的方式完成训练和推理。


 TCHouse-X,AI时代的数据平台创新解决方案

那么,数据平台该如何重构设计,才能满足上面提到的场景和能力需求呢?

最近,腾讯云给出了他们的解决方案——一站式数据智能平台TCHouse-X

TCHouse-X整体架构

TCHouse-X的核心设计理念,是一体化、智能化、高性能以及云原生。

● 一体化

前面反复提到了一体化。TCHouse-X在架构设计层面,就贯彻了一体化的思想。

它通过云原生多集群共享数据及元数据管理,打破了传统数据平台在离线计算、在线计算和AI开发之间的壁垒。用户可以基于同一份数据,运行在线分析、离线处理、数据湖探索和机器学习等多种业务负载,无需在不同的系统间切换和数据的拷贝搬迁,实现AI、BI和Data在一个平台上开发和共建。

对于用户来说,数据平台的极致简化,不仅方便了产品的开发,改善了体验,也大大降低了产品运维的难度和成本。这是做减法带来的优势。

一体化

● 智能化

智能化,是指TCHouse-X获得了来自AI的赋能,借助AI进行技术优化和迭代。

TCHouse-X能够通过智能化的系统交互、资源管理与运维管理功能,实现运维“自动驾驶”,显著提升易用性与运维效率。

以资源管理为例,TCHouse-X具备AI智能调度系统,能够实时感知负载并智能规划资源,从而提高计算资源的利用率。

TCHouse-X还支持前面提到的自然语言交互。用户可通过自然语言描述,快速查询分析数据,无需SQL相关的专业培训与学习。

智能化

● 高性能

一款优秀的数据平台,当然在性能上不能拉垮。

TCHouse-X基于腾讯云自研核心引擎技术(数据平台三大件,包括优化器、计算引擎、存储引擎,腾讯云都是从零到一进行自研),在计算、存储、网络等多维度优化,能够为用户提供全链路极致性能。在效率层面,TCHouse-X能够支持实时加工处理源头数据,并且具备毫秒级的在线分析能力。

同时,TCHouse-X支持多种弹性策略,无论是应对突发流量高峰还是处理大规模查询,都能有效帮助企业实现资源的灵活配置,降低成本并提高效率。

高性能

● 云原生

云原生,是TCHouse-X的核心基因。它带来的优势,是可以提供极致的资源弹性。基于云原生,可以实现存算分离,可以对计算和存储进行弹性配置,增加灵活性。这也是前面一体化开放的前提条件。

弹性可以体现在多个场景。例如分时段(白天/夜晚)的资源分配,资源使用量的智能预测,突发负载的智能弹性伸缩,等等。可以看出,设计理念(云原生和智能化)之间,也是有相互关联的。

云原生(灵活弹性)


 TCHouse-X的实际落地表现

我们可以看出,TCHouse-X是腾讯云精心打造的一款大数据数仓产品。

它大幅提升了平台的性能,简化了传统数据平台的复杂架构,并引入了智能化系统交互、资源管理与运维管理能力,能够为大模型时代的应用创新提供一站式数据处理能力。

根据测算,TChouse-X的在线查询性能优于市场同类产品50%,而离线批处理的综合性价比则提升了10倍之多。在计算资源层面,采用TCHouse-X,企业计算资源成本最高也能降低50%。

目前,TCHouse-X已在腾讯内部多个业务线以及多个外部企业客户场景中得到应用,具体包括大模型AIGC应用、车联网数据平台、安全厂商、CRM平台、跨境电商企业、物流平台和手游公司等。

在实际应用中,TCHouse-X充分展示了自身的强大性能和成本效益。特别是在大规模数据处理和实时分析方面,表现非常出色。

以腾讯会议应用为例。采用TCHouse-X后,该应用实现了显著的性能提升和存储优化。

在进行会议质量分析和日志分析时,TCHouse-X相比于原来的Presto/Trino查询性能提升了5到10倍,日均查询数约40万,显示了其在高并发查询处理方面的强大能力。同时,存储从原来的4份减少到1份,大幅降低了存储成本。与原Spark相比,性能提升了2倍,进一步证明了TCHouse-X在处理复杂查询时的高效率。


 结语

TCHouse-X的发布,是腾讯云在大数据领域长期深耕和积累的成果。

很多人可能不知道,作为腾讯云基于海量业务打造的世界领先级大数据平台,腾讯云大数据目前的算力规模已经超过千万核,是全球最大规模的大数据平台之一。平台每天实时计算量数百万亿次,每天运行容器数数亿个,每天计算数据量数百PB,量级位居国内第一。

TCHouse-X是企业打造数据基座的一个神器。随着AI浪潮的愈演愈烈,相信越来越多的行业用户会开始采用TCHouse-X,享受它带来的效率提升和成本节约。AI数智时代的数据价值挖掘,将进入一个全新的阶段!


鲜枣课堂 学通信,学5G,就上鲜枣课堂!
评论 (0)
  • 在六西格玛项目中,团队的选择往往决定了最终的成败。合适的团队成员不仅能推动项目顺利进行,更能确保最终成果符合预期。因此,组建六西格玛团队时,必须挑选最合适的人才,确保他们具备必要的能力和特质。团队主管的关键特质每个精益六西格玛项目都需要一位主管来带领团队。他们不仅需要具备领导力,还要能够分析数据、制定策略,并与管理层和团队成员高效沟通。团队主管的核心职责包括:领导团队行动:能够激励成员,确保团队朝着既定目标前进。数据分析能力:精通数据处理和分析,能基于数据做出决策。沟通协调:能够在管理层和团队之
    优思学院 2025-03-06 12:51 128浏览
  • 文/Leon编辑/cc孙聪颖2025年全国两会进行时,作为“十四五”规划收官之年,本届两会释放出坚定目标、稳中求进、以进促稳等信号。其中,企业家们的建议备受关注,关系到民营经济在2025年的走向。作为国内科技制造业的“老兵”,全国人大代表、TCL集团创始人及董事长李东生在本届两会中提出三份代表建议,包括《关于优化中国科技制造业融资环境的建议》、《关于加强AI深度伪造欺诈管理的建议》和《关于降低灵活就业人员社会保险参保门槛的建议》,表现出对科技制造、AI发展和劳动者保障方面的关注。会后,李东生接受
    华尔街科技眼 2025-03-06 19:41 120浏览
  • 在企业管理和职场环境中,权力是一个常被提及却又让人感到微妙的话题。有人觉得它充满吸引力,有人却对它避之不及。然而,不管你对权力的态度如何,理解它、掌握它,甚至善用它,都是职场成功的重要一环。今天,我们就来深入探讨权力的本质,特别是个人权力和社会权力的区别,以及如何在职场中逐步建立属于自己的影响力。权力的两种面貌:你掌控自己,还是掌控他人?说到权力,首先要区分它的两种类型。个人权力是你对自己生活的掌控感。比如,你能自由决定自己的职业方向,不用总是请示他人。这种权力让人感到踏实和满足,是我们在生活中
    优思学院 2025-03-07 15:56 167浏览
  • ASL6328芯片支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。ASL6328 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电
    QQ1540182856 2025-03-06 14:26 121浏览
  • 多人同时共享相同无线网络,以下场景是否是您熟悉的日常?姐姐:「妈~我在房间在线上课,影音一直断断续续的怎么上课啊!」奶奶:「媳妇啊~我在在线追剧,影片一直卡卡的,实在让人生气!」除此之外,同时间有老公在跟客户开在线会议,还有弟弟在玩在线游戏,而妈妈自己其实也在客厅追剧,同时间加总起来,共有五个人同时使用这个网络!我们不论是在家里、咖啡厅、餐厅、商场或是公司,都会面临到周遭充斥着非常多的无线路由器(AP),若同时间每位使用者透过手机、平板或是笔电连接到相同的一个网络,可想而知网络上的壅塞及相互干扰
    百佳泰测试实验室 2025-03-06 16:50 127浏览
  • ​CS6212是一款可分别用于USB Type-C主机/显示端口源应用的带重定时的有源开关。这设备符合USB 3.2标准版本1.0和USB Type-C标准上的VESA DisplayPort Alt模式 1.0版,支持通过GPIO或12C进行灵活的模式切换。此设备支持USB 3.2第2x1代 运行速度高达10Gbps,DisplayPort 1.4运行速度高达HBR3 8.1Gbps。CS6212管脚分布及功能定义:CS6212支持重定时器训练,并支持USB 3.2标准中定义的状态状态机(RT
    QQ1540182856 2025-03-07 10:09 138浏览
  • 概述随着工业4.0的深入推进,制造业对自动化和智能化的需求日益增长。传统生产线面临空间不足、效率低下、灵活性差等问题,尤其在现有工厂改造项目中,如何在有限空间内实现高效自动化成为一大挑战。此次项目的客户需要在现有工厂基础上进行改造,空间有限。为此,客户选择了SCARA型线性轴机器人作为执行设备。然而,SCARA机器人的高效运行离不开强大的控制系统支持。宏集凭借其先进的智能控制系统,为客户提供了高效、灵活的自动化解决方案,确保SCARA机器人在有限空间内发挥最大效能。一、客户需求在此次改造项目中,
    宏集科技 2025-03-06 11:27 180浏览
  • 服务器应用环境与客户需求PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,P
    百佳泰测试实验室 2025-03-06 17:00 150浏览
  •        深夜的公园里,当路灯熄灭后,传统监控摄像头只能拍出模糊的黑白画面,仿佛老式胶片电影里的场景。而搭载为旌瑶光ISP的摄像头,却能像猫科动物一样,在几乎全黑的环境中捕捉到行人衣服的颜色、树叶的纹理,甚至快速跑动的宠物狗毛发细节。这种从“黑白默片”到“全彩4K电影”的跨越,背后是为旌瑶光ISP对传统红外补光技术的颠覆性创新。一、传统方案之困:被红外光“绑架”的夜视世界        传统安防摄像头依赖红外
    中科领创 2025-03-07 16:50 261浏览
  • Sub-GHz,即工作频段低于1GHz的无线通信技术,常见频段有315MHz、433MHz、868MHz与915MHz等。其可借助无线电波在自由空间传播的特性,把数据调制到射频载波上进行传输,达成物联网设备间的无线通信,是物联网设备实现高效、稳定、无缝交互的“通信基石”。典型射频信号(无线电波)收发电路简示在工业自动化、智慧城市、智慧农业与智能家居等物联网领域中,LoRa、Wi-SUN、Z-Wave、Sigfox等工业级通信协议大多运行在Sub-GHz频段。而正是通过Sub-GHz射频技术,传感
    华普微HOPERF 2025-03-07 11:39 138浏览
  • 随着自动驾驶技术的迅猛发展,构建高保真、动态的仿真场景成为了行业的迫切需求。传统的三维重建方法在处理复杂场景时常常面临效率和精度的挑战。在此背景下,3D高斯点阵渲染(3DGS)技术应运而生,成为自动驾驶仿真场景重建的关键突破。一、3DGS技术概述与原理1、3DGS的技术概述3DGS是一种基于3D高斯分布的三维场景表示方法。通过将场景中的对象转化为多个3D高斯点,每个点包含位置、协方差矩阵和不透明度等信息,3DGS能够精确地表达复杂场景的几何形状和光照特性。与传统的神经辐射场(NeRF)方法相比,
    康谋 2025-03-06 13:17 246浏览
  • 深圳触觉智能SOM3506核心板现已上市,搭载瑞芯微RK3506B/J超低功耗处理器(1.5GHz三核A7+M0),低功耗满载仅0.7W,支持40℃~85℃工作环境,即日起宽温级59元/工业级68元,特价开售!芯片介绍RK3506是瑞芯微Rockchip在2024年第四季度全新推出的Arm嵌入式芯片平台,三核Cortex-A7+单核Cortex-M0多核异构设计,CPU频率达1.5Ghz, M0 MCU为200Mhz。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机
    Industio_触觉智能 2025-03-07 10:03 131浏览
  • 深圳触觉智能RK3506开发板现已上市,开启预售!搭载瑞芯微RK3506B/J超低功耗工业处理器(1.5GHz三核A7+M0,主频1.5GHz);支持1280×1280显示、双百兆网口、星闪无线三模,板载高达2路CAN FD与5路串口。RK3506适用场景简介工业控制‌:RK3506适用于工业控制、工业通信、人机交互等应用场景。其多核异构架构(3xCortex-A7+Cortex-M0)和外设接口丰富,支持Buildroot、Yocto系统,适合轻量级HMI应用‌。‌工业通信‌:RK3506均支
    Industio_触觉智能 2025-03-07 10:04 112浏览
  • 一、系统概述MYD-LD25X搭载的Debian系统包含以太网、WIFI/BT、USB、RS485、RS232、CAN、AUDIO、HDMI显示和摄像头等功能,同时也集成了XFCE轻量化桌面、VNC远程操控、SWITCH网络交换和TSN时间敏感网络功能,为工业设备赋予“超强算力+实时响应+极简运维”的体验!类别名称描述源码TF-AArm Trusted Firmware 2.8OP-TEEOP-TEE 3.19BootloaderU-boot 2022.10KernelLinux Ke
    米尔电子嵌入式 2025-03-07 14:08 217浏览
  • 近年来,越来越多的企业在5S管理的基础上,开始追求6S、7S甚至8S管理,仿佛S越多,管理就越先进,企业就越优秀。于是,6S增加了“安全”,7S又加上了“节约”,8S甚至引入了“学习”……看似更加全面,实则很多企业只是机械地增加S,却忽略了管理的核心目标:提升效率、降低浪费、优化工作环境。优思学院认为,5S本身已经是一套成熟的精益管理工具,它的核心理念不仅简单高效,而且易于实施和推广。如果企业只是为了赶时髦,盲目增加S,而没有真正理解5S的本质,那么这些额外的“S”很可能会变成管理上的负担,而不
    优思学院 2025-03-07 12:43 160浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦