跨模态数据检索+企业级RAG双擎驱动,海贝向量数据库成为企业数据价值挖掘新基建|爱分析调研

原创 爱分析ifenxi 2024-04-07 18:04
中国数据量规模增速全球第一,激活其商业和社会价值刻不容缓。但大多数企业局限于文本数据价值挖掘,而忽略了“多模态数据金矿”。这些企业对多模态数据采用“仅存储,不利用”的处理方式,导致原本的“数据金矿”成为“数据包袱”。因此,跨模态检索成为企业发挥多模态数据价值的必要条件。向量数据库作为跨模态数据检索引擎应运而生,前景广阔。
企业多模态数据在变多,其数据检索方式也在变革。用关键词进行检索的传统方式是“人适应机器”的产物,大模型崛起催生新型用户检索方式——自然语言交互,其本质是让机器适应人类。传统搜索数据库与大模型时代格格不入,自然语言交互检索方式下其召回率不到40%。向量数据库的工作原理更契合自然语言交互检索方式,召回率高达70%-80%。

企业多模态数据激增叠加数据检索方式变革,向量数据库逐渐成为企业标配。但是,企业落地向量数据库的过程并非一帆风顺,可能遇到容量、可用性、数据安全、可控性等方面的诸多挑战。2024年拓尔思推出海贝向量数据库,该产品具备磁盘方案、分布式、自研、融合检索技术等多项独特优势,将逐一解决落地挑战,助力企业在数智时代行稳致远。

01 

企业多模态数据激增叠加数据检索方式变革,向量数据库逐渐成为企业标配

企业多模态数据激增,向量数据库让“数据包袱”变成“数据金矿”
中国数据量规模增速全球第一,激活其商业和社会价值刻不容缓。IDC数据显示,中国数据量规模将从2022的23.9ZB增长至2027年的76.6ZB,年均增长速度达到26.3%,为全球第一。其中,政府、媒体、专业服务、零售、医疗、金融是主要分布领域。对各领域参与者而言,激增的数据一方面意味着更大的数据治理和分析管理压力,另一方面意味着他们的数据价值挖掘工作必须要加快脚步。
大多数企业局限于文本数据价值挖掘,而忽略了“多模态数据金矿”。模态(modal)是事情经历和发生的方式。对于企业而言,他们的数据资产一般包括文本、视频、图像、音频等多种模态。企业以视频、图像为载体进行信息交互的场景愈发普遍,如今的企业多模态数据比以往任何时候都要多。但是,这些多模态数据利用起来了吗?调研结果显示,包括行业领导者在内的大多数企业仍以传统搜索数据库为主要方式来存储、分析数据,此类数据的工作原理是通过关键词匹配实现结果查询。该方式主要适用于文本类数据,企业对于其他模态数据缺乏有效使用手段,仅仅是把它们存储起来。如果企业对多模态数据采用“仅存储,不利用”的处理方式,它们对企业而言,名为“数据金矿”,实为“数据包袱”。
跨模态检索是企业发挥多模态数据价值的必要条件。跨模态检索是指在不同模态(如文本、图像、视频、音频)的数据之间进行检索的技术,即通过查询一个模态的数据来检索相应的其他模态数据。例如,用户通过语音输入进行查询,系统能够返回与语音相关的图像、文本或视频等其他模态的数据。相较于之前的单一模态检索,企业实现跨模态检索之后,可以对企业搜索、智能推荐等应用系统进行全面升级,实现效率、用户体验等方面质的飞跃。
向量数据库作为跨模态数据检索引擎应运而生。向量数据库是一种新型数据库,其工作原理是对各种模态的数据进行向量化处理。向量化是指将非结构化数据(如文本、图像、视频、音频)通过一些算法转换为一组数字向量的过程。
图表1:数据向量化过程示意图

不同于传统搜索数据库通过关键词匹配实现结果查询的工作原理,向量数据库允许基于数据的向量距离或相似性进行快速准确的相似性检索,实现从关键词检索向语义检索的转变。基于此,用户可以实现很多在传统搜索数据库时代难以想象的的操作。例如,用户可以根据文本内容查找与之相匹配的图像,根据文档的主题和情感查找其他相似的文档,以及根据功能和评级查找与给定产品相似的产品。
数据检索方式变革,向量数据库让“人适应机器”更好地迈向“机器适应人”
传统检索方式是“人适应机器”的产物,大模型崛起将催生新型检索方式——自然语言交互。传统检索方式的工作原理是通过关键词匹配实现结果查询,但这些都是“人适应机器”的产物。人类自然的检索方式应该是问答,例如向系统询问“公司A产品的库存还剩多少”,而不是在本意的基础上拆解出“A产品”、“库存”等关键词去检索。2023年是“大模型元年”,大模型不断扩大的规模由“量变”引发“质变”,模型通用认知能力持续提升。ChatGPT是基于大模型技术打造的首款现象级应用,它具备强大的语义理解能力,支持用户使用自然语言进行提问,并输出符合人类阅读习惯的答案。大模型和ChatGPT带来的卓越体验,正在改变人类的检索行为。
传统搜索数据库与大模型时代格格不入,自然语言交互检索方式下其召回率不到40%。幻觉是众所周知的大模型短板,RAG是业内普遍采用的一种幻觉解决方案。RAG是指大模型在回答问题时,会先从大量的文档中检索出相关信息,然后将这些检索出的信息作为提问的上下文构建提示词,大模型再基于提示词进行归纳总结,生成答案。相较于其他大模型幻觉解决方案,RAG支持知识便捷更新,并具备更强的结果解释性,因此在缓解大模型幻觉方面效果更好。同时,RAG的成本和技术门槛也更低。RAG涉及文档检索过程,因此会用到数据库。如果使用传统搜索数据库,其仍然是机械地进行分词再进行关键词匹配,效果欠佳,召回率不到40%。(注:召回率是评价检索效果的核心指标之一,是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。)
向量数据库作为RAG引擎,其工作原理更契合自然语言交互检索方式,召回率高达70%-80%。向量数据库的核心工作原理是数据向量化。从技术角度而言,向量化是指将高维度的离散数据(如文本、图像、视频、音频)映射到低维度的连续空间中,生成稠密向量,从而更好地捕捉数据之间的潜在关系和语义信息的方法。相较于传统搜索数据库不到40%的召回率,向量数据量的召回率高达70%-80%。在用户检索行为从“关键词”转向“自然语言交互”的背景下,向量数据库更能胜任。
02
企业落地向量数据库的四大挑战:容量、可用性、数据安全、可控性

企业多模态数据激增叠加数据检索方式变革,向量数据库逐渐成为企业标配。但是,企业落地向量数据库的过程并非一帆风顺,可能遇到四大挑战。一是企业数据量持续提升,带来容量挑战。二是厂商扎堆单机版向量数据库,带来可用性挑战。三是数据机密性偏弱和过于依赖开源,带来数据安全挑战。四是检索结果不合符预期且缺乏调控手段,带来可控性挑战。

挑战1 企业数据量持续提升,带来容量挑战

由于向量的高维特性,向量数据库无法使用传统的数据结构进行索引,而是依赖内存索引。企业需要将所有数据保存在内存中,导致向量数量受内存大小限制。目前,内存方案上限是1000-2000万个向量数据的存储规模,约等于几十万篇文档。

随着企业数据量持续提升,将很快达到向量数据库的存储上限。特别是对于媒体、金融等文档数量巨大的行业而言,企业数据量提升带来的容量挑战迫在眉睫。

挑战2 厂商扎堆单机版向量数据库,带来可用性挑战

提供单机版向量数据库的厂商比较多,此类产品适用于对高可用性和容错性要求不高的场景,推荐个人开发者、小型企业或测试/开发环境使用。对于适合需要保证系统高可用性和容错性的大型企业或关键业务场景而言,单机版向量数据库较难满足实际业务需要。在大数据环境中,节点故障和负载变化是常见的挑战,它们可能导致系统性能下降甚至系统崩溃。但是,厂商通常不承诺单机版向量数据库的可用性。

挑战3 数据机密性偏弱和过于依赖开源,带来数据安全挑战

企业在数据安全方面,主要有两点担忧。一是,企业担心向量数据库存在数据机密性偏弱的问题,导致数据泄露。向量数据库厂商大多处于初创阶段,企业担心这些厂商成立时间较短,发展前期仅专注技术层面,在权限设置等数据机密性方面的功能缺乏积累。二是,企业担心“开源换皮”型向量数据库产品存在卡脖子潜在风险。使用向量数据库的企业通常是规模较大、社会影响力较强的企业,其中不乏央国企背景的企业。这些企业对于开源或者“开源换皮”型产品比较排斥,担心带来卡脖子潜在风险。企业对此感到担忧是合理的,向量数据库的发展主要得益于2017年Facebook(Meta前身)的开源举措,因此市场上难免存在一些“开源换皮”型产品。

挑战4 检索结果不合符预期且缺乏调控手段,带来可控性挑战

向量数据库的工作原理是允许基于数据的向量距离或相似性进行快速准确的相似性检索,其检索结果可能会偏离用户本意。例如用户检索“苹果的价格是多少”,其本意是询问苹果这种水果的价格,但向量数据库可能会检索出苹果手机的价格。对于向量数据库而言,支持上层系统准确回答是其价值所在。当企业验收向量数据库及其上层应用时,除IT部门外,企业管理层和业务部门人员通常也会参加,系统的答案是否符合与会者预期关乎项目能否验收通过。如果不符合预期且IT部门缺乏调控手段,可能带来“结果不可能,没有业务价值”的负面评价。

03 

海贝向量数据库应对落地挑战的独门秘籍:磁盘方案、分布式、自研、融合检索技术

拓尔思作为数据处理技术服务提供商,在数据存储、检索等方面具有丰富经验积累。2024年拓尔思推出海贝向量数据库,该产品是市面上为数不多的既能满足向量数据库标准,又能满足搜索型数据库标准的国产自研软件。

相较于其他同类产品,海贝向量数据库具有四项独特优势,助力企业破除落地挑战。一是利用内存+磁盘解决方案替代纯内存方案,突破“容量天花板”。二是利用分布式向量数据库替代单机版,提升产品可用性。三是数据高机密性+软件自研,为数据安全提供保障。四是全文索引和向量索引融合,提升检索结果可控性。
优势1 利用内存+磁盘解决方案替代纯内存方案,突破“容量天花板”
海贝向量数据库支持内存+磁盘解决方案,帮助数据量较大的企业突破“容量天花板”。相较于纯内存解决方案,该解决方案的存储上限扩展至数亿个向量数据的规模,约等于数百万篇文档。
引入磁盘可能带来效率下降的问题,海贝向量数据库主要通过优化检索技术来解决该问题。第一,海贝向量数据库引入了内存索引、列存储、索引分片等技术,进一步提高数据存储、检索和分析的效率。第二,海贝向量数据库具备分时归档视图,不仅可以实现冷热数据自动分区,同时还支持多种存储混合使用以提供高效的检索服务。第三,海贝向量数据库通过对各类型服务器硬件的匹配支持,能够充分发挥硬件性能。
内存+磁盘解决方案不仅提升容量,而且存储成本更低。存储空间相等的前提下,磁盘价格仅有内存价格的10%-20%。对于企业而言,这是一笔不可小觑的IT支出。
优势2 利用分布式向量数据库替代单机版,提升产品可用性
海贝向量数据库提供分布式解决方案,使用多个节点组成一个集群,来满足企业的业务需求。分布式向量数据库可以确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。当系统中的某个节点发生故障时,海贝向量数据库能够自动将请求路由到其他可用节点上,保证系统对外提供服务的连续性和可用性。同时,海贝向量数据库还能够动态地调整副本之间的负载分配,确保每个节点都能够充分利用资源,提高系统的整体性能和吞吐量。
优势3 数据高机密性+软件自研,为数据安全提供保障
海贝向量数据库通过完善的权限管理机制、HTTPS、加密存储等机制解决数据访问和数据存储的机密性问题。海贝向量数据库支持数据与索引的完全加密,支持国产加密卡,可达金融级数据安全。并且,拓尔思从底层搭建海贝向量数据库,不依赖开源产品,可实现自主更新迭代。
优势4 全文索引和向量索引融合,提升检索结果可控性
海贝向量数据库采用全文索引和向量索引融合的检索方式,即用户可以在输入框里明确要求检索到的文档里必须包含或不包含某些关键词,然后海贝向量数据库会先在文档库中检索一遍,获取符合要求的文档,然后在此范围内再使用向量检索。
该方式具备四项优势,一是两者结合能够为用户提供更加全面和准确的搜索结果。二是降低检索计算成本。通过关键词检索,企业可以在最初阶段过滤掉大量无关的数据,从而缩小向量检索的空间。关键词检索的计算成本远低于向量检索,因此该方式有利于降本。三是降低企业维护难度,企业无需维护两套系统。对企业而言,即使采用向量数据库,也无法完全弃用文本库,届时需要同时运维向量库和文本库两套系统。海贝向量数据库同时具备向量库和文本库的功能,两个库的数据可以即时同步,无需企业维护两套系统。四是提升向量数据库运行稳定性。采用向量检索需要面临文本拆条的颗粒度问题,太小太细会造成索引空间急剧膨胀,太大则无法描述细微的语义,导致语义信息丢失。关键词检索则在一定程度上可以解决该问题。
最佳实践:海贝向量数据库联动拓天大模型,为某出版社提供端到端RAG解决方案
某出版社采用基于海贝向量数据库的RAG解决方案来实现历史事件时间校对。项目通过分析历史数据,对各种历史事件的名称、时间、地点、详情等多种维度信息进行提取、建模,并将事件信息向量化以后存入海贝向量数据库,完成历史事件知识库的构建。然后,拓尔思将该历史事件知识库作为外部知识源挂入拓天大模型(拓尔思自研大模型),辅助大模型生成准确的校对结果。
注:点击左下角“阅读原文”,前往爱分析官网,了解更多内容。


爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 166浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 41浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 73浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 71浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 66浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 76浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 63浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 78浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 73浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 107浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦