中国数据量规模增速全球第一,激活其商业和社会价值刻不容缓。但大多数企业局限于文本数据价值挖掘,而忽略了“多模态数据金矿”。这些企业对多模态数据采用“仅存储,不利用”的处理方式,导致原本的“数据金矿”成为“数据包袱”。因此,跨模态检索成为企业发挥多模态数据价值的必要条件。向量数据库作为跨模态数据检索引擎应运而生,前景广阔。企业多模态数据在变多,其数据检索方式也在变革。用关键词进行检索的传统方式是“人适应机器”的产物,大模型崛起催生新型用户检索方式——自然语言交互,其本质是让机器适应人类。传统搜索数据库与大模型时代格格不入,自然语言交互检索方式下其召回率不到40%。向量数据库的工作原理更契合自然语言交互检索方式,召回率高达70%-80%。企业多模态数据激增叠加数据检索方式变革,向量数据库逐渐成为企业标配。但是,企业落地向量数据库的过程并非一帆风顺,可能遇到容量、可用性、数据安全、可控性等方面的诸多挑战。2024年拓尔思推出海贝向量数据库,该产品具备磁盘方案、分布式、自研、融合检索技术等多项独特优势,将逐一解决落地挑战,助力企业在数智时代行稳致远。
企业多模态数据激增叠加数据检索方式变革,向量数据库逐渐成为企业标配
企业多模态数据激增,向量数据库让“数据包袱”变成“数据金矿”中国数据量规模增速全球第一,激活其商业和社会价值刻不容缓。IDC数据显示,中国数据量规模将从2022的23.9ZB增长至2027年的76.6ZB,年均增长速度达到26.3%,为全球第一。其中,政府、媒体、专业服务、零售、医疗、金融是主要分布领域。对各领域参与者而言,激增的数据一方面意味着更大的数据治理和分析管理压力,另一方面意味着他们的数据价值挖掘工作必须要加快脚步。大多数企业局限于文本数据价值挖掘,而忽略了“多模态数据金矿”。模态(modal)是事情经历和发生的方式。对于企业而言,他们的数据资产一般包括文本、视频、图像、音频等多种模态。企业以视频、图像为载体进行信息交互的场景愈发普遍,如今的企业多模态数据比以往任何时候都要多。但是,这些多模态数据利用起来了吗?调研结果显示,包括行业领导者在内的大多数企业仍以传统搜索数据库为主要方式来存储、分析数据,此类数据的工作原理是通过关键词匹配实现结果查询。该方式主要适用于文本类数据,企业对于其他模态数据缺乏有效使用手段,仅仅是把它们存储起来。如果企业对多模态数据采用“仅存储,不利用”的处理方式,它们对企业而言,名为“数据金矿”,实为“数据包袱”。跨模态检索是企业发挥多模态数据价值的必要条件。跨模态检索是指在不同模态(如文本、图像、视频、音频)的数据之间进行检索的技术,即通过查询一个模态的数据来检索相应的其他模态数据。例如,用户通过语音输入进行查询,系统能够返回与语音相关的图像、文本或视频等其他模态的数据。相较于之前的单一模态检索,企业实现跨模态检索之后,可以对企业搜索、智能推荐等应用系统进行全面升级,实现效率、用户体验等方面质的飞跃。向量数据库作为跨模态数据检索引擎应运而生。向量数据库是一种新型数据库,其工作原理是对各种模态的数据进行向量化处理。向量化是指将非结构化数据(如文本、图像、视频、音频)通过一些算法转换为一组数字向量的过程。不同于传统搜索数据库通过关键词匹配实现结果查询的工作原理,向量数据库允许基于数据的向量距离或相似性进行快速准确的相似性检索,实现从关键词检索向语义检索的转变。基于此,用户可以实现很多在传统搜索数据库时代难以想象的的操作。例如,用户可以根据文本内容查找与之相匹配的图像,根据文档的主题和情感查找其他相似的文档,以及根据功能和评级查找与给定产品相似的产品。数据检索方式变革,向量数据库让“人适应机器”更好地迈向“机器适应人”
传统检索方式是“人适应机器”的产物,大模型崛起将催生新型检索方式——自然语言交互。传统检索方式的工作原理是通过关键词匹配实现结果查询,但这些都是“人适应机器”的产物。人类自然的检索方式应该是问答,例如向系统询问“公司A产品的库存还剩多少”,而不是在本意的基础上拆解出“A产品”、“库存”等关键词去检索。2023年是“大模型元年”,大模型不断扩大的规模由“量变”引发“质变”,模型通用认知能力持续提升。ChatGPT是基于大模型技术打造的首款现象级应用,它具备强大的语义理解能力,支持用户使用自然语言进行提问,并输出符合人类阅读习惯的答案。大模型和ChatGPT带来的卓越体验,正在改变人类的检索行为。传统搜索数据库与大模型时代格格不入,自然语言交互检索方式下其召回率不到40%。幻觉是众所周知的大模型短板,RAG是业内普遍采用的一种幻觉解决方案。RAG是指大模型在回答问题时,会先从大量的文档中检索出相关信息,然后将这些检索出的信息作为提问的上下文构建提示词,大模型再基于提示词进行归纳总结,生成答案。相较于其他大模型幻觉解决方案,RAG支持知识便捷更新,并具备更强的结果解释性,因此在缓解大模型幻觉方面效果更好。同时,RAG的成本和技术门槛也更低。RAG涉及文档检索过程,因此会用到数据库。如果使用传统搜索数据库,其仍然是机械地进行分词再进行关键词匹配,效果欠佳,召回率不到40%。(注:召回率是评价检索效果的核心指标之一,是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。)向量数据库作为RAG引擎,其工作原理更契合自然语言交互检索方式,召回率高达70%-80%。向量数据库的核心工作原理是数据向量化。从技术角度而言,向量化是指将高维度的离散数据(如文本、图像、视频、音频)映射到低维度的连续空间中,生成稠密向量,从而更好地捕捉数据之间的潜在关系和语义信息的方法。相较于传统搜索数据库不到40%的召回率,向量数据量的召回率高达70%-80%。在用户检索行为从“关键词”转向“自然语言交互”的背景下,向量数据库更能胜任。企业落地向量数据库的四大挑战:容量、可用性、数据安全、可控性企业多模态数据激增叠加数据检索方式变革,向量数据库逐渐成为企业标配。但是,企业落地向量数据库的过程并非一帆风顺,可能遇到四大挑战。一是企业数据量持续提升,带来容量挑战。二是厂商扎堆单机版向量数据库,带来可用性挑战。三是数据机密性偏弱和过于依赖开源,带来数据安全挑战。四是检索结果不合符预期且缺乏调控手段,带来可控性挑战。
挑战1 企业数据量持续提升,带来容量挑战
由于向量的高维特性,向量数据库无法使用传统的数据结构进行索引,而是依赖内存索引。企业需要将所有数据保存在内存中,导致向量数量受内存大小限制。目前,内存方案上限是1000-2000万个向量数据的存储规模,约等于几十万篇文档。
随着企业数据量持续提升,将很快达到向量数据库的存储上限。特别是对于媒体、金融等文档数量巨大的行业而言,企业数据量提升带来的容量挑战迫在眉睫。
挑战2 厂商扎堆单机版向量数据库,带来可用性挑战
提供单机版向量数据库的厂商比较多,此类产品适用于对高可用性和容错性要求不高的场景,推荐个人开发者、小型企业或测试/开发环境使用。对于适合需要保证系统高可用性和容错性的大型企业或关键业务场景而言,单机版向量数据库较难满足实际业务需要。在大数据环境中,节点故障和负载变化是常见的挑战,它们可能导致系统性能下降甚至系统崩溃。但是,厂商通常不承诺单机版向量数据库的可用性。挑战3 数据机密性偏弱和过于依赖开源,带来数据安全挑战
企业在数据安全方面,主要有两点担忧。一是,企业担心向量数据库存在数据机密性偏弱的问题,导致数据泄露。向量数据库厂商大多处于初创阶段,企业担心这些厂商成立时间较短,发展前期仅专注技术层面,在权限设置等数据机密性方面的功能缺乏积累。二是,企业担心“开源换皮”型向量数据库产品存在卡脖子潜在风险。使用向量数据库的企业通常是规模较大、社会影响力较强的企业,其中不乏央国企背景的企业。这些企业对于开源或者“开源换皮”型产品比较排斥,担心带来卡脖子潜在风险。企业对此感到担忧是合理的,向量数据库的发展主要得益于2017年Facebook(Meta前身)的开源举措,因此市场上难免存在一些“开源换皮”型产品。挑战4 检索结果不合符预期且缺乏调控手段,带来可控性挑战
向量数据库的工作原理是允许基于数据的向量距离或相似性进行快速准确的相似性检索,其检索结果可能会偏离用户本意。例如用户检索“苹果的价格是多少”,其本意是询问苹果这种水果的价格,但向量数据库可能会检索出苹果手机的价格。对于向量数据库而言,支持上层系统准确回答是其价值所在。当企业验收向量数据库及其上层应用时,除IT部门外,企业管理层和业务部门人员通常也会参加,系统的答案是否符合与会者预期关乎项目能否验收通过。如果不符合预期且IT部门缺乏调控手段,可能带来“结果不可能,没有业务价值”的负面评价。
03
海贝向量数据库应对落地挑战的独门秘籍:磁盘方案、分布式、自研、融合检索技术
拓尔思作为数据处理技术服务提供商,在数据存储、检索等方面具有丰富经验积累。2024年拓尔思推出海贝向量数据库,该产品是市面上为数不多的既能满足向量数据库标准,又能满足搜索型数据库标准的国产自研软件。
相较于其他同类产品,海贝向量数据库具有四项独特优势,助力企业破除落地挑战。一是利用内存+磁盘解决方案替代纯内存方案,突破“容量天花板”。二是利用分布式向量数据库替代单机版,提升产品可用性。三是数据高机密性+软件自研,为数据安全提供保障。四是全文索引和向量索引融合,提升检索结果可控性。优势1 利用内存+磁盘解决方案替代纯内存方案,突破“容量天花板”海贝向量数据库支持内存+磁盘解决方案,帮助数据量较大的企业突破“容量天花板”。相较于纯内存解决方案,该解决方案的存储上限扩展至数亿个向量数据的规模,约等于数百万篇文档。引入磁盘可能带来效率下降的问题,海贝向量数据库主要通过优化检索技术来解决该问题。第一,海贝向量数据库引入了内存索引、列存储、索引分片等技术,进一步提高数据存储、检索和分析的效率。第二,海贝向量数据库具备分时归档视图,不仅可以实现冷热数据自动分区,同时还支持多种存储混合使用以提供高效的检索服务。第三,海贝向量数据库通过对各类型服务器硬件的匹配支持,能够充分发挥硬件性能。内存+磁盘解决方案不仅提升容量,而且存储成本更低。存储空间相等的前提下,磁盘价格仅有内存价格的10%-20%。对于企业而言,这是一笔不可小觑的IT支出。优势2 利用分布式向量数据库替代单机版,提升产品可用性海贝向量数据库提供分布式解决方案,使用多个节点组成一个集群,来满足企业的业务需求。分布式向量数据库可以确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。当系统中的某个节点发生故障时,海贝向量数据库能够自动将请求路由到其他可用节点上,保证系统对外提供服务的连续性和可用性。同时,海贝向量数据库还能够动态地调整副本之间的负载分配,确保每个节点都能够充分利用资源,提高系统的整体性能和吞吐量。优势3 数据高机密性+软件自研,为数据安全提供保障海贝向量数据库通过完善的权限管理机制、HTTPS、加密存储等机制解决数据访问和数据存储的机密性问题。海贝向量数据库支持数据与索引的完全加密,支持国产加密卡,可达金融级数据安全。并且,拓尔思从底层搭建海贝向量数据库,不依赖开源产品,可实现自主更新迭代。优势4 全文索引和向量索引融合,提升检索结果可控性海贝向量数据库采用全文索引和向量索引融合的检索方式,即用户可以在输入框里明确要求检索到的文档里必须包含或不包含某些关键词,然后海贝向量数据库会先在文档库中检索一遍,获取符合要求的文档,然后在此范围内再使用向量检索。该方式具备四项优势,一是两者结合能够为用户提供更加全面和准确的搜索结果。二是降低检索计算成本。通过关键词检索,企业可以在最初阶段过滤掉大量无关的数据,从而缩小向量检索的空间。关键词检索的计算成本远低于向量检索,因此该方式有利于降本。三是降低企业维护难度,企业无需维护两套系统。对企业而言,即使采用向量数据库,也无法完全弃用文本库,届时需要同时运维向量库和文本库两套系统。海贝向量数据库同时具备向量库和文本库的功能,两个库的数据可以即时同步,无需企业维护两套系统。四是提升向量数据库运行稳定性。采用向量检索需要面临文本拆条的颗粒度问题,太小太细会造成索引空间急剧膨胀,太大则无法描述细微的语义,导致语义信息丢失。关键词检索则在一定程度上可以解决该问题。最佳实践:海贝向量数据库联动拓天大模型,为某出版社提供端到端RAG解决方案某出版社采用基于海贝向量数据库的RAG解决方案来实现历史事件时间校对。项目通过分析历史数据,对各种历史事件的名称、时间、地点、详情等多种维度信息进行提取、建模,并将事件信息向量化以后存入海贝向量数据库,完成历史事件知识库的构建。然后,拓尔思将该历史事件知识库作为外部知识源挂入拓天大模型(拓尔思自研大模型),辅助大模型生成准确的校对结果。注:点击左下角“阅读原文”,前往爱分析官网,了解更多内容。