面对数据增长带来的严峻挑战,企业要想以大数据驱动持续业务发展,应该选择什么样的存储系统?
数据增长带来的严峻挑战
随着大数据时代的来临,企业数据团队如今每天需要处理的数据,已经超越了以往的任何时候。
据统计,2020年一小时产生的数据,比2000年全年产生的数据还多。未来3年全球产生的数据,将会比过去30年的还要多。数据的急剧增长,也给企业带来了极为严峻的挑战。
举例来说,需求最严苛的非结构化数据工作负载,譬如大量的图形和视频文件,分析、研究、基因组学和人工智能数据的大型存储库,半导体电子设计自动化,HPC高性能计算,以及许多其他计算场景等,让许多企业的存储系统显得捉襟见肘,疲于奔命。因为这些工作负载需要大量的CPU和GPU处理能力,并且需要系统具备无缝扩展容量和性能的能力。
不过,数据增长在给企业带来挑战的同时,也为企业开启了更多的机遇。来自麦肯锡咨询公司的一份分析报告指出,擅长利用大数据价值的企业组织将获得持续发展动能。这些能力涵盖了以下几个方面:一是更容易获取新的客户资源(多达23倍);二是更好地保留老客户(多达6倍);三是在市场份额上获得更好的成长(多达19倍)。
显而易见的是,与没有充分利用大数据分析平台的传统企业相比,大数据驱动型的企业组织能够获得更多的受益。因此对于广大企业来说,这是一个挑战与机遇并存的时代。
配置存储系统时的考量因素
众所周知,数据正在成为现代企业的核心资产。全球知名咨询机构IDC的分析也指出,企业在通过加速创新的数据分析计划,来实现数字化转型重要阶段和改善业务指标时,应该做好扩大数据存储的准备。那么面对飞速增长的数据,企业在配置存储系统时,应当重点考虑哪些方面的因素?
戴尔科技集团大中华区非结构化数据存储事业部高级经理李海表示,企业在搭建数据化平台的时候,应该着重考虑的要点包括有数据的安全性,数据的有效性,数据的及时可用,以及数据的延伸性、扩展性等等。
“企业在选择存储系统时,应该充分考虑自己的数据能不能随着业务的增长而得到迅速的扩张。譬如你今天的数据可能只有100PB,但是下个月就可能是300PB,你的存储架构是不是具备这样的弹性?是不是能够满足自身业务的数据增长?而且还是不同维度的增长?”李海说道。
李海接着指出,有时候企业数据量虽然没有多少变化,但是算力需求也会出现突然增长。譬如一家企业的数据可能今天需要的算力是“1”,但是明天需要的算力就突然变成了“10”。但另外一些用户又不一样,其需要的算力可能是固定的,但是数据则会出现不同时间点的跳跃。因此对于企业来说,无论是计算还是存储都需要不同的弹性,这些都是企业需要重点考虑的因素。
Cloudera的最高级别认证
怎样才能帮助企业应对数据增长带来的严峻挑战?如何在激烈的市场竞争中利用大数据驱动企业持续发展?怎样保障数据的安全性?如何有效地治理数据?怎样去做快照、复制和容灾?帮助企业解决这些问题,就是戴尔科技集团与Cloudera两家公司联合起来要做的事情。
2021年5月7日,Cloudera宣布在Cloudera Data Platform私有云版本上成功完成了Dell EMC PowerScale/Isilon 8.2.2质量控制测试套件(QATS)认证。现在,使用Dell EMC PowerScale与Cloudera Data Hub或Hortonworks Data Platform的客户,在迁移至业内首个企业数据云Cloudera Data Platform时可获得延展的技术支持。
值得一提的是,该质量保证测试套件(QATS)流程是Cloudera的最高级别认证,可对所有Cloudera产品套件的软件文档系统、新一代硬件和容器进行严格的测试。该认证紧跟多项帮助企业保持敏捷性和贴近数据的主要趋势,包括存储与计算解耦,虚拟化和容器化部署的快速采用,以及作为底层存储的对象存储日益普及。Dell EMC PowerScale上的Cloudera Data Platform可帮助企业整合最具灵活性、可扩展性、成本效益以及能够随时随访问数据的共享存储配置。
“QATS认证的好处是什么?就是帮助企业在搭建大数据平台选择我们两家的解决方案时,不需要再去做很多的验证,不需要再考虑我们两家模块上的契合度问题,因为我们已经做过大量的认证,包括每个模块、每个应用、每个访问、每种协议都已经帮客户验证过了,而且我们在实验室里模拟了很多环境,并且在运行中产生了大量的实践性的数据指南,从而会后继衍生出如何部署、调优、实现,提供大量的资料,来配合后期的用户去实现更好的搭建。这也是我们这次最高级别认证的含义,它不是一个简单的硬件和软件兼容性的认证,而是两个生态之间的契合性的认证,每个环节都实现了无缝契合。”李海表示。
“面对客户不同的需求和复杂的应用场景,要配合做QATS这样的最高级别测试,一定要深度的合作才可以做到。如果任意拿到一个厂商的界面上去做,很可能会出现各种各样的性能问题或者安全问题,让客户心急如焚又不知所措。而戴尔科技集团与Cloudera两家后台的实验室是互通的,这是建立在长期的合作基础上的,大家在沟通上有一致的语言,才能实现无缝契合和企业级的响应,这对于提升客户的满意度来说非常重要。”Cloudera大中华区售前技术总监刘隶放表示。
全闪存阵容再添新成员
伴随着数据基建市场的蓬勃增长,在经过对相关业内人士的调查之后,美国知名科技企业风投机构A16Z得出结论:一个现代化数据架构中,数据湖已成为数据分析架构中的中流砥柱,赫然在列数据分析架构的核心位置。
作为企业,自然都希望自己的文件存储系统能够跟得上数字业务不可预测的需求。而数据本地化、性能和经验证的技术,则是面向AI场景对基础设施的前三大考量因素。
来自ESG(Enterprise Strategy Group,企业战略集团)最近的一项研究发现,为了跟上数字业务的需求,用于非结构化数据的大数据/数据湖存储库是受访者投资最多的三个工作负载场景之一。要想充分释放数据的商业潜力,文件存储不仅要足够大,还必须速度快,易管理。这些需求正带来全闪存数据湖的增长。
戴尔科技集团迄今为止最强大的节点Dell EMC PowerScale F900,正是为现代化高性能数据湖而生。
作为戴尔科技集团旗下屡获殊荣的PowerScale全闪存阵容新成员,F900配有dual-socket的cascade lake处理器、全NVMe闪存并兼容NVIDIA GPUDirect,以处理最数据密集型的工作负载,并且拥有更大的灵活性和更多的可选择配置。
而对于企业来说,基于强大的PowerScale OneFS操作系统,可以轻松添加新的F900节点或用新的PowerScale节点替换旧节点,还能与现有的Isilon集群无缝兼容。而通过Dell EMC PowerScale F900,企业不仅可以获得更强大的功能和扩展能力,而且还能够从戴尔科技集团拥有超过250家ISV合作伙伴集成和认证的强大生态系统中获益。