挑战一:选择数据格式、架构和开发框架
实际上,流平台是一种变相大数据平台,流数据处理只是其总体功能的一个方面。通常,流数据能够通过适当途径进入本地或基于云的大型数据存储库。分析师和领域专家运用这些数据提取见解、掌握趋势及开发算法,从而实时应用这些算法处理数据流,改善运营并进一步发掘业务价值。数据结构及分析师、数据科学家和领域专家掌握的工具将极大地影响整个平台的采用和应用。
鉴于流数据通常由一系列带时间戳的数据包组成,因此 IT 团队和工程师应搜寻支持原生数据类型的工具以处理时序数据。这样,数据清理、可视化及模式探查将变得轻松。另外,这些工具还必须提供专为执行流处理所需的微型批处理/窗口化处理而设计的开发框架。该框架将包括存储处理结果临时状态的配置,以及大规模实施生成的算法的基础设施。这些功能不仅有助于提高算法的开发和运营系统部署效率,还能降低出错概率。
开发预测性维护算法(如剩余使用寿命 (RUL)、状态监测、资产绩效管理 (APM) 应用)时,通常需要监控资产的故障数据。经证实,对于高价值资产或安全关键应用,故障运行的成本过高或是不实际。在这种情况下,最好使用系统仿真工具生成合成数据,对算法开发过程中使用的真实数据进行补充。
挑战二:算法测试、验证、部署和生命周期管理
使用静态数据开发预测性算法是一方面,工程师还必需思考如何在运营系统中验证算法,确保妥善检测和报告资产运行状况。同时,还必须实施算法生命周期管理,确保生产环节的模型完整性。
为应对这些挑战,流平台应当能够重放存档流数据,以便执行算法测试和验证。该步骤往往在测试/验证系统上完成。测试/验证系统是生产流系统的小型副本。务必利用算法开发环境自带的调试功能,充分考量多方面能力,包括设置断点、监控变量以及整体了解按生产系统运行方式处理流数据时算法的行为模式。
与在算法开发阶段使用仿真数据一样,应使用系统仿真工具生成并传输合成数据,从而验证不利或极端案例。同时,还可通过仿真将数据输送至整个生产系统接受验收测试,以及输送至在线流系统作为基准。
鉴于这些系统对于推进指定组织运营的重要性日益提升,必须对部署算法的整个生命周期进行管理,从而确保完整性及合理使用,这与企业应用程序软件的管理如出一辙。在开发阶段,将涵盖以下一些能力:评估算法的准确性和有效性;管理用于开发算法的数据和评估结果;自动记录结果和算法应用相关的信息。而在运营阶段,不仅要管理算法版本,还要将性能与开发阶段采集的基准结果进行比较,确定是否需要调整或更新算法,或者是否全面停用和替换算法,以确保系统正常运行,这一点非常重要。鉴于这些平台通常全天候运行,系统应支持算法热部署、算法在线更新以及在算法更新遇到问题时还原。
挑战三:网络连接不可靠和/或远程设备传回的数据不确定
系统如何处理未按顺序抵达或已丢弃的数据包?如何设计可能并非始终与终端设备相连的系统架构?IT 团队和工程师采用的平台应支持在执行数据包分析之前的混洗及重新排序。很多时候,处理机器数据时会采用信号处理及时域和频域分析等技术提取特征。值得注意的是,为应用这些技术,必须根据原始事件发生的时间而不是注入到流系统的时间,对数据包进行排序。另外,还应设计处理环境,使用重定时、插值和平滑等方法清理时序数据。
系统架构师寻求的平台应支持将算法部署到各种系统,包括云、本地和边缘/嵌入式设备。当连接具有间歇性时,该功能支持将部分处理本地化至边缘设备。如果边缘设备与集中流处理基础设施之间的带宽有限,还可以实现数据缩减。
挑战四:扩展和性能
实时流系统必须在设置的时间段内对输入数据做出响应。它们持续运行,并随着新设备的上线不断调整。系统应根据通用流基础设施通常采用的分区方式进行扩展。创建新的主题或流时,还必须创建新的流处理上下文。探寻利用云和容器技术弹性的强大功能。系统应对数据批处理实施管理,确保不受 I/O 约束(暂停等待执行输入/输出操作)并充分利用平台计算资源。
挑战五:安全性
系统架构师必须预先考虑整个工作流程安全性,从开发到运营系统的部署。流平台需要与组织内部现有的安全层集成,从而支持单点登录 (SSO) 等功能及根据用户角色控制数据和系统访问。这也包括控制边缘设备访问,特别是利用流平台对设备实施某种监督控制的系统。与此同时,平台还必须支持实行数据保护,包括加密静态数据、动态数据及算法知识产权;特别是,如果算法可在云系统上访问或者在边缘设备或系统上运行。由于很多分析平台将算法作为脚本或未打包代码运行,这可能成为一项挑战。
流数据的时间价值
实时分析可提供关键见解,但从数据中收集的见解具有时间价值。例如,如果工厂对其设备运行机器运行状况监控,需就潜在设备故障发出提醒,为操作员预留充足的时间进行干预。系统架构师、数据工程师和安全架构师尽可能高效地避免潜在障碍并顺利部署实时流平台,将创造巨大价值。通过应对上述挑战,IT 团队将可以使用系统并开始提取即时的见解。
责编:Yvonne Geng
(本文由MathWorks供稿,电子工程专辑对文中陈述、观点保持中立)