新型冠状病毒肺炎(COVID-19)源于一种与严重急性呼吸道症候群(SARS)和普通感冒有关的冠状病毒。结合大数据(big data)和预测分析,以及人工智能(AI)和各种热传感器,可望有效控制这种传染病的疫情扩散,从而使其致死病例数降至最低。
由于目前对于这种病毒的检测能量有限,经常无法确定究竟有多少受到感染的病例数,使得这种病毒的真正危险性仍令人存疑。数据分析技术对于支持流行病学专家具有决定性的贡献。
数据分析就和数学一样,扮演着基本的作用。如同过去几年一样,数据科学先驱对于世界的影响深远,在疾病扩散之际,利用数据和分析推动重大改变与进展。从历史发展轨迹来看,数据分析的最早应用之一是在1854年伦敦宽街霍乱爆发(1854 Broad Street cholera outbreak)事件。第一批数据导向的流行病学家之一约翰·斯诺(John Snow)对于伦敦的致死案进行地理空间分析,从而隔离了疾病的来源。根据John Snow的分析,英国当局才能精准地采取防疫措施,迅速掌握传染病的扩散。
如何评估数据?
透过数据分析系统执行各种模型,已经证实能够大致上评估趋势的发展。例如最常见的“易感-感染-康复”(Susceptible-Infective-Recovered;SIR)模型,这种流行病学模型用于计算“在一个存在具传染力病例的密闭空间中,被感染病例随着时间逐渐增加的理论数”。该模型使用耦合方程式分析易感染人数S(t)、被感染人数I(t)以及康复人数R(t)。最简单的SIR模型之一是Kermack-McKendrick模型,这种流行病模型也被认为是许多其他同类分析模型的基础,其中,我发现Ettore Mariotti的分析最有意思。
首先要有一个岛屿,即人们无法自由进出的系统。在某个特定时间下,每个人可能存在以下某种状态之一:“易感染”、“被感染”和“康复”,因为从未患此病的人(S)很可能发病并在某个时间被感染(I),然后康复(R)。以CoVID-19而言,更适于为此SIR模型中增加一项“已暴露”(Exposed)状态,这包括了带有病毒但尚未感染确诊者(无症状带原者)——SEIR模型。
图1:SEIR模型(来源:triplebyte.com)
该SEIR模型考虑了两项因素:病毒的动态以及个体之间的互动。后者极其复杂,因而需要采用数据分析技术。透过这些模型与技术,让我们可以定义R0参数,用于表示被每一位感染者可能传染的人数。
例如,假设某个人A发病了,而系统中的R0 = 2,这表示A将会传染给2个人。这2个人分别传染给4个人,而这4个人将会分别再传染给2个人(因此4 x 2 = 8),依此类推。这突显了疾病是以乘法而非累加方式快速扩散。R0可以发生如图2所示的3种基本情况。
图2: R0基本情况(来源:Triplebyte.com)
关闭学校、体育馆等,减少了人们的社交互动,因而降低了R0。医疗系统是有限的,因此,将此参数降低到低于1极其重要。如果R0 > 1,那么疾病就会传播开来;唯有当R0 < 1时,才能让疾病消失。因此,为了减少R0,我们可以合理地期望政府采取更严格的政策来限制人们的行动性。
值得注意的是,R0衡量的是疾病的潜在传播途径,而非疾病传播的速度。以流感病毒的普遍性来看,其R0仅为1.3。R0值过高是引发群众担忧的原因,而不是引起恐慌的原因。
R0是平均值,因此可能受到超级传播者事件等因素影响。超级传播者是指一个被感染者传染给很多人。在SARS和MERS流行期间以及目前的Covid-19大流行期间,发生了多起与超级传播者有关的事件。这一类事件并不一定是坏兆头,因为它们可能显示持续让疫情流行的人数减少了。而且超级传播者可能也更易于掌握和遏止,因为他们的症状可能相当严重。
简言之,R0是持续变动中的参数。追踪每一个确诊案例以及疾病的传播极其困难,因此,R0的估算既复杂又具挑战性。其估算值经常随着新数据出现而改变。
那么,哪些技术解决方案能够减缓或终止Covid-19的传播并有效控制R0?当然,利用最新的AI技术结合手机GPS移动的数据,可以建立分析模型,用于预测哪些小区更有可能发生未来感染状况或哪些小区需要紧急采取消毒等行动。
大数据、AI与传感器
以传染病而言,临床数据在质和一致性方面的变动可能较大,甚至包括出现假阳性患者。大数据和AI可用于检查是否达到隔离要求,而机器学习则可用于药物研究。这些都是新数字技术为缓解冠状病毒紧急情况而发展出来的解决方案,像是许多亚洲国家,还采用数字技术成功实施各种防疫措施。
配备智能扫描仪和相机系统的无人机可用于检测那些不遵守隔离措施的民众,还可以量测人们的体温。例如中国大陆和台湾使用智慧相机拦截未戴口罩者,同时执行实时热感应以侦测是否有发烧的情况。
例如,中国AI公司SenseTime开发了一款即使戴着口罩也能扫描人脸的平台,而阿里巴巴(Alibaba)则开发了基于AI的新型冠状病毒诊断系统。SenseTime的非接触式温度检测软件已经实施于北京、上海和深圳的地铁站、学校和公共中心。同时,阿里巴巴开发基于AI的Covid-19诊断系统透过计算机断层扫描(即CT扫描)检测是否感染新型冠状病毒,据称准确率高达96%。
图3:病毒的进化(来源:graphen.ai)
Graphen与美国哥伦比亚大学(Columbia University)合作,尝试定义每个病毒基因定序的典型形式,并找出其变体。它采用仿真人脑功能的Ardi AI平台,储存这些变异的数据并使以可视化呈现。在图3中,每个红点代表一个病毒,绿点则代表一组具有相同的基因组序的病毒。点选红点还可查看病毒的信息,包括位置、性别与年龄等。
大数据是控制疫情的另一种有效工具。在紧急期间,它已被广泛用于改善监控系统,以绘制病毒传播图。
大数据的撷取和处理,需要设计用于收集和分析的新方法和新技术。例如以下四种大数据分析类型或方法:
• 描述性分析:发生了什么?描述业务流程或计划的现在与过去情况,以综合和视图方式呈现活动的绩效指标;
• 预测性分析:将发生什么?即使用回归分析和预测模型等数学技术,协助了解未来可能发生事件的资料分析工具;
• 规范性分析:需要做什么?用于确定有效的策略和营运解决方案;
• 自动化分析:根据执行分析的结果自动执行所需的操作与行动的工具。
阿里巴巴还开发了Alipay Health Code行应用程序(App),利用中国医疗保健系统提供的大数据,指示谁可以或被限制进出公共空间。
多伦多新创公司BlueDot采用AI建构的平台,开发可自动监控传染病扩散与预测的智能系统。在SARS传播期间,BlueDot平台已经取得了具体成效。2019年12月,BlueDot就曾经针对这种冠状病毒症状的严重性提出警告,如今也证实了其准确性。在BlueDot使用的工具中,还有一些采用自然语言处理(NLP)技术,可用于处理人们的语言及其表达方式。
美国生物科技公司Insilico Medicine同样致力于以AI预防疾病。该公司正开发下一代AI和深度学习途径,并将其应用于药物探索与开发过程中的每一步骤。Insilico Medicine目前开发的新技术,未来将可用于建议医师如何对抗冠状病毒分子的信息。在最近的分子分析后,Insilico Medicine的系统能够针对如何有效对抗冠状病毒提供反馈信息。该新创公司现正开发可为疫苗开发项目提供相关信息的数据库。
WeBank研究人员则采用卫星分析技术,确认炼钢厂中的热点所在,为产业的复苏提供了重要信息。
在疫情流行初期,这项分析显示钢铁产量降低至29%的最低产能水位。到了2月9日则恢复到76%。研究人员紧接着关注使用AI的其他生产类型和商业活动,其中之一是用于简单地计算大型公司停车场中的汽车数量。该分析显示,截至2月10日,在上海的特斯拉(Tesla)汽车生产已经完全恢复,而上海迪斯尼乐园(Shanghai Disneyland)等旅游景点仍在关闭中。
图4:比较2019年12月30日(左)和2020年1月29日的并排卫星影像显示,中国的钢铁产业活动仍处于低水位
(来源:spectrum.ieee.org)
透过分析GPS卫星数据,还可以确定哪些人正在通勤中。软件可用于计算每座城市中的通勤人数,并比较2019年与2020年同一日期的通勤人数。无论是2019还是2020年,在中国农历新年期间的通勤人数都大幅减少,但相较于2019年,2020年假期后上班人数并未恢复。随着疫情状况逐步受到控制,WeBank研究人员还计算出,截至今年3月10日,中国约有75%的员工已经返回工作岗位。根据这些曲线预测,研究人员的结论是,除了武汉之外,大多数的中国工人将在3月底恢复正常工作。此外,研究人员并预期今年第一季的经济成长将达到36%。
如今,全球各地的科学家和研究人员也在设法克服COVID-19的挑战,各种新技术正成为其有利的后盾。成功通过此次紧急状况考验的技术与解决方案,可望成为日后的产业标准。
编译:Susan Hong 责编:Yvonne Geng
(参考原文:Big Data and Artificial Intelligent Can Save the Earth From Covid-19,by Maurizio Di Paolo Emilio)