本文是 2022年有关人工智能及其延伸的数据科学领域的总结。2022年是AI最具影响力的年份之一,随着数据量的增加以及对数据驱动文化意识的接受,我们见证了不同的垂直行业如何在全年采用数据科学推动的新技术。深度学习、自然语言处理和计算机视觉等新兴技术在过去 12 个月内迅速发展,释放了以数据为中心的人工智能的新潜力,这也是吴恩达于 2021 年发起的一项运动。
在新冠疫情后的世界中,企业已将重点转移到更具创新性的数据科学方法上,以帮助可持续模型开发实践抵御数据质量问题的风暴。由于增量收益和业务需求上升,数据科学已成为 2022 年增长最快的技术行业之一。下面提到的一些趋势将成为改变 AI 领域范式的显着因素。
1. 预测分析重新定义业务战略
预测分析处于许多行业的前沿,包括银行、保险、医疗保健、制造、营销、销售、电子商务和零售。这种尖端的分析趋势很久以前就开始了,但是高质量数据的稀缺总是阻碍了这项技术在不同业务领域的发展。在当今世界,公司拥有大量结构化数据(客户关系管理 (CRM)、发票系统、产品数据库和联系人列表等)和非结构化数据(文档、视频、音频文件、社交媒体帖子和电子邮件) ) 格式。因此,最重要的是数据质量不应受到影响,以确保机器学习算法能够找到模式并准确预测未来事件。
为了解决这个问题,近年来大数据的出现和新兴的数据驱动文化帮助企业在一定程度上缓解了数据完整性问题。此外,随着越来越多的公司开始采用以数据为中心的 AI 方法,这种方法在 2022 年得到了更多的加速,这种方法更加强调在利用资源构建强大的机器学习模型之前解决数据质量问题。随着数据驱动文化意识的提高,我们绝对可以设想一个由预测分析推动的数据科学世界,提升做出更明智的数据驱动业务决策的过程。
2.自动机器学习
自动化的想法在当今的商业世界中非常普遍,因为它使公司能够加快决策过程并消除手动资源限制。数据科学领域也不例外,因为公司努力使机器学习自动化以收集业务洞察力并以更快的方式暗示预测。最终,这种愿望使我们想到了AutoML 的概念,该概念在 2022 年的机器学习领域变得非常流行。AutoML 系统通过使其更加用户友好来增强 ML 过程,因为它经常产生比手动编码更快、更准确的结果方法。
Microsoft Azure 中的 AutoML 框架
它还通过授权非专家创建和部署原始模型而无需数据科学家的帮助,开始打破知识壁垒。然而,人们越来越担心 AutoML 的进步可能会消除更多需要人类专业知识的工作。在我看来,没有什么可担心的,因为 AutoML 方法旨在快速准确地完成单调的建模工作,而无需人工干预,让数据科学家能够更专注于符合公司战略目标的复杂 ML 活动。
3.高级自然语言处理(NLP)
人工智能的一个子领域自然语言处理的需求在过去几年呈指数级增长。NLP技术的应用已经在众多行业中广泛应用。从文本分析到文档摘要,可以训练 NLP 模型来理解文本格式(如 PDF)或音频格式(如语音命令)的数据。
NLP模型的演变
2022 年,随着革命性语言模型Generative Pre-trained Transformer (GPT)的兴起,我们看到了该领域的更多进步。研究机构OpenAI在 2019 年对 GPT 模型进行了创新,并通过对大量文本数据进行训练,不断将其升级到更高级的版本,从而生成具有令人印象深刻的准确性和自然度的类人对话文本。他们的最新产品在 2022 年底引起了巨大轰动,因为新的 NLP 工具被证明是当前时代人工智能的巨大突破。ChatGPT 为 NLP 研究的巨大飞跃铺平了道路,因为该领域真正提供了具有合理现实目标的无限可能性。
4.改进的计算机视觉技术和Deepfake
与 NLP 一样,计算机视觉也是 AI 最令人兴奋的子领域之一,它涵盖了增强现实和计算机生成图像的世界。计算机视觉技术的市场价值持续增长,预计到2030 年底将达到 411 亿美元。正如之前预期的那样,这个 AI 领域很可能成为全年持续创新和突破的源泉。
计算机视觉已被证明在医疗保健领域是有益的,因为它不断帮助医学成像领域的进步。我们已经看到了一系列用例,例如 i) 内脏器官的 X 射线、CT 和 MRI 扫描的计算机辅助检查,ii) 显微骨折的检测,iii) 治疗结果和变化检测的长期监测iv) 新组织形成的早期检测,包括肿瘤。同样,我们观察到零售和汽车行业对这种人工智能技术的需求不断增长。没有水晶球,很难预测自动驾驶汽车的未来,但自动驾驶技术的出现无疑为 2022 年的 AI 初创公司吸引了更多投资。
此外,由计算机视觉算法提供支持的深度造假技术正在迅速成为主流,因为它使用户能够构建真人的逼真假货。人工智能驱动的 deepfake 的可信度非常值得怀疑,我们需要不断采购 deepfake 检测工具,以确保这项技术不会对社会产生不利影响。有多家 AI 初创公司开始研究构建 deepfake 检测软件,以保护这种新计算机视觉技术的完整性。
5. 数据隐私和人工智能治理
大数据的指数增长影响了数据科学。如果没有持续的数据供应,人工智能的重大进步是不可想象的,但不以数据隐私为代价。因此,公司需要通过遵守 GDPR、CCPR 和 SOX 等数据隐私法来保护其数据。最近数据泄露事件的激增引发了数据隐私法的实用性,这将很快成为公司沉迷于数据科学实践之前的新义务。
同样,我们观察到企业对人工智能的采用正在增加、基础模型的研究和 AI 开发使 ChatGPT、生成 AI 等用例变得更加复杂和强大。这些进步同时引起了业界的关注,并引发了行业内的问题,例如:我们如何确保机器学习/AI 算法和这些模型的输出没有偏差?我们如何信任构建机器学习模型管道的过程?公司已经开始意识到人工智能伦理实践的重要性,并得到包括人员、法规和技术在内的严格治理策略的支持。在暗示 2022 年实施 AI 治理方面,我们仍迈出了一小步,但可以肯定地说,采用 AI 治理的企业将来很可能能够在不违反任何合规性法律的情况下利用尖端技术。
小结
数据科学趋势在 2022 年产生了相当大的影响,可以肯定,它们将在未来几年继续为人工智能复兴的成功发挥作用。数据科学领域在不断发展,因此很难预测某些技术的寿命。但是,数据隐私和 AI 治理趋势很可能会继续增强,并减缓不符合 AI 道德准则的 deepfake 或机器学习模型的进展。