【复旦大学熊贇分享】如何在数据开放同时确保数据稀缺性不丧失和隐私不泄露?

点击蓝字 关注我们

SUBSCRIBE to US


IEEE x ATEC

IEEE x ATEC科技思享会是由专业技术学会IEEE与前沿科技探索社区ATEC联合主办的技术沙龙。邀请行业专家学者分享前沿探索和技术实践,助力数字化发展。


随AI技术的不断深入发展,医学人工智能应用如雨后春笋般迅速涌现,在医疗领域遍地开花。AI具有智能化、自动化的特点,能够通过强大算力解锁复杂数据、处理海量数据,在医学变革过程中发挥着无与伦比的重要作用。IEEE x ATEC科技思享会第三期会议特邀四位嘉宾围绕AI驱动下的医学变革—从生命科学到医疗管理独立TALK。


以下是复旦大学教授/博导、上海市数据科学重点实验室副主任、ATEC科技精英赛高级咨询委员会专家熊贇的演讲《医疗大数据:由浅入深、由繁至简》。


演讲嘉宾 | 熊 贇

复旦大学教授/博导

上海市数据科学重点实验室副主任

ATEC科技精英赛高级咨询委员会专家


《医疗大数据:由浅入深、由繁至简》

大家好,我是复旦大学的熊贇,感谢IEEE x ATEC科技思享会,非常高兴能够与大家分享医疗大数据的相关研究进展。

 

今天,我将从以下几个方面来进行介绍:首先我将介绍医疗数据的来源、类型和特点,然后重点介绍医疗大数据挖掘分析技术和开放互联技术的相关工作。

 

一、医疗大数据

我们都知道数据已成为一种新的生产要素。医疗健康关乎民生福祉。习总书记指出,要加快“互联网+医疗健康”发展。医疗数据的价值发现及其在药物研发、辅助诊断等方面都起到了非常重要的作用。数字医疗为实现优质医疗资源共享、解决医疗资源分配不均和就医成本高等问题提供了可行的方案。



医疗数据类型多样,常见的有患者的就医记录(包括患者的基本信息、就医诊断、用药等信息),也有以非结构化文本形式存在的电子病历及其诊断报告,还有医学影像、医疗试纸以及文献等各类数据。我们对这些数据进行分析,从中挖掘其价值,要针对这些不同数据的特点,从不同角度来看医疗数据并研究其相应算法。我们有单一来源的数据处理方式,多来源数据的处理方式,也有结构化、非结构化和多模态、多源异质数据的处理方式。

 

大数据的内涵包括了用数据解决问题和解决数据的问题。

 

前面我们分析了医疗大数据可以用到的各种数据类型,下面我们来看一下医疗大数据的问题和挑战。

 

医疗大数据包括了数据类型繁杂、数据质量较差、数据孤岛众多、数据安全薄弱和数据应用尚浅等问题。这些问题在其它领域里面也有共性。这也是我们之所以能够将现有的一些数据挖掘机器学习(例如自然语言处理、图像视觉处理等方法)引入的一个基础。但医疗领域对数据质量和分析结果的有效性的要求更高,因此,我们需要对这些共性技术加以改进。

 

对于类型繁杂的数据,我们需要采用多模态的数据融合技术,例如我们要将医疗影像和医疗报告文本的数据不同模态下进行对齐。对于数据质量差的,我们需要有专门的医疗数据规范化的技术,例如利用电子病历文本与ICD编码对齐这样的规范化的技术。医疗数据的高敏感、高隐私的要求和我们在做医疗智能分析时对数据全面特征的需求,两者之间存在着矛盾,这就需要我们要有更为有效的共享互联机制和技术支撑。

 

为此,我们针对上述研究开展了工作,研制了一系列的医疗数据智能分析和开放互联技术。

 


二、挖掘分析:由浅入深

下面我们就其中的大数据挖掘分析技术和开放互联技术展开重点介绍。


在分析挖掘方面,我们的研究工作是由浅入深发展的。首先我们在医疗大数据挖掘方面,包括了从单一来源的就医数据的简单挖掘到基于深度学习的特征表示,从结构化到非结构化和跨模态数据的深度学习方法在医疗影像和文本方面的分析,以及多源多模态的组学数据分析。

 

下面我们将进行展开介绍。



我们可以从一些患者的就医记录中看到患者的基本信息和用药记录等信息。我们可以使用最基础的训练模式,挖掘频繁模式挖掘算法,来得到患者的用药模式。例如上图中的三个患者,他们都有使用前面三种药物。可以看到三种药物之间存在着一定的用药关联。这种直观的方式可以带来一定的辅助诊断作用,但医疗实际场景下不同的用药顺序也反映了患者的疾病状态。比如先用某一种药和后用某一种药,治疗疾病的原理可能是不一样的。另外,用药的剂量也反映了该病人症状的治疗方案。



因此我们使用不同的方法,包括考虑统计频次的方式、考虑顺序的方式和考虑剂量的方式,得到的用药模式也是不一样的。

 

可以对于某一种用药以及其他相关用药进行展现。患者的用药特点反映了患者本身的特征,有助于对患者个性化的精准治疗。例如有相似用药模式的患者,他们更为相似,可以作为诊断的参考。但我们也发现这种简单的(参考)对反映用户特征方面仍然是有限和不足的。

 

随着深度学习技术的引入,可以利用患者更多的数据进行刻画,捕获更多的信息。比如刚刚只考虑了药物的顺序,但是药物用药之间的时间间隔以及前一状态对后一状态的影响等信息并没有考虑到。



为了能够更好地刻画这些多元复杂的因素,我们将患者行为进行一个图的建模,构建成一个二部图。这个节点分别是患者和用药。边上记录了丰富的交互行为,即在什么条件下、什么时间使用了某一种药物或药物的剂量以及药物的具体情况等等。现在我们的问题就转化为,得到图中的每一个患者节点的特征向量来刻画用户的特征,用于下游任务。比如对用户的相似性识别或者对用户分类,对于每一个节点都可以用深度学习模型得到一个特征向量。如果两个患者的特征向量相似,那认为这两个患者是足够相似的。

 

之所以采用图的建模,是因为首先能够更好的捕获时序依赖性,即建模了多个时间间的依赖关系。比如对于一个用户来说,他在每个不同的时间段、不同的时间点使用了药物。那可以知道他服用A药物以后可能还会服用B药物。因此深度学习的建模主要是能够最大化的用药共现概率,当用户来使用A这个药物时他会使用的下一个药物是什么的。



并且还能建模单个事件在不同条件下发生的概率及条件邻近性,例如患者在什么时候来使用这个药物。即我们的模型要能够最大化患者和用药,在某一个条件下面最大的概率。

 

我们再来看一下非结构化和跨模态数据方面的相关技术进展。



传统的基础文本分析方法可以用在医疗文本上。例如对于电子病历,进行特征抽取,然后得到它具有较多共性的文档,形成共性文模板。这种方法可以采用比较简单的SimHash来提取文本的特征。但可以看到这对于医疗本身的语义特征的提取是非常有限的。



因此,如果能够利用医疗领域中的结构化信息对文本进行规范化,那么可以更好的理解医疗文本。

 

以ICD编码为例,即这个医疗文本主要是以文本的非结构化的信息展示。但是每一个文本都会标注一定的ICD编码。因此可以实现给一个医疗文本,能够得到它对应的ICD编码。这其实是一个多标签的分类问题。我们采用的方式是对文本中的词进行嵌入表示学习。

 

然后引入图深度学习的方法。对于需要建模的ICD编码的层次关系进行图的表示。我们利用图卷积的方式得到每一个图的节点特征表示。在这种方式的支撑下,能够比原有的浅层模型或者没有加入图的模型得到有效提升。但在这个过程当中,对于文本的这个特征仍然是用通用领域的一个卷积模型来实现的。这里面也可以采用像BERT这样的预训练模型。



由于通用领域包含的医疗生物信息知识比较少,因此在通用领域上的预训练模型,比如BERT或者GPT,可能它不能够更好的学习到生物医学领域的知识,因而出现了一些专门利用生物医学语料库进行训练得到生物医疗领域专门的预训练模型。

 

我们所做的工作是在现有基础上,对医学文本预训练模型考虑到中文情景当中中文汉字各个部件之间的语义关系,再进行提取。比如每一个汉字,特别是对于疾病里面的一些汉字,它的部件其实体现了一定的语义特征。我们将每一个汉字拆成更小的图的形式,然后利用图的深度学习模型来得到各个部件的语义特征,再和通用领域的BERT进行结合,最终得到一个更好的反映医学文本特征的领域的预训练模型。



除了单一模态数据分析外,多模态的数据融合分析也可以做到更多的价值挖掘工作。例如除了传统影像中进行疾病检测之外,其实医学报告的生成也成为了当前的热点,即如何能够更好地利用文本数据,这个思想其实是来源于图像视觉领域里面通用领域的思想。它对于一个图片来说,不仅可以得到里面有哪些具体的物件,还能够生成一段相应的文本,即看图说话。

 

在医疗影像领域里面存在哪些更多的挑战呢?首先在医疗文本领域,文本报告描述的长度相对而言总是比较长的。对于一段比较长的文字,就会有一个常依赖的问题。另外要得到的异常区域比较小,挖掘、描述异常是一个挑战。



因此我们将主题的注意力机制,还有门控单元等技术、深度学习的技术应用到医疗影像文本报告的生成。我们的模型得到了更好的表述异常的描述句子。


我们也发现了另一个问题,即所能够获得的有些疾病的样本量可能是比较少的。因此提出了一个Few-shot GAN的方法,让我们能够生成更多的少见疾病的样本,并且还利用了疾病图卷积来建模疾病之间的内在关联性。即对于疾病的标签之间的关联性也进行了建模。这样对于一些少的疾病和其他相对更多的疾病之间的关联,可以有助于增强我们对疾病、少见疾病的语义的表示,进一步提高文本生成的有效性。



对于更多源复杂的数据而言,异质网络技术的发展对于组学数据利用起到了非常积极有效的作用。例如,可以构成一个上图这样的网络,在这个网络里面既有基因这种数据类型,又有疾病这种数据类型,甚至还有它对应的药物化合物以及这个化合物可能产生的副作用等信息。节点和节点之间,互相又有不同类型的关系。

 

通过这样的方式,如果要研究两个基因之间的相关性,不仅可以知道基因和基因之间是因为疾病相似,还是因为他们都是同一个疾病的靶向基因,亦或者是因为他们可能对于某一个药物的治疗都有非常重要的作用。可以采用异质网络里面的语义路径的方式。比如从上图可以看到,对于两个圆形的节点(基因节点),它可以是经过了如三角形(疾病)这样的一个语义路径,也可以是经过了方形(化合物)这样的一个语义路径。在这种情况下,可以得到更多的语义关系。

 

我们把这个问题简化一下。例如要去识别和一些miRNA相似的miRNA,可以通过这样的一个异质图谱,然后来考虑它不同的原路径。比如这两个miRNA之间是通过基因相似,还是通过疾病相似。



基于上述工作,可以进一步融合多源和多模态的数据来研究基于知识图谱的医学影像报告生成的任务。

 

前面提到医学影像和报告生成时,我们利用了医学影像的图像以及医疗文本。我们知道医疗文本或影像的一些标签和医疗领域的知识图谱之间也有相对应的关系,所以也可以把医疗知识图谱引入进来进行学习,可以得到更好的医疗影像文本报告。

 

但这里面还有一个挑战,也是我们正在研究的问题,即可能会有不同领域的知识图谱。在医学领域里面可能有来自于不同机构的多种知识图谱,需要对医学知识图谱进行对齐,这也是一个医疗领域知识规范化、质量处理的问题。


 

三、开放互联:由繁至简

从上面的研究内容可以看出,多种类型的医疗大数据目前已经有了相应的方法、应用和优化,并且已经显现出非常好的成效,但是医疗数据的来源本身也要考虑到安全性问题。

 

医疗数据的共享互联是一个开放的难题,我们就这方面的技术也开展了一些探索。以下是我们要探索的第三部分,开放互联。

 

因为开放技术的发展,使得琐碎的数据获取流程变得更加方便简单。我们原来要获得相应的医疗数据需要经过非常复杂的申请流程才能使用数据,并且在使用过程当中,大部分情况下对医疗数据的访问可能也是非常有限的。我们提出了一种数据自治的开放模式。这种模式是我们将数据封装在数据盒中,然后用户通过以数据盒为访问单位的形式来访问数据。数据拥有者有一个更自主制定哪些数据可被访问的方式。

 

此外,为了能对数据访问方式进行约束,我们在数据盒里面也提供了一个数据使用行为的检测功能。于是,对这些数据的使用者而言,可能他所需要的操作只是利用数据的一些统计信息,而不能够读取每条数据。在行为监测方面,我们就会加以限定。这种方式激发了数据拥有者更好、更方便地开放数据。对用户而言,以数据盒的方式进行使用也是非常方便的。从而,我们能够在数据开放的基础上保护数据的权益。并且在这里面我们还使用了区块链的方式对每一个使用过数据的用户行为加以记录,可以用于我们的追踪。

 

同时我们也会考虑,对于数据拥有者来说,提供数据的便利,即提供数据互联的接口。例如多个数据拥有方有多个系统,可以利用软件接口化技术实现数据的链接,即给出配置要求,从相应的系统里面连接接口,将数据与平台进行一个衔接。

 

在这个过程当中,数据使用者会受到数据互联平台的管控。比如说哪些使用行为是允许的、哪些使用行为是不允许的,我们会对这些日志进行记录。另外如果要使用这些数据进行智能分析时,会为这些数据分配相应的容器,即它能够使用哪些算力,然后它就可以对这些数据进行算法训练。

 

我们有机结合了数据、算力和方法三方面的优势。这样可以让数据拥有者的提供方更好地把他的数据贡献共享出来。数据管控方主要是保护数据的安全性;人工智能算法的研究机构或企业更关注于其研发的方法如何来进行分析和研究。所以通过上述方式,能够高效地按需提供实时的、高质的、互通的数据。目前已经形成了医疗大数据的互联互通系列技术,构建了医疗人工智能算法的训练实验场。

 


四、总结与展望

最后是总结。我们看到了浅层的医疗数据资源的利用已经产生了巨大价值,还有更多更新的技术可以进一步推动医疗大数据的利用和发展。因此还需要探索更深层次的一些数据资源的利用开发方法。当前,元宇宙技术在医疗行业的探索也得到了非常大的关注,这对医疗数据的分析和利用也提出了一些新挑战。

 

希望能够通过对医疗大数据更深入的分析和对互联技术更深的探索,更好地支持医疗健康数字化行业的发展,赋能未来的医疗,转变医疗服务模式,助推全面的健康,筑牢健康的基石。以上是我的分享,谢谢大家。


ABOUT  US


 IEEE 

作为全球最大的专业技术组织,IEEE在全球160多个国家和地区共有超40万名会员,其中学生会员超12万。

在电气及电子工程、计算机等其他技术领域中,IEEE出版了近三分之一的技术文献,其中包括每年出版的200本期刊和杂志,IEEE Xplore数字图书馆文献已超过500万篇。IEEE每年在全球举办超过1900个会议,会议成为了IEEE会员参与活动的重要形式,丰富和满足了会员的生活。IEEE 标准协会是世界领先的标准制定机构,并日益成为新兴技术领域标准的核心来源,其标准制定内容涵盖信息技术、通信、电力和能源等多个领域。如众所周知的IEEE 802有线与无线的网络通信标准和人工智能系统–IEEE 7000 标准解决了人工智能系统中的个人数据保护和安全保证的问题。

IEEE积极搭建开放共享的国际合作舞台,开展学术及科技交流活动,发展不同的科技和学术平台,希望可以充分发挥学会会员的协同效应,建立活跃的学术和技术创新生态,助力下一代专业技术人员的发展与壮大。



 ATEC 

  ATEC (Advanced Technology Exploration Community)前沿科技探索社区是由中关村实验室指导创立的信息领域前沿技术实践发展社区。社区致力于搭建面向新一代互联网相关技术的产学研合作平台,推动创新技术的产业应用研究,支持应用型技术人才培养,传播积极奋进的程序员/工程师文化。社区的发起单位包括清华大学、上海交通大学、浙江大学、西安交通大学和蚂蚁集团等。

借助与多所知名高校专家学者的深度合作,ATEC科技社区创立并持续运营“ATEC科技精英赛”项目。与业内常规的大赛不同,ATEC科技精英赛通过紧扣社会价值的命题设计、贴近真实环境比赛环境搭建,目标考察选手及其团队成员间的综合性命题解决能力。而基于大赛真实过程录制的业内首档代码竞技真人秀《燃烧吧!天才程序员》,则将全景呈现比赛过程中青年科技选手间的竞争与合作、隐忍与反击,真实展现中国年轻一代科技从业者奋发向上的精神和动力。

除ATEC科技精英赛外,ATEC科技社区积极推动着ATEC沙龙、ATEC实训平台等多个产研合作项目,践行“助力数字化发展”、“科技服务社会”的发展理念。


微信号|IEEE电气电子工程师

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


合成孔径雷达技术 描绘救灾的未来

自动驾驶checklist:我们现在处于什么阶段呢?

什么是数字孪生?

为什么人工智能需要同理心?

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
评论
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 70浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 86浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 71浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 105浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 86浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 45浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 52浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 101浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 68浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 41浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦