邢文娜,宁睿
(西安航空职业技术学院,陕西西安 710089)
在医疗领域中,随着互联网、机器学习等高新技术的介入,医疗数据呈指数级增长。医疗数据被广泛应用于药品研发、临床诊断等诸多领域,这对于提高医院资源利用、降低医疗成本与提高医疗效率具有重要的意义。
群体医疗数据分析是指对一个特定区域内的群体进行医疗数据分析,从而得出规律性的结论。有效、精确的分析结果不但可以辅助诊断、优化医疗资源配置,还可以监控群体健康水平,辅助管理决策。在高职院校中,有大量的集体生活群体,对其进行规律性的医疗数据监控,可以有效保障群体的健康水平,及时发现各类疫情或某种原因引起的群体健康事件。数值型的医疗数据监控起来较为简单,而难点在于图形数据的有效分析与监控。
计算机断层扫描(CT)是诊断疾病的有效方法,医生可以通过CT 直观地检查患者的身体结构并有效地分析病情。实际治疗中医生会对每个患者采集数百个医学图像,处理与分析大量医学图像数据是一个较大的挑战,而这些图像数据则能反映出众多的有效信息。
文中提出了一种基于卷积自动编码器神经网络(CANN)的深度学习架构[1],用于肺结节的分类。首先利用原始图像补丁进行无监督的特征学习,而将少量标记数据用于有监督的微调参数,然后从输入图像中提取特征表示。实验结果表明,所提出的方法可以有效地通过数据驱动的方法提取图像特征,并更快地标注医学数据[2]。
文中基于深度学习架构的目标函数F由多层组成,而不是简单的f:X↦Y中从X到Y的直接映射[3]。具体而言,第一层L1接收输入图像x,最后一层LN是输出层。中间层包括3 个池化层与一个全通连接层[4],结构如图1 所示。
图1 自动编码器神经网络CANN架构
从原始CT 图像分割的图片区域被输入到CANN,将其用于分类。神经网络中卷积层的参数由自动编码器无监督学习确定,少量标记的数据用于微调CANN 的参数并训练分类器。该节主要探讨此次设计的CANN 结构、参数设置与训练方法[5]。
具体地,从原始CT 图像划分的图片区域可表示为x∈X,X⊂Rm×d×d,其中m表示图片输入通道的数量,d×d表示输入图像的尺寸[6]。标记的数据表示为y∈Y,Y⊂Rn,其中n代表输出分类的数量。通过CANN 模型从训练中推导出目标函数[7],即f:X↦Y和参数集θ。
此次的训练数据包括两个数据集,即未标记的数据集UD={x∣x∈X}与已标记的数据集D={x,y∣x∈X,y∈Y}。需要说明的是,UD用于无监督训练[8],D用于有监督的微调与分类器训练。
深度学习中,监督方法可用于数据驱动的特征学习,其中连接权重通过正向与反向传播算法进行更新[9]。与有监督的方法相比,无监督的方法可以直接接收未标记的输入数据,有效地减少标记数据的工作量[10]。
文中提出了一种用于无监督学习的自动编码器方法,自动编码器提取输出数据以重建输入数据,并将其与原始输入数据进行比较[11]。经过足够多次迭代后,成本函数达到了最优,这意味着重构的输入数据能够在最大程度上近似原始输入数据。
输入数据I表示m维向量I∈Rm。输出数据代码是n维向量code∈Rn[12]。标准自动编码器包括3 个主要步骤:
1)编码[13]。通过code=f(I)=σ(w·I+b)将输入数据I转换为隐藏层编码,其中w∈Rm×n且b∈Rn,σ是激活函数,此次使用Sigmod 与双曲正切函数。
2)解 码[14]。根据编码,通过式重构输入值O′,其中
3)计算平方误差Lrecon(I,O′)=‖I-O′‖3,即误差成本函数[15]。通过优化成本函数来实现最小平方误差,如式(1)所示。
自动编码器的无监督特征学习如图2 所示。
图2 自动编码器的无监督特征学习
卷积自动编码器将局部卷积连接与自动编码器相结合,从特征图的输入到输出的卷积转换过程称为卷积解码器[16]。通过逆卷积运算重建输出值,以及标准自动编码器无监督贪婪训练,可以计算编码与解码操作的参数。卷积自动编码器布局中的操作,如图3 所示。
图3 自动编码器结构
图3 中,f(·)代表卷积编码操作;f′(·)代表卷积解码操作。输入要素映射x∈Rn×l×l,可从输入层或上一层获取,其中包含n个特征图,每个特征图的大小为l×l像素。卷积自动编码器操作包括m个卷积内核,输出层输出m个特征图。当从输入图层生成输入特征图时,n表示输入通道数。当输入要素从上一层映射时,n表示前一层的输出要素映射的数量。卷积核的大小为d×d,其中d≤l。
通过随机梯度下降(SGD)将权重与误差降至最低,并优化卷积自编码器层。训练后的参数用于输出特征图,然后将其传输到神经网络下一层。
与常见的CNN 相似,卷积层连接到池化层,在CANN 中卷积自编码器层之后是最大池化层,如式(7)所示。
每个输入特征图根据池化区域的大小,分为n个无重叠区域。其中,代表第j个特征图的第i个区域,代表第j个输出特征图的第i个神经元,输入要素图的数量等于池化层中输出要素图的数量。池化操作后,可以减少特征图中的神经元,从而降低计算复杂度。
用于根据特征进行分类的Softmax 分类层位于多个卷积自动编码器层、最大池化层与全连接层后。文中将CT 图像分为两类。具体而言,来自分类器的代表结节与无结节的概率。
此外,在有监督的训练网络中,成本函数为交叉熵L,如式(9)所示。SGD 用于最小化交叉熵L,y是样本数据的标签。
1)卷积自动编码器
卷积层使用50 000 个样本无监督学习训练自动编码器,通过代价函数计算梯度并通过SGD 优化参数。具体执行时,每100 个样本包含在一个小批次中,每个批次的迭代次数为50。因此,每层的迭代次数为50×N/100。
2)全连接层和分类器
全连接层的输入来自最后一个池化层,Softmax分类器的500 个神经元输出兴趣特征。此次使用1 800 个带标签的数据分类训练,每个包含50个小批量样本。
图4 为训练样本数量对CANN 与MCCNN 的分类精度影响。结果表明,对于CANN 与MCCNN 方法,当数目均达到2 900 时,性能是最优的。随着数量增加到1 500 或1 600,CANN 呈现出性能向好的趋势。
图4 训练样本规模实验
文中将CANN、自动编码器(AE)、卷积神经网络CNN 与MCCNN 的分类性能与数据集D2 进行了比较,结果如表1 所示;变化率对比如图5 所示。
表1 分类性能比较
图5 变化实验
CNN 与MCCNN 使用了与CANN 相同的卷积架构。所提方法的准确率、精确度、召回率、F1 与AUC分别为92%、91%、91%、91%与0.97。AE 方法使用相同的未标记训练数据库,并在同一数据库上对其进行测试。由表1 可知,CNN 与MCCNN 方法的分类性能均低于所提方法。评估证明,无监督的特征学习与有监督的微调相结合可以显著提高性能。
图像相似性判断用于检索相似的结节,以供医生参考。相似性判断与结节分类必须考虑多个特征,例如结节的形态、密度、大小、边缘等。图像的相似度与分类如图6 所示。
图6 图像相似度实验
评估证明,无监督的特征学习与有少量训练集的有监督微调可以获得更优的性能。
文中研究了两种代表性的方法来辅助医疗图像数据分析。基于分割与手工特征提取的方法费时费力,而数据驱动方法可避免结节分割中重要信息的丢失。但由于标记的医学数据的稀缺性,这两种方法的可行性较差。
因此,文中提出了一种用于数据驱动特征学习的基于CANN 的方法。其中,对网络进行无监督的训练,并带有大量的未标记补丁,少量的标记数据用于微调网络结构。将所提出的方法应用于肺结节的识别、分类和相似性检查,解决了兴趣位置ROI 标记与标记数据不足的耗时问题,并通过综合实验验证了该方法的优越性。