基于改进级联R-CNN的乳腺X线图像肿块检测

2021-01-13 07:19:32王生生丁雪松刘纯岩
东北师大学报(自然科学版) 2020年4期
关键词:肿块乳腺准确率

王生生,丁雪松,陈 鹏,刘纯岩

(1.吉林大学计算机科学与技术学院,吉林 长春 130012;2.吉林大学第二医院,吉林 长春 130041)

0 引言

乳腺癌是影响全世界女性的最主要的癌症之一.患有乳腺癌的女性病例占女性所有新诊断癌症的30%[1].每年有超过457 000人死于乳腺癌,占所有女性死亡人数的1.6%以上[2].早期发现并且采取正确治疗可以大大提高乳腺癌存活率.大多数研究表明,乳腺钼靶X线摄影检查可以降低乳腺癌的死亡率[3].参加乳腺癌筛查计划的女性在确诊后10年内死于乳腺癌的风险降低60%[4].大量研究表明,在之前的乳腺X线图像的回顾性研究中有20%~30%的癌症被遗漏[5-7].

为了减轻放射科医师的繁重工作并提高临床实践中检测的灵敏度,计算机辅助检测和诊断(CAD)系统为放射科医师对乳腺X线图像的诊断给出可供参考的“第二意见”.对此,已经有多项研究利用精心设计的手工特征来构建CAD系统用于检测识别乳腺X线图像中的肿块.J.Virmani等[8]提出了一种识别乳房密度的CAD系统,其中对纹理特征向量进行主成分分析(PCA)以减少特征空间维度;C.Muramatsu等[9]利用纹理特征将乳腺X线图像病变分为良性和恶性;H.X.Li等[10]构建了基于局部轮廓特征的CAD系统用于良性和恶性肿块的分类;S.A.Taghanaki等[11]提出了一种基于深度自动编码器网络的多目标优化方法;V.Pomponiu等[12]提出了一种基于方向梯度直方图(HOG)描述符的CAD系统,使用支持向量机(SVM)对目标进行分类.以上CAD系统大多基于传统的手工设计特征,手工特征的设计、提取是耗时且麻烦的手工过程,在此过程中经常会出现错误.此外,这些CAD系统无法在单个框架中实现检测和分类.

作为手工设计特征的传统方法的替代方案,卷积神经网络(CNN)可以从整个数据中提取更好的特征.事实证明,对于许多模式识别任务中CNN的表现已经达到甚至超过人类表现[13-15],这些模型在医学图像分析中非常有前景.2016年,Z.C.Jiao等[16]提出了一种基于深层特征的CAD系统用于对乳腺癌的良恶性肿块进行分类,利用从2个不同层提取的深层特征来训练模型;2016年,Q.Abbas[17]提出了一种名为DeepCAD的CAD系统,该系统利用深度学习使用其对预定义的感兴趣区域的乳房进行分类;2016年,N.Dhungel等[18]提出一个基于级联的深度学习和随机森林分类器的CAD系统;2017年,N.Dhungel等[19]设计了一种最少的用户干预CAD系统用于乳腺X线图像中乳房肿块的分割和分类.此外,W.T.Yang等[20]在2019年提出一种基于卷积神经网络结合乳腺X线图像两种视图对病例做出一种预测,从而实现乳腺X线图像分类;2019年,B.Hinton等[21]使用从ImageNet初始化的权重进行深度学习网络的迁移学习以对乳房X线照片进行分类;R.Agarwal等[22]提出一种基于CNN补丁方法用于全视野数字化乳腺X线图像(FFDM)中肿块自动检测.以上提出的方法只能对乳腺X图像进行分类,分类不能定位癌症区域,然而对癌症区域的定位有利于对病例进行进一步的诊断和治疗.2017年,R.Platania等[23]提出了一种基于You Only Look Once(YOLO)的称为BC-DROID的CAD系统,其在检测肿块位置时的总体准确率高达90%.2018年,M.A.Al-antari等[24]开发了一种基于深度置信网络(DBN)的CAD系统,可自动检测并识别乳腺肿块区域并分类,其产生的识别率高达92.33%.然而,这些方法应用到临床实践时仍存在遗漏和误报等问题.

为了提高临床实践中对乳腺X线图像中肿块的检测灵敏度,本文提出了一种基于空间约束和多特征融合的多级目标检测架构(SC-FU-CS RCNN),用于检测乳腺X线图像肿块.该框架可以检测并且定位任何包含异常的区域,并根据这些区域提供诊断.本文框架的工作流程如图1所示,该方法可以从完整的乳腺X线图像中实现检测可疑区域并且给出相应诊断.

图1 SC-FU-CS RCNN检测框架的工作流程

1 算法描述

1.1 基于深度学习的多级目标检测架构

图2 Faster R-CNN 框架

SC-FU-CS RCNN的核心是Cascade R-CNN[25].在文献[25]中,扩展了Faster R-CNN[26-27]的两阶段架构,如图2所示.第一阶段是一个提议子网络(H0),通过训练生成初步检测假设,称为目标提议;第二阶段是这些提议对感兴趣区域检测子网络(H1)的输入,最终分类分数(C)和边界框(B)分配给每个目标提议.实验验证了增加IoU阈值u对目标检测器检测精确度的影响,实验证明目标提议自身阈值与检测器训练阈值相近时表现最佳.此外,本文使用了级联回归的方法对样本进行重新采样以解决单个IoU水平优化的检测器在其他水平上不一定能达到最优表现的问题.框架中下一级的输入数据被设计为上一级的输出.这样设计是因为实验发现通过边框回归器输出IoU总是比输入IoU更好.本文采用RPN[26]获得目标提议.

1.1.1 多级边框回归

在进行边框回归时,候选框被定义为向量b=(bx,by,bw,bh),其中bx,by分别代表边框中心点坐标;bw,bh代表边框的长和宽.使用回归器f(x,b)将候选边界框b向目标边界框g进行回归.其中损失函数定义为:

(1)

Lloc(yi,gi)=smoothL1(yi-gi);

(2)

(3)

SC-FU-CS RCNN中的级联回归,采用一系列特定的回归量来实现,公式为

f(x,b)=fT∘fT-1∘…∘f1(x,b).

(4)

其中T是级联阶段的总数,每个fT是对对应阶段{bt}进行回归的.

1.1.2 分类

定义分类器函数h(x),分类器将样本x分类成M+1个类中的一类,其中类0包含背景和要检测的目标.h(x)是类别后验分布的M+1维估计,即hk(x)=p(y=k|x),其中y是对应的类别标签.给定训练集(xi,yi),通过最小化分类风险来学习,公式为

(5)

其中Lcls代表交叉熵损失函数.

1.1.3 多级目标检测

将前一阶段边框回归器的输出作为下一阶段的输入,通过这种方式将连续阶段的一组正样本比例保持在大致恒定的大小.在每个阶段t中,R-CNN包括分类器ht和回归器ft,其中ut>tt-1.在此基础上,将多任务损失目标函数最小化.将目标的损失函数定义为

L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g).

(6)

其中:bt=ft-1(xt-1,bt-1),g为目标xt的真实边框,λ=1为权衡系数,yt为分类器得到的xt的预测标签.

1.2 连接Conv3和Conv5特征

SC-FU-CS RCNN的基础CNN是VGG16[28],它是一个16层深的CNN.多层特征融合是一种经典的提高精度神经网络性能思想.受文献[29]的启发,对文献[25]中的CNN中的Conv3层和Conv5层进行连接并归一化.在合并的特征映射张量中的每个像素内进行归一化,如图1所示.将归一化应用于Conv3层和Conv5层的张量,对混合特征张量中的每个像素进行归一化.归一化之后,缩放单独应用于每个张量为:

(7)

(8)

然后将缩放因子γi应用于每个ROI张量的每个通道,有

(9)

在训练过程中,缩放因子γi和输入X通过反向传播和链式规则进行更新:

(10)

(11)

(12)

其中Y=[y1,y2,…,yd]T.

1.3 基于空间约束的拓扑区域特征提取

在CNN训练过程中特征提取的范围仅限定在候选框区域.然而,病理学家根据经验认为候选区域通常是主观的甚至是不准确的.因此判定癌症还需要参考肿块区域周围的区域.也就是说,输出y不仅仅依赖于输入x,还依赖于它所在拓扑域区域.为了从未知的周围区域中提取特征(如图1所示),在输出层之前添加空间约束层(SC).将Ω定义为输出y所依赖的驻留区域.定义空间约束回归模型m,有

y=m(Ω;θ(x)).

(13)

其中θ(x)是可以估计的未知参数向量.这里假设m是已知的先验知识.如图2所示,可以通过公式

θ(x)=FL-1(xL-2;wL-1)

(14)

估计θ(x),其中xL-2是网络的第(L-2)层的输出.当包含高度H、宽度W的注释区域的图像作为网络的输入时,y∈[0,1]H′×w′表示空间域Ω=[1,…,H′]×[1,…,W′]在y∈[0,1]上的概率图,其中H′>W′,W′>W.第i个元素yi,i=1,…,|Ω|被定义为

(15)

其中ci表示yi的坐标,c0表示Ω内的病变区域的中心.将d定义为可以通过实验估计病变区域的恒定半径.

(16)

r=(H′-1)·sigm(wL-1,r·xL-2)+br+1;q=(W′-1)·sigm(wL-1,q·xL-2)+bq+1.

(17)

其中wL-1,r,wL-1,q表示权重向量,br,bq表示偏置,sigm(·)表示sigmoid函数.为了学习网络中的所有变量(即权重向量和偏差值),使用交叉熵损失函数为

(18)

2 实验与分析

2.1 数据集

采用DDSM中的乳腺X线图像[30]来训练提出的框架模型.DDSM数据库从被南佛罗里达大学等机构创建后已广泛用于评估和比较CAD算法的性能[16,31-35],该数据库于1999年秋季完成.DDSM数据集包含2 620个病例,每个病例包含乳房X线摄影筛查检查的4个视图.分别为每个乳房的2个视图(medio-latral 和cranio caudal).

实验过程中,从DDSM数据库中随机抽取600包含良性和恶性病例的乳腺X线图像.为了检测任何特定方向的病变,使用数据集增强技术来增加训练数据.对于每个训练图像,对乳腺X线图像进行了90°,180°和270°的角度旋转,人工生成3个新的样本.因此,训练集的总数是2 400.利用DDSM网站的校准功能将无损jpg图像转换为png格式,并将像素值重新调整为0~255像素范围内.乳腺X线图像样本如图3所示.

图3 DDSM数据集乳腺X线图像示例

2.2 实验细节

本文SC-FU-CS RCNN是在Caffe框架中构建的[36].SC-FU-CS RCNN有4个阶段,第1阶段是RPN,其余3个阶段用于检测,其中U={0.5,0.6,0.7}.第1个检测阶段的采样与文献[26,37]中相同.在以下阶段,通过将前一阶段的回归输出作为下一阶段的输入来实现重采样.连接Conv3和Conv5特征并对其进行归一化.使用原始数据集和进行数据增强后的数据集分别训练并且测试本文框架.通过旋转乳腺X线图像90°,180°和270°的角度来增强训练数据集.为了验证框架的有效性,本文采用5倍交叉验证法进行验证.数据集分为20%和80%的训练数据集和测试数据集.训练开始时学习率为0.002,在60 000和90 000次迭代时减少10倍,并在100 000次迭代时停止,每次迭代时保持4个图像.这项工作是在PC Intel Core(TM)i5-3550上进行的,具有16 GB RAM,时钟速度或CPU @ 3.30 GHz的频率,以及Nvidia GTX 1080Ti的GPU.另外,在Ubuntu 14.04的操作系统上使用Python 2.7.6和C++作为编程语言.

2.3 结果评估

使用受试者工作特征曲线(ROC)及其曲线下面积(AUC)来定量地显示框架的性能.ROC的AUC显示分类器的性能,其中AUC值越接近1.0表示分类结果的准确率越高,而AUC值接近0.5表示结果不可靠.ROC曲线定义为[16,35]:

(1)

(2)

其中:TN真阴性病例,TP为真阳性病例,FN为假阴性病例,FP假阳性病例.框架整体分类准确率定义为

(3)

2.4 实验结果

2.4.1 特征融合、空间约束层

将SC-FU-CS RCNN的性能与其他深度学习CAD系统进行了比较,结果见表1.表1显示了其他工作的AUC和分类准确率(X表示没有该指标):BC-DROID的准确率达到93.5%,AUC达到92.315%.SC-FU-CS RCNN实现了最佳的AUC和准确率.表1结果表明,本技术可用于检测和分类乳房图像的肿块.肿块区域定位效果如图4所示.

表1 SC-FU-CS RCNN与其他工作的性能比较

图4 SC-FU-CS RCNN肿块定位效果

图5 SC-FU-CS RCNN 与Cascade R-CNN在原始数据集和增强数据集上实验结果的ROC曲线

Cascade R-CNN与SC-FU-CS RCNN比较ROC曲线见图5,其中AUC分别为94.71%和92.72%.SC-FU-CS RCNN的平均评估指标如表2所示.实验表明,使用特征融合与添加空间约束层可以使SN和SP分别增加1.00%,1.57%.整体准确率表现从92.76%增加到94.06%.从表2中可以观察到,所提出的SC-FU-CS RCNN有明显的效果,例如SN为95.00%,SP为93.16%,ACC为94.06%,AUC为0.947 1.

2.4.2 数据增强

使用原始数据集和增强数据集来训练和测试SC-FU-CS RCNN.原始数据集包含从DDSM数据库中选择的600个乳腺X线图像.增强数据集包含2 400个乳腺X线图像.为了研究数据增强对特异性的影响,分别计算每个数据集上的AUC.图5中的ROC曲线显示增强数据集的性能明显提高.表2中显示2 400个增强乳腺X线图像的结果从原始数据集的91.04%增加到94.06%.使用增强数据集可以使SN和SP分别增加2.99%,3.92%,表明使用增强数据进行训练可以提高乳房肿块检测和分类的性能.

表2 SC-FU-CS RCNN与Cascade R-CNN性能比较

3 结论

本文提出了一种基于空间约束和多特征融合的多级目标检测架构用于检测和分类乳腺X线图像中的肿块.给出了目标检测算法的实现和应用场景.实验结果表明,SC-FU-CS RCNN框架优于其他几种乳腺X线肿块检测算法,最好的分类准确率达到94.71%.本文算法避免了在训练中过度拟合、预测过程中阈值不匹配造成的检测效果不理想的问题,提高了对小尺寸、模糊目标的检测准确率,实现了高于其他几种算法的准确率,验证了算法的有效性,提升了乳腺X线肿块检测的性能.

猜你喜欢
肿块乳腺准确率
超声造影在周围型肺肿块穿刺活检中作用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
乳房有肿块、隐隐作痛,怎么办
体检查出乳腺增生或结节,该怎么办
高速公路车牌识别标识站准确率验证法
得了乳腺增生,要怎么办?
妈妈宝宝(2017年2期)2017-02-21 01:21:22
容易误诊的高回声型乳腺病变
慢性肿块型胰腺炎诊断和外科治疗