基于YOLO v8-Tea的茶叶病害检测方法

2024-09-27 00:00:00贾瀛睿龙阳胡蓉华崔艳荣桂余鹏
江苏农业科学 2024年15期

摘要:针对真实场景下复杂的茶叶病害特征检测准确率低、误检率和漏检率高,以及难以进行移动设备上部署等问题,提出一种基于YOLO v8-Tea的茶叶病害检测算法。该算法是在YOLO v8的基础上做的改进,首先,替换了C2f中的Bottleneck,采用FasterBlock来减少参数量和计算量。同时,引入了多尺度注意力EMA模块,以增强全局上下文信息的获取。最后,采用BiFPN模块,以更好地融合多尺度特征,并改进了颈部网络,以提高检测精度。结果表明,YOLO v8-Tea算法在平均精度方面比传统YOLO v8n提高了5.7百分点,从而能更准确地检测复杂的茶叶病害特征。与此同时,模型的参数量和计算量分别减少了47.9%和28.4%,模型的权重文件的大小减小了45.2%,仅为3.4 M。YOLO vs-Tea算法的平均精度比经典的YOLO系列算法中的YOLO v4-tiny、YOLO v5n、YOLO v6n、YOLO v7-tiny分别提高24.6、6.8、5.5、2.5百分点。这些改进使得本研究算法更适合茶叶病害检测任务以及在移动设备中的高效部署。该算法在茶叶病害检测方面取得了显著的性能提升。通过降低参数量和计算量以及优化模型的部署,为实际农业场景中的茶叶病害检测提供了一个更可行的解决方案,为茶叶产业提供了有前景的技术,可以提高茶叶病害检测的效率和准确性。

关键词:茶叶病害;检测;YOLO v8-Tea;FasterBlock;EMA;BiFPN

中图分类号:TP391.41;TP183;S435.711  文献标志码:A

文章编号:1002-1302(2024)15-0213-09

收稿日期:2023-09-22

基金项目:国家自然科学基金面上项目(编号:62077018);湖北省自然科学基金(编号:2023AFB082)。

作者简介:贾瀛睿(1999—),女,吉林吉林人,硕士研究生,主要研究方向为深度学习与目标检测。E-mail:2022710658@yangtzeu.edu.cn。

通信作者:胡蓉华,博士,讲师,研究方向为网络与信息安全。E-mail:hrh2016@yangtzeu.edu.cn。

茶叶作为世界范围内的农产品,在多个国家的经济和社会领域中扮演着至关重要的角色。其地位不仅仅因为其丰富的历史和文化传承,更因为其在国内外市场中的广泛应用,以及对数百万家庭的生计支持。然而,尽管对茶叶产业的前景看好,茶叶病害的爆发和传播依然是一个严重的挑战。

为解决这些问题,近年来,机器学习和深度学习技术在茶叶病害识别领域取得了显著进展,为茶叶产业的可持续发展提供了新的希望。Billah等提出一种识别茶叶病害的模型,使用自适应神经模糊推理系统和颜色小波特征进行茶病害识别,能够准确识别茶叶图像中的病害[1]。Hossain等使用支持向量机分类器SVM来识别茶叶病害中的褐枯病和藻叶病,提高了检测、鉴定和分类茶叶病害的效率[2]。Sun等提出了一种将简单线性迭代聚类与支持向量机相结合的新方法,能够有效从复杂背景中提取茶叶病害中显著的特征[3]。Yang等提出了基于快速红外热图像处理技术的茶病害检测,通过病害的规律性和分布实现了快速检测[4]。但是,经典机器学习方法在植物病害检测中依赖于手工特征工程,需要专家知识来选择和设计特征,而这些特征可能不适用于不同类型的病害和植物品种。而且,在处理复杂的图像变化和细微特征时表现不佳,难以适应植物病害的多样性和复杂性,导致其泛化能力有限,可能在实际应用中面临性能挑战。

深度学习技术通过神经网络自动学习图像特征,无需手工工程,能够更好地应对复杂的植物病害检测任务。Hu等提出了一种在自然场景图像中茶叶枯病严重程度的估计方法,能够有效地从茶叶中分割出疾病斑点的区域,并计算初始疾病严重程度指数[5]。Li等将Mask R-CNN、小波变换和F-RNet融合起来构建了一个茶叶病虫害症状识别框架,结果表明,F-RNet模型的准确率高于AlexNet、VGG16和ResNet18等模型[6]。Xue等提出了一种基于YOLO-Tea的茶叶病虫害检测模型,在光线良好的情况下能够更好地关注茶叶病虫害的特征[7]。Lin等提出了一种基于注意力机制和特征融合的茶叶病害检测模型,提高了抗复杂背景干扰的能力和全局特征提取的能力,能够完成实时监测[8]。

然而,现有的深度学习模型仍然存在一些挑战。其中,模型的训练时间、检测速度以及模型的大小对于实际农业场景的应用构成了限制。在这个背景下,本研究提出了一种基于YOLO v8-Tea的茶叶病害检测算法,该算法通过改进YOLO v8,旨在提高模型的检测精度,并将模型轻量化,以满足在移动设备终端进行实时监测的需求。本研究的主要贡献包括以下方面:

(1)替换C2f中的Bottleneck为FasterBlock,有效减少了模型的参数量和计算量。这一改进不仅提高了模型的运行效率,还保持了检测性能的稳定性[9]。

(2)添加EMA模块,以增强模型对全局上下文信息的获取能力。这有助于模型更好地理解图像中不同尺度特征之间的关联,从而提高了检测的准确性[10]。

(3)引入BiFPN模块,该模块有助于将来自不同尺度的特征信息有效地整合在一起,提高了模型对目标的检测和定位能力[11]。

(4)改进颈部网络,以进一步提高检测的精度。通过优化颈部网络的结构,成功降低了误检率和漏检率,并提高了模型在实际农业场景中的表现。

1 材料与方法

1.1 数据集介绍

试验数据集是来源于Roboflow中的Tea leaves diseases数据集,包含1 153张真实场景下拍摄的茶叶病害图片,其中包括茶叶中常见的藻斑病、云纹叶枯病、灰疫病3种病害。因为1张图片中可能会存在多种病害特征,所以数据集经过人工预处理,通过labelimg标注软件在原始数据集上对遗漏、偏移、错误等的标签数据集进行人工标注,得到xml格式的标注文件,进而将xml格式文件转为YOLO训练的txt格式文件,然后将数据集按照8 ∶1 ∶1进行划分训练集、验证集、测试集。

1.2 YOLO v8网络结构

YOLO v8作为最新的YOLO系列[12-19] 的模型,根据网络结构的深度和宽度可分为n、s、m、l和x共5个网络模型,其中YOLO v8n是体积最小网络模型,其模型结构由输入端、主干网络、颈部、输出端4个部分组成,具体如图1所示。输入端包括数据增强、自适应锚框和图片缩放等数据预处理操作;主干网络部分跟YOLO v5不同的是将C3模块换成了C2f模块,C2f模块通过密集的残差结构增强了卷积神经网络的特征融合能力,通过拆分和拼接操作改变了通道数,使主干网络更轻量化,也提高了推理速度。尾部采用的SPPF空间金字塔池化层来增强主干网络的感受野,并融合不同尺度下的特征;颈部采用了PANet结构和C2f模块来进行特征聚合,将浅层信息向深层信息进行聚合;输出端采用了解耦头结构,将检测和分类进行分离,根据p3、p4和p5这3个解耦头来检测不同尺度下的物体。

1.3 YOLO v8-Tea网络结构

本研究算法YOLO v8-Tea是在YOLO v8的基础上做出的改进,如图2所示。将FasterBlock和EMA整合为Faster_EMA模块,取代C2f中的Bottleneck模块,形成C2f_Faster_EMA,以替代原网络中所有C2f模块。然后将颈部网络替换为本研究改进的颈部网络,并将Fusion参数设置为本研究所采用的BiFPN结构。

1.3.1 FasterBlock模块

在YOLO v8n原始的C2f模块中,通过堆叠很多Bottleneck结构,虽然可以使得主干网络能够学习到不同尺度下的特征,但是同时也导致通道信息的过度冗余和较大的计算量。在本研究算法中,为减少主干网络中计算复杂度,以便于更好地充分利用设备上的计算能力,同时提高主干网络的空间特征提取能力,用FasterBlock模块替换掉了C2f中的Bottleneck结构。

FasterBlock模块如图3所示 先通过一个PConv卷积层,与常规卷积不同的是PConv在保持其他通道不变的情况下,只会在输入通道上的一部分做常规的卷积来进行空间特征提取。因此,这样就会减少后续卷积层的计算和内存访问,使得PConv的FLOPs是常规卷积的1/16,内存访问量是常规卷积的1/4。后面接着进行了2个1×1的卷积层,来完成前面PConv未卷积的部分。第1个 1× 1卷积层用于降低特征通道的数量,以减少计算成本和参数量。接着进行归一化和激活函数操作,引入非线性性质,使得模型能够学习非线性特征变换,以更好地适应特征的复杂性。第2个1×1卷积层用于调整特征通道的数量,来保证输入和输出的维度统一,以便于后面的残差连接。因此,在改进的模型上很大程度减少了参数量和计算量,并提高了模型的检测精度,在试验结果中也得到了验证。

1.3.2 EMA注意力机制

为了在提取特征时就考虑到通道位置和空间位置之间的相互作用,又能充分利用上下文信息,同时又一定程度上降低模型的复杂度,本研究在YOLO v8n中引入了EMA注意力模块,如图4所示,主要可以分为特征分组、并行子网、跨空间学习3个部分。

1.3.2.1 特征分组

首先,EMA将输入特征图的通道维度划分为g个子特征,其中每个子特征都用来获得更多的语义信息。并且在不损失一般性的前提下,每个注意力权重描述符都可以用来表示每个子特征中的感兴趣区域。

1.3.2.2 并行子网

然后将划分好的子特征通过一个3条平行路线的并行子网,其中通过2个1×1分支先分别沿2个空间方向对通道进行全局平均池化操作,再通过共享权值的1×1卷积,随后通过Sigmoid激活函数来拟合线性卷积后的二维分布,继而跟原子特征进行残差连接,这样能够聚合多尺度空间结构信息。3×3分支路径通过3×3卷积来捕获局部跨通道交互以扩大特征空间,同时采用并行放置以实现快速响应。

1.3.2.3 跨空间学习

在这里是引入了2个1×1分支的输出和3×3分支的输出来进行不同空间维度方向的跨空间信息聚合方法。先利用组归一化来处理1×1分支的输出,随后利用二维全局平均池化来进行全局空间信息编码,并且将最小支路的输出转化为对应的维度形状。继而通过二维高斯映射的自然非线性函数Softmax来拟合以上的线性变换,并将输出结果与矩阵点积运算相乘,就得到了第1个空间注意力特征图,同时也收集了不同尺度的空间信息。在处理3×3分支的输出结果时同样采用二维全局平均池化进行全局空间信息的编码,随后经过Softmax函数,并转换为相应的维度形状,就得到了第2个空间注意力特征图。

最后将生成的2个特征图的权重进行聚合,然后使用Sigmoid函数,这样最后的输出结果即捕获像素级的成对关系,也突出显示所有像素的全局上下文。通过试验结果可得,将EMA放入到本研究改进的模型中是有效的。

1.3.3 BiFPN结构

虽然PAnet的目标是改进特征金字塔网络,但它引入了大量的额外复杂性。PAnet的多路径聚合结构包括多个路径选择和路径权重组件,这增加了模型的复杂性和计算成本。复杂性不仅体现在模型的设计中,还包括训练和部署的难度。需要大量的计算资源来训练PAnet,并且在实际应用中,部署一个复杂的模型可能会受到硬件限制。这些问题引出了BiFPN结构作为一种更好的替代方案的可能性。由图5可知,BiFPN被设计为解决PAnet的复杂性问题,同时提供更高的效率和灵活性。相对于PAnet的多路径聚合,BiFPN引入了自适应的连接权重,从而降低了模型的复杂性。这种自适应性使得BiFPN更容易训练和调整,并且在资源有限的情况下也能够高效运行。

BiFPN通过引入自适应连接权重来简化特征金字塔网络,提高了效率和灵活性,同时降低了训练和部署的难度。因此,将PAnet替换为BiFPN可能是一个明智的选择,在后面改进模型的试验结果中也证明了其有效性。

1.3.4 改进颈部网络

在原始YOLO v8网络结构中,颈部网络可能不够灵活,难以适应各种不同的任务需求,它的设计可能过于通用,不能有效地满足特定任务的要求。这可能导致性能下降,尤其是在复杂的计算机视觉任务中。在许多计算机视觉任务中,多尺度信息对于准确的目标检测非常重要。然而,原始颈部网络可能没有足够的机制来处理不同尺度上的特征,从而可能导致遗漏或错误检测目标。由于本研究使用的茶叶病害数据集中,病害的特征复杂,特征大小不统一,因此为了更好地满足茶叶病害特征的目标检测,本研究通过修改颈部网络结构,来增加模型的灵活性和多尺度感知能力,使其更加适用于实际应用场景。

首先,如图6所示,因为BiFPN结构中涉及到一些add(数值相加)操作,所以本研究将颈部网络的通道数都固定为256,然后在原始颈部网络结构上先添加了3个卷积层,将主干网络中的p2、p3、p4、p5的输出的通道数进行统一,以便于后续的融合操作。并且把主干网络中的p2也给充分利用起来,通过1个卷积层就能多添加1个节点,省去了前面的操作,也能够为模型进一步提升多尺度感知能力。最后在颈部网络后再添加了3层,分别是Conv、Fusion、C2f,这样能够帮助网络更好地学习图像特征,提高模型的表示能力,并且通过Fusion层来融合不同层的信息,增加多尺度目标的感知能力。本研究改进的颈部网络中,Fusion的融合方式有Weight、Adaptive、Concat和BiFPN这4个方式,而本研究使用的是BiFPN的方式,其有效性也2146c8e2fe6e1b197f01e6d441e9ad830b50b987d6d17616fa9bca0572d39151在后面的试验部分得到了证明[20]。

2 结果与分析

2.1 评价指标

本研究采用的评价指标有Precision、Recall、mAP、参数量、计算量、模型权重大小。其中,Precision是指模型所识别的目标中真正正确的比例。它衡量了模型的准确性,高精确率表示模型更少地将错误的对象识别为目标。定义如下:

Precision=TPTP+FP×100%。(1)

Recall是指模型成功识别的目标占实际目标总数的比例。它衡量了模型是否能够捕获到所有实际目标,高召回率表示模型漏掉的目标较少。定义如下:

Recall=TPTP+FN×100%。(2)

式中:TP表示检测结果中正确目标的个数,FP表示检测结果中错误目标的个数,FN表示正确目标中缺失目标的个数。

mAP是一种综合评价指标,它考虑了不同类别的精确率和召回率,并计算它们的平均值。较高的mAP表示模型在多个类别上表现良好。定义如下:

mAP=1n∑ni=1∫10Precision(Recall)d(Recall)。(3)

参数量表示模型的复杂度,较低的值通常表示模型更轻量化,有助于在资源有限的情况下部署。计算量是模型进行推理所需的浮点运算次数的度量。它可以帮助评估模型的计算资源需求,对于在嵌入式设备或云计算环境中部署模型非常有用。模型权重大小即存储模型所需的内存空间,较小的模型大小通常意味着更轻量化和更容易部署。

2.2 试验环境配置

本试验是使用PyTorch作为网络框架,硬件环境配置为NVIDIA GeForce RTX 3080,显存12 G,编译环境为Python 3.8.16+torch 2.0.0+CUDA1 1.8。在训练时,超参数设置批大小为32,训练周期为300,初始学习率为0.01。试验时间为2023年7—9月,试验地点为长江大学农学院与计算机科学学院。

2.3 消融试验

2.3.1 FasterBlock和新颈部消融试验

为验证用FasterBlock模块替换掉Bottleneck模块和改进的颈部网络对网络性能的影响,设计了如表1所示的消融试验。可以看出,改进1和改进2分别将改进后的新颈部和FasterBlock引入到原YOLO v8n模型后,根据它们的结构特性,模型权重大小、参数量和计算量都有所下降,而且模型精度也有所提升。改进3是将2个改进点融合的试验结果,虽然模型的精度仅提升了0.5百分点,但是模型的权重、参数量和计算量比改进1和改进2都要少。因此,根据试验结果可证明这2个改进的有效性。

2.3.2 EMA消融试验

本研究引入EMA注意力机制后,为验证其在不同位置与网络性能的关系,设计了表2所示的消融试验。可以看出,改进1和改进2将EMA融入到原始颈部网络和主干网络后,虽然mAP有所提升,但是对模型的权重、参数量和计算量影响不大,并没有下降。随后改进3和改进4是在C2f替换了FasterBlock之后EMA融入到原始颈部网络和主干网络所得的结果,在改进1和改进2的基础上,模型的权重大小、参数量和计算量都有所下降。最后改进5是将EMA融入到FasterBlock模块中,结果表明,在改进3和改进4的基础上,模型的mAP又有所提升,可得出将EMA融入到FasterBlock模块中是最有效的。

2.3.3 最终消融试验

为验证本研究所有改进点的有效性,建立了改进1、改进2、改进3、YOLO v8-Tea这4个模型进行试验。改进1是将所有的C2f中的Bottleneck模块替换为FasterBlock模块;改进2是在FasterBlock中加入了EMA注意力机制;改进3是在前面改进基础上将颈部网络替换为新的颈部网络;最后,YOLO v8-Tea是本研究的改进算法,将4个改进点融合起来。由表3可看出,本研究的YOLO v8-Tea相较于原始YOLO v8n,mAP50提升了5.7百分点,参数量减少47.9%,计算量降低了28.4%,模型的权重减少了45.2%。试验结果表明,本研究算法有效地降低了模型在移动终端部署难度与成本,并且使得算法在检测茶叶病害的精度上有了较大的提升。

2.4 对比试验

由表4可知,通过对比所有模型的性能指标,可以清晰地看出本研究提出的YOLO v8-Tea算法在目标检测任务中具有明显优越性。首先 YOLO v8-Tea 的mAP50达到了75.0%,明显高于其他模型,表明其在物体定位方面具有出色的准确性。与Faster RCNN相比,YOLO v8-Tea的性能提高了超过20百分点,这意味着它在检测较难的物体上表现出了更好的性能,具备更高的鲁棒性[21]。此外,YOLO v8-Tea在模型参数量、计算复杂度和模型大小方面也表现出众。它具有仅1.567 M的模型参数量,相对较小的模型体积,适合嵌入式设备和移动端应用。同时,它的计算复杂度只有5.8 G,这意味着在保持高性能的同时,能够实现快速的推理速度。

综上所述,本研究提出的YOLO v8-Tea算法在mAP、参数量、计算复杂度和模型大小等多个方面均表现出较大的优势,具有高性能和轻量化特性,使其在茶叶病害检测中具有广泛的应用潜力。

2.5 可视化结果分析

为直观体现本研究算法的有效性,通过对比5组图片,分别使用传统的YOLO v8n算法和本研究算法YOLO v8-Tea对5张原始图片进行检测,详见图7。从对比图中可以看出,YOLO v8-Tea较原始YOLO v8n的检测精度有所提升。通过第2组和第3组对比图可以看出,原始YOLO v8n在复杂环境中将经阳光暴晒的茶叶和枝干误检。通过第4组和第5组对比图可以看出,原始YOLO v8n存在漏检,而YOLO v8-Tea对茶叶病害特征的注意力更为集中,提高了病害特征的识别率。总的来说,改进后的算法在提高精度的同时,还减少了误检率和漏检率,更适合在真实的复杂场景中对茶叶病害进行检测。

3 结论

针对真实场景下茶叶病害检测的识别任务,本研究提出了一种基于YOLO v8-Tea的茶叶病害检测方法。首先,通过用Faster block模块替换Bottleneck模块和引入新颈部网络,观察到模型的性能在精度方面有所提高,同时参数量、计算复杂度和模型大小都有所减少。这表明这些改进点在提高模型性能的同时也有助于轻量化。其次,本研究引入了EMA注意力机制,并进行了一系列消融试验,以探讨其在不同位置融入网络的影响。结果表明,在将EMA注意力机制融入到C2f_Faster模块中时,模型性能获得了最大提升。最后,与其他相关模型相比,YOLO v8-Tea在mAP50和mAP50~95 方面都表现出色,分别达到了75.0%和51.6%,模型参数量仅为1.567 M,计算复杂度为5.8 G,模型权重比原始YOLO v8n减少了45.2%。这使得YOLO v8-Tea成为一种出色的目标检测算法,适用于多种应用场景,包括嵌入式系统和移动端应用。

综上所述,本研究提出的YOLO v8-Tea算法在目标检测任务中取得了较好的性能优势,同时实现了模型的轻量化,为真实场景下茶叶病害检测的应用提供了更高效、更准确的解决方案。未来的研究方向可以包括进一步优化算法、提高茶叶病害的检测精度以及在实际中部署到移动设备中进行茶叶病害的检测。

参考文献:

[1]Billah M,Badrul M,Hanifa A,et al. Adaptive neuro fuzzy inference system based tea leaf disease recognition using color wavelet features[J]. Communications on Applied Electronics,2015,3(5):1-4.

[2]Hossain S,Mou R M,Hasan M M,et al. Recognition and detection of tea leafs diseases using support vector machine[C]//2018 IEEE 14th International Colloquium on Signal Processing & Its Applications (CSPA).Penang,Malaysia:IEEE,2018:150-154.

[3]Sun Y Y,Jiang Z H,Zhang L P,et al. SLIC_SVM based leaf diseases saliency map extraction of tea plant[J]. Computers and Electronics in Agriculture,2019,157:102-109.

[4]Yang N,Yuan M F,Wang P,et al. Tea diseases detection based on fast infrared thermal image processing technology[J]. Journal of the Science of Food and Agriculture,2019,99(7):3459-3466.

[5]Hu G S,Wei K,Zhang Y,et al. Estimation of tea leaf blight severity in natural scene images[J]. Precision Agriculture,2021,22(4):1239-1262.

[6]Li H,Shi H T,Du A H,et al. Symptom recognition of disease and insect damage based on Mask R-CNN,wavelet transform,and F-RNet[J]. Frontiers in Plant Science,2022,13:922797.

[7]Xue Z Y,Xu R J,Bai D,et al. YOLO-tea:a tea disease detection model improved by YOLO v5[J]. Forests,2023,14(2):415.

[8]Lin J,Bai D,Xu R J,et al. TSBA-YOLO:an improved tea diseases detection model based on attention mechanisms and feature fusion[J]. Forests,2023,14(3):619.

[9]Chen J R,Kao S H,He H,et al. Run,dont walk:chasing higher FLOPS for faster neural networks[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver,BC,Canada:IEEE,2023:12021-12031.

[10]Ouyang D L,He S,Zhang G Z,et al. Efficient multi-scale attention module with cross-spatial learning[C]//2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Rhodes Island,Greece.IEEE,2023:1-5.

[11]Tan M X,Pang R M,Le Q V.EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle,WA,USA:IEEE,2020:10781-10790.

[12]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:779-788.

[13]Redmon J,Farhadi A. YOLO 9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA:IEEE,2017:6517-6525.

[14]Redmon J,Farhadi A. YOLO v3:an incremental improvement[EB/OL]. (2018-04-08)[2023-09-01].http://arxiv.org/abs/1804.02767.

[15]Bochkovskiy A,Wang C Y,Liao H Y M. YOLO v4:optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2023-09-01]. http://arxiv.org/abs/2004.10934.

[16]Ge Z,Liu S T,Wang F,et al. YOLOX:exceeding YOLO series in 2021[EB/OL]. (2021-07-18)[2023-09-01]. http://arxiv.org/abs/2107.08430.

[17]Li C Y,Li L L,Jiang H L,et al. YOLO v6:a single-stage object detection framework for industrial applications[EB/OL]. (2022-09-07)[2023-09-01]. https://arxiv.org/abs/2209.02976.

[18]Wang C Y,Bochkovskiy A,Liao H Y M. YOLO v7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver,BC,Canada:IEEE,2023:7464-7475.

[19]Xu X Z,Jiang Y Q,Chen W H,et al. DAMO-YOLO:a report on real-time object detection design[EB/OL]. (2022-11-23)[2023-09-01]. http://arxiv.org/abs/2211.15444.

[20]Xiao J,Zhao T,Yao Y,et al. Chen,Y. Context augmentation and feature refinement network for tiny object detection[C]//Proceedings of the ICLR 2022 Conference. Virtual,2022:25-29.

[21]Ren S,He K,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Trans Pattern Anal Mach Intell,2017,39(6):1137-1149.