钱金婧 杨志超 浙江警察学院
血液因其具有稳定性、客观性、主体唯一性等特性,在公安工作中承担着十分重要的角色,在犯罪现场复原、人员同一认定、案发时间认定等方面都发挥着重要作用。在犯罪现场勘察中,对于现场类血液体的残留,或血液附着客体的原因致使血液分布不明显而影响现场勘察效率的情况时有发生。此外,传统的血液识别往往以采样试剂检测和暗室荧光显色,前者对血迹本身有不可逆的破坏作用,后者显色时间短且需营造暗室环境,适用场所有所局限。在信息化科技化的现代社会中,利用计算机技术来突破传统血液识别方式的局限,是目前基层警务实践的一大需求。
目前,运用计算机技术来分类识别不同事物在公安工作中已有实践先例,比如车辆识别、人脸识别等。本实验目的在于实现对犯罪现场中类血痕迹的识别分类,利用高光谱成像仪能够不破坏样品的特征,采集类血痕迹在犯罪现场客体上的高光谱数据,再利用机器学习(Machine Learning)中的支持向量机(SVM)算法,对类血样品在客体上高光谱数据进行训练建模,以实现基于SVM算法的血液、非血液二元输出分类器,从而克服传统血液识别方法对犯罪现场痕迹破环、样品提取不全面等局限,实现非接触、无损、全方位、高效地识别现场血痕,为基层警务实战提供经验。
自1995年,通过机器学习分析有限样本的方法被提出后,相关领域便成为研究热点,目前,国内外已有通过计算机技术对图像、声音等进行自动识别分类的能力。本实验主要通过机器学习中的SVM算法对类血液体的高光谱数据进行训练建模,从而实现计算机对血液的自动识别分类,如图1所示。
高光谱成像是将光谱信息与数字成像信息相融合的一项对物质进行多维信息获取的综合技术,对于实际影像中每个单位点,突破传统成像得到黑白或RGB数据,高光谱相机能够在同一点位获取上百个连续的光谱波段下的光谱信息数据,并且包含了数字成像信息数据,最终获得的是数据立方,从而根据不同物质在不同光谱下的光谱信息与特性不同可以实现对物质进行分类。
本实验使用的美国Headwall Photonics公司生产的Hyperspec VNIR-E系列高光谱成像仪自带的图像分析软件,只能对识别的影像数据进行简单的预处理,对于所得数据的进一步加工往往还需要其他软件的辅助。因此本实验还采用了美国Exelis公司在2013年发布的遥感图像处理软件ENVI 5.1版本,对所得高光谱信息进行深度处理加工,该版本对传感器的兼容性强、波谱库数据多、数据处理效率较高,相对于其他软件具有突出优势。
SVM(Support Vector Machine,支持向量机)是机器学习的算法之一,主要通过对已知样本中不断训练调整参数,并根据所训练出来的模型对未知数据进行预测。相对于传统的机器学习算法,SVM加入了核函数、泛化误差、VC维等,能够实现对高光谱成像数据这类多维数据样本、非线性数据样本、小样本等情况进行训练建模,实现样本分类。本实验采用了台湾大学林智仁教授团队开发的LIBSVM算法,其所包含的需要自主调解的参数较少,具有程序小、运算速度快、应用范围广等特点。
本实验主要对LIBSVM算法中的训练集百分比、参数c、参数g、降维数进行变量控制分析,从而得出最优的分类模型。其中训练集百分比是指训练模型中训练集的数据量;参数c(cost)影响SVM算法中的模型学习速度,即模型拟合速率;参数g(gamma)影响SVM算法中数据处理分类的多维度空间;降维数是指对数据进行降维数量级。
本实验基于高光谱成像系统扫描生成客体的影像信息数据,并对光谱数据进行训练建模并预测实验结果,通过SVM对图像进行分类能够直接对高维的光谱影像数据进行处理,不需要将数据转换为降维数据,直接避免了对数据的破坏,保证了光谱信息的充分性与全面性。
1.样本
血迹、指甲油、酱油、红药水、辣椒油。
2.器材
美国Headwall Photonics公司生产的Hyperspec VNIR-E系列高光谱成像仪及其配套设施。
3.软件
ENVI 5.1、MATLAB R2016a。
1.获取实验样本
提取新鲜血液,并将其滴至干净的白色瓷砖表面,将指甲油、酱油、红药水、辣椒油各一滴从左至右滴至白色瓷砖表面静置,获得实验样本,如图2所示。
2.高光谱成像
打开高光谱成像仪及其配套设备,调节光圈、入射光强度、角度,调整光源强度以及曝光时间,使成像画面最亮的位置饱和值接近于85%,将实验样本置于白板上,再次调节光圈至最大,调整镜头的调焦环,直至出现边缘锐利的明暗条纹,盖住镜头,封闭外界光源,拍摄目标样本,获得40纳米至1000纳米连续波段光源下的光谱影像。
3.高光谱影像区域选择,提取数据
将高光谱影像导入ENVI软件,选择每种液体图像中间浓度较高的区域作为实验区域,提取所选区域的高光谱数据信息,绘制光谱平均值曲线,如图4所示第1至5条曲线分别代表了血迹、指甲油、酱油、红药水、辣椒油这5种物质的平均光谱曲线。导出5种样品物质的高光谱数据的txt文档转换为csv文件,删减无关数据并对5种样品数据进行1至5标号以及数据合并,得到适合MATLAB运行的一个数据文件。
4.数据预处理
将数据文件导入MATLAB软件转化为数据矩阵的形式导出到系统中,再对数据矩阵进行中的数据进行分类,数据与标签分离,生成data(6960×184)与lable(6960×1)两个数据文件,再对data数据文件进行无量纲化与同趋化处理。
5.建立SVM模型与分析
导入数据文件,分别将训练集百分比、参数c、参数g、降维数比作为唯一变量,观察分析SVM算法构建的模型在该实验中的准确率影响因素。
(1)训练集百分比作为变量
设置参数c为100,参数g为0.001,不降维,改变训练集在整个数据矩阵中的百分比,以0.5%为间隔,从10%至1%递减,记录,如表1所示。得到不同训练集百分比的测试准确率曲线图,如图5所示。
?
(2)参数c作为变量
设置训练集百分比5%,参数g为0.001,不降维,改变参数c,以10为倍数,从1至1010逐级增大,记录不同参数c下的的测试数据分类准确率,如表2所示。得到不同参数c的测试准确率曲线图,如图6所示。
images/BZ_66_1333_2220_1370_2240.pngimages/BZ_66_1372_2220_1391_2240.pngimages/BZ_66_1333_2245_1351_2263.pngimages/BZ_66_1352_2244_1391_2263.pngimages/BZ_66_1334_2276_1370_2295.pngimages/BZ_66_1371_2276_1390_2295.pngimages/BZ_66_1333_2300_1371_2319.pngimages/BZ_66_1372_2300_1390_2318.png
(3)参数g作为变量
设置训练集百分比为5%,参数c为10000,不降维,改变参数g,以10为倍数,从1至10-9逐级减小,记录不同参数g下的的测试数据分类准确率,如表3所示。得到不同参数g的测试准确率曲线,如图7所示。
?
(4)降维数作为变量
根据前三组实验得到相对最优参数,设置训练集百分比5%,参数c为10000,参数g为0.000001,将数据进行降维处理,以15维为间隔,从5维至170维逐级递增训练建模,记录不同降维处理下的测试准确率,结果如表4所示。得到不同降维处理下的测试准确率曲线图,如图8所示。
?
SVM算法能够有效构建血液与非血液二元输出分类器,识别分类准确率可达99.946%。其中,在固定其他变量的情况下,改变参与数据集的训练集百分比以及降维程度,对模型测试准确率影响较小,准确率整体较高;设置参数c、参数g过大或者过小都会使模型测试准确率降低。
本次实验主要在于探索SVM算法能否实现对类血液体的高光谱数据分析,从而实现对血液样本的分类识别,仍处于初步研究,因此实验设置的样本条件都为最优选择。实验结果也证实了SVM算法能够通过分析类血液体的高光谱数据,有效构建血液与非血液二元分类器。
本次实验成功的原因主要有四个方面,一是本实验采取的类血液体辣椒油、红药水等与血液在可见光和近红外区的光谱特征差异明显,为二元分类识别提供了良好的条件;二是本次实验中类血液体的承载客体单一,也为分类识别提供了良好的基础;三是本实验在感兴趣区域选择时,为实验者手动选取液体影像中图像较为饱和的中间区域,一定程度上缩减了数据的部分现实可能误差;四是SVM算法本身的模型优化目标为大边界、高准确率,直观印证了本实验实现血液与非血液二元分类器的诉求。
本实验在类血液体种类、类血液体承载客体种类、类血液体在客体上的存留时间等方面还可以开展进一步拓展研究。高光谱数据中的多维信息通过特定算法进行分类识别后,结合虚拟现实增强技术,对于犯罪现场的还原构建也有着相当可观的前景。
目前,高光谱设备在基层公安还未实现大范围普及,但自动化检测无疑在公安现场勘验中具有较大的发展空间。