基于多源数据融合和关联性分析的食品安全风险预警机制

2023-10-28 13:40:44阮晓星金鑫吴焱
图书情报知识 2023年5期
关键词:单点预警向量

阮晓星 金鑫 吴焱

1 引言

食品安全是社会经济得以稳定发展的基石。加强食品安全监管,关系到广大人民群众的身体健康和生命安全。近年来,我国食品安全问题频发,不仅损害了消费者的合法权益,也对民生安全造成了严重威胁[1]。因此,如何对食品安全风险进行预警,是人工智能及数据挖掘等领域亟待解决的重要难题。

通过文献调研发现,尽管目前食品安全风险预警机制取得了一定的成效,但仍存在两个主要问题:(1)难以对多种不同来源的食品安全风险数据进行融合处理。随着信息化的快速发展,食品安全风险数据来源日趋多样。除人工检测得到的数据外,大量与食品安全相关的投诉数据、评价数据及舆情数据也呈爆发式涌现。虽然现有的方法可以对多种不同来源的数据进行融合[2-6],但却难以对互联网中的大量投诉数据、评价数据及舆情数据等文本数据进行融合,难以充分利用这些数据做出更精准的决策。(2)难以对单点风险预警进行扩散。目前的方法通常只能够对被抽检经营主体等包含大量风险数据的目标进行预警决策,但如何将风险预警扩散到更多的经营主体,实现自动化地预警预判,仍然存在困难。

本文将针对上述两个问题展开基于多源数据融合的单点预警机制以及基于关联性分析的扩散预警机制的研究。一方面,基于多源数据融合的单点预警机制利用多层感知机、词向量模型对多源数据进行学习和融合,实现对被抽检经营主体的高效单点预警决策;另一方面,基于关联性分析的扩散预警机制,根据经营主体之间的结构化关系对预警信息进行扩散,对与被抽检经营主体相关的其他经营主体实现实时自动化预警决策。在此基础上结合实例检验本文所提出的食品安全风险预警机制的有效性。

2 研究现状

近年来,众多学者对食品安全风险预警机制进行了研究和探索,运用统计学、人工智能及数据挖掘等领域的相关技术和理论对食品安全风险进行建模,构建食品安全风险预警体系。

在食品安全风险预警技术层面,主要探索如何利用和改进贝叶斯网络、决策树、人工神经网络、主成分分析方法,以及支持向量机等技术来处理单一经营主体的单一来源的食品安全数据。王雅洁等[7]分析了贝叶斯网络、决策树以及人工神经网络等技术在食品安全风险预警领域的应用,并提出了使用逆向传播神经网络运用于食品安全风险预警的构想。章德宾等[8]通过分析中国质监部门日常检测数据的特征及预处理方法,结合食品安全预警问题特点,建立基于逆向传播神经网络的食品安全预警模型。王星云等[9]利用食品污染物铅的抽检数据及食品生产企业的各个特征属性对逆向传播神经网络进行训练。蔡强等[10]通过对逆向传播神经网络进行改进,构建了食品安全评价预测模型。王霞[11]建立了食品安全风险评估预警模型以及基于逆向传播神经网络的食品中污染物残留量的预测模型。该模型可以同时用于符合性检验、检测性检验以及多重性检测。刘金硕等[12]以食品安全新闻报道文本为训练语料,提出了一种基于联合深度神经网络的食品安全情感倾向性判别方法,完成了食品安全领域新闻类篇章级的情感分类任务。张丽等[13]基于贝叶斯理论,在贝叶斯网络的食品供应链风险分析的基础上,建立了基于贝叶斯网络的食品供应链风险局部分析模型,对其风险进行预测, 并通过案例研究验证算法的可行性。鄂旭等[14]为了分析食品安全风险状况,构建了一种基于粗糙集变精度模型,并提出了一种包含规则置信度的构造决策树方法。该方法能够消除数据库中的噪声冗余数据,进而保证决策树构建过程中能够兼容部分存在冲突的决策规则。段鹤君等[15]利用细菌性食物中毒历史数据,采用主成分分析方法(PCA)降低评分矩阵的维数,利用支持向量机算法建立回归模型, 实现对细菌性食物中毒爆发事件的监测及预警。

在食品安全风险预警理论层面,探讨如何加强食品安全风险预警体系建设、构建食品安全风险预警指标、实现食品安全风险信息共享、完善食品安全预警平台。卢江[16]提出加强信息融合平台建设和大数据技术应用,优先发展和建设各类食品安全风险预警体系,借助人工智能和大数据技术建立预警体系,为食品安全风险隐患的早期识别和快速预警提供科学支撑。郭添荣等[17]构建了基于风险治理视阈下的三级评价因素食品安全风险预警指标体系,为提升食品安全风险防控能力提供量化依据,为食品安全潜在风险的识别与靶向定位提供科学决策和客观依据。王博远等[18]认为在基于跨部门多源数据的食品安全时空预警信息化体系框架下,应用“互联网+”的思维模式,促进互联网与食品安全的深度融合,打通领域业务链,实现横向整合,加速数据的有效流动与高度共享,实现跨部门的业务高效协同、信息共享和预测预警。于晓刚[19]等通过构建食品安全评价指标体系,制定食品安全状况等级与预警指标,结合专家知识,建立神经网络专家模型,在海量、复杂多样的数据中进行训练目标函数,从而挖掘关键数据价值、揭示潜在的关系,进而对食品安全状态、食源预测预警,最终构建出食品安全预警体系平台。

尽管上述研究在一定程度上能够有效防范食品安全事故发生,但在技术上缺乏对风险预警的文本数据及抽检数据进行融合和处理的方法;在理论上缺乏揭示复杂关系下风险预警的关联性和可传递性的解决方案。因此,预警效能较低,且难以扩大预警范围。为此,本文拟研究设计基于多源数据融合的单点预警机制以及基于关联性分析的扩散预警机制,为实现从点到面的高效食品安全风险预警给出具体的解决方案。

3 食品安全风险预警机制

为对食品安全进行实时感知及预警,本文设计了包括基于多源数据融合的单点预警机制以及基于关联性分析的扩散预警机制的食品安全风险预警机制总架构,如图1所示。食品安全风险预警机制总架构主要包括基于多源数据融合的单点预警和基于关联性分析的扩散预警。其中基于多源数据融合的单点预警利用多层感知机、词向量模型对多源数据进行学习和融合,实现对被抽检经营主体的单点预警决策;基于关联性分析的扩散预警根据经营主体之间的结构化关系对预警信息进行扩散,以实现对与被抽检经营主体相关的其他经营主体的实时预警决策。

图1 食品安全风险预警机制总架构Fig.1 General Architecture of the Food Safety Early Warning Mechanism

3.1 预警等级划分

为支持对预警等级进行决策,本文结合实际应用过程中预警的紧急程度,将预警分为特别严重预警、严重预警、较严重预警、一般预警和无预警五个级别,具体预警等级的说明如表1所示。

表1 预警等级说明Table 1 Description of Warning Levels

3.2 多源数据来源

在实际场景中,食品安全多源数据来源包括定量检测、快检、全国检测不合格食品、网商交易评价数据、舆情数据、12315消费者投诉数据。定量检测数据是食品检测机构执行本行政区域的食品安全年度监督抽检计划所完成检测的结果数据。快检数据是菜市场、食堂等食品经营企业所建立的食品快检点定期上传的检测结果数据。定量检测和快检均属于抽检。基于现有研究[20-21]对食品危害因子的划分,本文首先定义了如图2所示的12种食品危害因子,通过定量检测和快检可得这12种食品危害因子的值。定量检测和快检数据均可通过系统对接方式获取。全国检测不合格食品数据是由国家市场监管总局发布的检测不合格食品信息,可通过系统对接方式获取。网商交易评价数据是在各大食品交易网站上获取的食品类产品交易评价文本数据。舆情数据是从各类社交网站获取的与食品安全舆情相关的评论文本数据。上述两种数据可通过网络爬虫的方法爬取。12315消费者投诉数据是从市场监管局12315系统中同步获取的与食品相关的消费投诉类文本数据,可通过系统对接方式获取。上述数据的样例如表2所示。

表2 多源数据样例说明Table 2 Description of Multi-Source Data Sample

图2 食品危害因子Fig.2 Food Hazard Factors

3.3 基于多源数据融合的单点预警机制

为实现对经营主体的单点预警,基于多源数据融合的单点预警机制利用多层感知机(Multi-layer Perceptron,MLP) 和GloVe(Global Vectors for Word Representation)[22]词向量模型对不同来源的数据进行学习和融合,并根据融合后的特征向量进行分类,得到最终的预警等级决策。其中,多层感知机是由多个神经元层组成,其中每个神经元层与相邻的层之间存在全连接关系。多层感知机是一种有向图结构,包含一个输入层、一个或多个隐藏层和一个输出层。多层感知机的基本组成单元是神经元(也称为节点或单元),每个神经元接收来自上一层神经元的输入,通过一个激活函数对这些输入进行加权求和并产生一个输出,这个输出会传递给下一层神经元作为输入。这种层与层之间的全连接方式使得多层感知机能够学习和表示复杂的非线性关系。GloVe是一种用于生成词向量的统计语言模型。其设计目标是通过学习单词之间的全局共现统计信息来生成词向量。它结合了两种主要的词向量模型方法:全局矩阵因式分解(Global Matrix Factorization)和局部上下文窗口方法(Local Context Window Methods)。GloVe模型的核心思想是基于单词在语料库中的共现频率来捕捉词语之间的语义关系。它首先构建一个单词共现矩阵,该矩阵记录了在给定的文本语料库中单词之间的共现频率。然后,通过对这个共现矩阵进行因式分解,得到一个较低维度的稠密向量表示,即词向量。GloVe的优点是在大规模语料库上的训练效果良好,并且生成的词向量能够捕捉到丰富的语义信息。

基于多源数据融合的单点预警机制首先判断经营主体被定量检测和快检的食品是否属于全国检测不合格食品数据库中的食品,如果是,则直接对该经营主体进行“特别严重预警”,如果不是,则继续执行下述步骤。

1针对由定量检测和快检得到的如图2中所示的12类危害因子,该机制将其拼接成一个12维的特征向量S={a1,a2,…a12}∈,其中每一维的值对应着第i类危害因子的值。

2该机制针对在线商务交易评价、舆情和12315消费者投诉等产生的非结构化文本数据,首先将这些文本进行拼接,得到一段长度为n的文本数据。然后利用GloVe词向量模型将拼接后的文本换为一个词向量矩阵H={h1;h2…hn }∈,其中每一维度词向量hi∈R1×300对应着文本中的第i个字符。利用GloVe将在线商务交易评价、舆情、12315消费者投诉所产生的非结构化的文本数据转换词向量,能够有效学习到这些非结构化文本中所包含的特征信息,并进一步用于下游预警决策。

3将由定量检测和快检数据转化得到的特征向量S拼接到由网商交易评价、舆情数据和12315消费者投诉数据所转换得到的词向量矩阵H中的每一维词向量前部,得到一个由多源信息融合后的特征矩阵O={o1;o2…on }∈n×312。

4利用多层感知机对融合后的特征矩阵O进行学习及预警决策。具体过程如公式(1)—(4)所示:

其中W1∈和W2∈分别为多层感知机中第一层和第二层中的可训练的权重矩阵参数,b1∈和b2∈分别为多层感知机中第一层和第二层中的可训练的偏置参数,tanh为激活函数,Softmax为归一化函数,K∈为多层感知机中间层的输出,sum函数的作用是将K的每一维度的特征相加,得到一个聚集特征M∈,Out∈为最终输出的特征,通过argmax函数取值最大的那一维所对应的预警等级为最终决策结果。该机制使用梯度下降优化方法来逐渐调整多层感知机中权重矩阵和偏置,以最小化预测输出与实际输出之间的误差。通过反复迭代调整权重,多层感知机能够逐渐学习到输入与输出之间的映射关系,从而实现高效的预警决策。

3.4 基于关联性分析的扩散预警机制

基于多源数据融合的单点预警机制尽管能够实现对被抽检的经营主体进行快速预警,但无法扩散到更多的相关联的预警主体。因此,本文提出了一种基于TransE表示学习方法和K-means聚类算法的关联性分析的扩散预警机制,该机制通过分析其他经营主体与被抽检的经营主体之间的关联性来实现自动扩散预警。其中:TransE[23]是一种常用的表示学习方法,可用于将实体映射到低维连续向量空间。TransE基于一种直观的假设,即关系可以通过对应实体间的平移来表示。换句话说,如果两个经营主体之间存在某种关系,那么它们的向量表示应该通过一个平移向量进行相互转换。K-means[24]是一种常用的无监督聚类算法,可以用于将一组数据点划分成不同的簇,每个簇内部的数据点通常具备相似的特征。该算法通过迭代的方式,将数据点划分为K个簇,使得每个数据点与所属簇的中心点(即质心)的距离最小化。

基于关联性分析的扩散预警具体步骤如下:

1利用表示学习方法TransE将经营主体映射到低维连续向量空间。TransE通过最小化训练数据中的关系三元组损失函数来学习实体和关系的向量表示,这种关系三元组可通过人工标注和收集的方法来获取。例如,经营主体G和经营主体F之间存在合作关系,则它们构成(经营主体G,合作,经营主体F)关系三元组。通过训练,TransE可以学习到经营主体的低维向量表示,这些向量表示可以用于执行各种下游任务。

2在得到每个经营主体的向量表示后,本文利用K-means无监督聚类算法对经营主体进行聚类。具体算法如表3所示。

表3 K-means 无监督经营主体聚类Table 3 Unsupervised Clustering of Business Subjects by K-means

由于每个簇内部的经营主体具备类似的特征,所以当这个簇内部的某个经营主体被单点预警时,这个簇内部所有的经营主体都有可能是被扩散预警的对象。

3为进一步确定同一个簇内部的经营主体被扩散预警等级,本文提出利用二阶相似性[25]来计算扩算预警等级。二阶相似度通常指的是基于节点邻居的相似度计算。它用于衡量数据节点之间的结构相似性,考虑节点的直接邻居节点之间的关系。例如,图3中二阶相似度预警等级预判部分所示,经营主体A和经营主体B属于同一个簇,且具备3个共同的食材来源,即可视为经营主体A和经营主体B之间的二阶相似度为3。二阶相似度越高,代表经营主体A和经营主体B之间的关联性越紧密。因此,当经营主体A在单点预警中被判定为第5级特别严重预警,经营主体B的预警等级可以表示为“经营主体A预警等级-(预警等级总数-经营主体A和经营主体B之间的二阶相似度)”,即第3级较严重预警。

图3 食品安全风险预警平台运转流程图Fig.3 Operation Flow Chart of Food Safety Risk Warning Platform

4 食品安全风险预警机制的应用效果检验

4.1 检验过程

利用基于多源数据融合的单点预警机制以及基于关联性分析的扩散预警机制,本文搭建了食品安全风险预警平台,并在H省C县开展了应用试点。该平台的搭建涉及前端、后端、前后端对接三个部分。前端负责与用户进行交互,利用HTML、CSS、JavaScript等技术展示风险预警数据。后端则通过Java、SQL等技术处理业务逻辑和风险预警数据的存储和管理。前后端对接主要利用Java技术将前端和后端进行集成,进行数据的对接与同步,形成一个完整的食品安全风险预警平台。此外,该预警平台采用如图3所示的流程完成一次完整的预警任务闭环。首先进行多源数据采集,然后根据多源数据进行单点预警。在完成单点预警后,执行扩散预警。接着,平台根据预警信息生成监管任务,通知H省C县食品安全监管相关部门进行监管处置,前往现场进行食品风险人工检测及监管。在完成监管任务后,食品安全监管相关部门向平台回传人工检测数据及监管结果,最后平台关闭预警。

为分析本文设计的机制在实际应用中的性能,本文统计了食品安全风险预警平台在30天中的单日单点预警次数、单日扩散预警次数、30天单点预警总次数、扩散预警总次数、单点预警总次数、扩散预警总次数在全部预警中所占的比例,如图4所示。此外,本文还统计了单点预警符合回传数据次数、单点预警准确率、扩散预警符合回传数据次数,以及扩散预警准确率,如表4所示。此外,为验证在对同一经营主体进行预警时,基于多源数据融合的单点预警机制相较于基于单源数据的单点预警机制更为高效,本文统计了5天中上述两种方法在对相同经营主体产生预警后的准确率对比,如表5所示。其中基于单源数据的单点预警机制在预警时仅利用了抽检数据,未融合网商交易评价数据、舆情数据,以及12315消费者投诉数据等文本数据。

表4 食品安全风险预警准确率统计Table 4 Statistics on the Accuracy of Food Safety Risk Warning

表5 单源及多源食品安全风险预警准确率对比Table 5 Comparison of the Accuracy of Single Source and Multi Source Food Safety Risk Warnings

图4 食品安全风险预警次数统计Fig.4 Statistics on the Number of Food Safety Risk Warnings

4.2 检验结果

①整体上,单点预警次数越多,扩散预警次数通常会越多。其主要原因是由于单点预警会引发扩散预警,因此随着扩散预警机制对当前单点预警经营主体与其相关经营主体的相关性分析,扩散预警的数量将会增加。

②单点预警准确率通常高于扩散预警。其主要原因是由于在进行单点预警决策时融合了多种来源的食品风险数据,因此能够实现更精准地预警决策。

③当单点预警准确率高的时候,扩散预警准确率通常也会随着增高。其主要原因是由于扩散预警是在单点预警的基础上进行的,当单点预警出现误差,这种误差会极大地干扰到扩散预警。

④在极少量情况下,本文提出的基于多源数据融合的单点预警机制仍然存在性能较低的情况,例如第5日,仅有50%。其主要原因是由于抽检过程存在随机性,而当天产生的单点预警次数较少,由于基数较小,难以有效体现基于多源数据融合的单点预警机制的有效性。

⑤相较于基于单源数据的单点预警机制,基于多源数据融合的单点预警机制在进行单点预警的过程中能够实现更高的准确率,具备更强的性能。其主要原因是由于基于多源数据融合的单点预警机制在预警的过程中融合了网商交易评价数据、舆情数据以及12315消费者投诉数据等文本数据,进而学习和捕捉到了更丰富的预警特征信息。

5 结语

本文通过对当前食品安全风险预警机制存在的问题进行分析和探讨,提出了基于多源数据融合的单点预警机制和基于关联性分析的扩散预警机制。这两种机制的应用为解决食品安全领域中的预警难题提供了新的思路和方法。通过多层感知机和词向量模型的学习与融合,基于多源数据融合的单点预警机制能够更加高效地对多种不同来源的风险数据进行处理,从而实现更精准的决策。同时,基于关联性分析的扩散预警机制能够将预警信息自动化地扩散到与被抽检经营主体相关的其他经营主体,实现更广泛的预警决策。基于上述两种机制,本文构建了食品安全风险预警平台,并在实际应用中证明了本文提出的两种机制的实用性和可行性。此外,本文仍然存在一些不足之处,基于关联性分析的扩散预警机制在进行扩散预警时准确率有待提升,存在一定错误预警的风险。在未来工作中,我们将结合知识图谱技术,继续针对这一难题构建面向

作者贡献说明

阮晓星:提出研究思路,设计研究方案,食品安全风险预警机制设计,起草论文及最终版本修订;

金鑫:实验方案设计,模型算法实现,开展实验,起草论文;

吴焱:准备数据,结果验证,分析结论,起草论文。

支撑数据

支撑数据由作者自存储,E-mail:14006938@qq.com。

1.金鑫. Data.csv.多源食品安全风险数据.

猜你喜欢
单点预警向量
向量的分解
聚焦“向量与三角”创新题
历元间载波相位差分的GPS/BDS精密单点测速算法
超薄异型坯连铸机非平衡单点浇铸实践与分析
山东冶金(2019年5期)2019-11-16 09:09:10
法国发布高温预警 严阵以待备战“史上最热周”
今日农业(2019年12期)2019-08-13 00:50:02
园林有害生物预警与可持续控制
现代园艺(2017年22期)2018-01-19 05:07:01
数字电视地面传输用单频网与单点发射的效果比较
向量垂直在解析几何中的应用
16吨单点悬挂平衡轴的优化设计
机载预警雷达对IFF 的干扰分析