面向云计算的制造业设计服务资源集聚方案设计

2015-03-15 08:39:00
新技术新工艺 2015年2期
关键词:数据存储

党 杰

(西安医学院,陕西 西安 710021)

面向云计算的制造业设计服务资源集聚方案设计

党杰

(西安医学院,陕西 西安 710021)

摘要:通过分析研究,构建了数据来源层、数据存储层与数据匹配层三层模式,通过网页分类算法、海量数据存储算法和语义匹配算法等实现对设计服务信息的搜集、处理和分析,大大提高了制造服务类企业的设计效率。

关键词:资源集聚;网页分类;数据存储;语义匹配

1设计服务资源及资源集聚方案的提出

设计资源是指在对产品的设计开发中,通过设计工具、设计场地、设计物资、设计人员、信息资源和服务资源等组成的一切可用实体,如设计工具中所包括的CAE、有限元分析软件、CAPP等;设计人员中包括的设计专家、技术专家、管理专家等;信息资源中包括的设计标准、专利、数据库、3D 模型等,都被纳入到设计服务资源中。针对大量的设计服务资源,如何将海量的信息进行集聚,再通过云计算平台进行存储,最后通过云计算平台定向地发送给设计资源的需求者,成为该方案设计的重点。通过采用服务资源智能匹配的方法对双方的需求和服务进行自动的匹配,并向该平台的提供商给予相应的服务费用。

2服务智能集聚算法

大量的设计服务资源存在于互联网当中,对设计服务本体的构建需要大量的实例、关系描述、定义描述等。通过采用自动和半自动的方式对服务本体进行构建,可大量减少人工分类带来的问题,对此,本文针对服务本体的构建,提出智能聚集方法,并以数据来源中半结构化数据为例,实现对互联网信息的自动的获取。其具体的步骤为:首先,对互联网中存在的设计服务资源进行搜集和初步分类,从而得到关于设计服务信息的网页,包含XML、RDF等格式在内的各种数据网页信息;其次,对搜集到的数据进行关系和概念的抽取,并映射成各种不同的服务本体,与知识专家库中的服务本体比较。

2.1网页分块

网页结构可分为不同的模块,每个模块都可用一个特定的Dom树对其进行表示,也可以看成是特定的API。通过不同的树节点所构成的根节点,由此形成了主网页。每个节点 node 则为一个块,用 DomNode 表示网页节点。具体包括对其中的节点进行判断,查看其是否为容器类节点,如为容器类节点则继续追踪,则探测其是否为文本类数据,当探测该节点为文本数据时,对该文本块的父节点块进行记录,并探测下一个含有文本数据的区域。清理指定节点内的无效节点并查看该节点是否有效的核心代码为:

protected boolean cleanUpDomNode(DomNode element) {

if(element==null){

returnfalse;

}

Listlist=element.getChildNodes();

intlinkTextLength=0;

booleanflag=false;

if(list!=null){

for (DomNode node : list) {

if(checkTextType(node)){

continue;

} else

if (checkRemoveType(node)) {

node.remove();

flag = true;

} else

if (node instanceof HtmlAnchor) {

String temp = node.asText();

temp = encoder.encodeHtml(temp);

intlength=Chinese.chineseLength(temp.trim());

if (length > 0) {

linkTextLength += length

2.2节点与表格相似度计算

2.2.1节点相似度计算

对节点相似度的计算本身就是对DomNode属性值进行比较。对DomNode属性的描述则包括node.properties(bgcolour,font,width,height)(节点属性) 、node.tagname (标签名称)、 node.text (标签内容)、 Node.depth( 标签深度)。因此,根节点的相似度有下述关系:

(1)

式中,sim(n1,n2)是n1、n2两者之间的相似度,即这两者之间在属性加权和内容方面的相似度,n1和n2为非根节点;w1是该标签在整个网页当中的权重系数。

因此,可以得到n1和n2所对应的子节点的相似度的计算公式:

sim(T1,T2)=max(sim(n1,n2)+w2sim(parent(n1),parent(n2))

(2)

式中,T1、T2分别是n1和n2所对应的子节点,n1和n2的标签名和深度是相同的;parent(n1)是n1最终的父节点;w2是节点受到结构影响的权重系数。

2.2.2表格相似度计算

表格节点的相似度的计算则采用二维矩阵的方式,并分别用Rowi、Coli表示该矩阵的行向量和列向量,则有表格的二维矩阵:

(3)

由此可计算得出其行和列的相似度,分别为:

(4)

(5)

当sim(Colk,Colk+1)=1时,表示该列内容相同;同理,当sim(Rowk,Rowk+1)=1时,表示该行中的内容相同。

2.2.3概念和关系的提取

在完成上述的相似度之后,当表格的行和列的相似度都大于某个设定的值后,则认为两表格具有相似度,对此,接下来则是对其中内容和关系提取。

1)在设计中,对产品的属性通常是被排列在表头,其属性值的不同,则通常表示其不同的网页内容。因此,要实现对概念的提取,需对该网页中的前d行的相似度进行计算,如果其行相似度<平均相似度,则直接转向第3步。

2)若行相似度>行平均相似度,并且在d+1行中都为文本的内容,则定义d=d+1,重复对步骤1进行搜索,当时d=m-1,则认定该表格当中其包含着一个实例,由此转向第3步。

3)提取前d行当中单元格的内容,并对单元格当中存在的重复的部分或者是常用的工程单位符号删除,以此得到该产品的术语概念的集合。

上述步骤的开展都是结合其不同关系的前提下进行的。若B、A为相同概念,则定义B和A为同义概念;若B、A为层次关系,则定义B为父概念,A为子概念。

2.2.4语义的比较与表达

通过对关系的提取,需要对所提取的内容进行比较和语义的表达。其中的比较则与系统中的知识库进行比较,从而判断其是否属于该类型,并通过一定的语义将其表达出来。因此,需要对其中的规则进行定义。

定义规则1:表格当中的数据所描述的相关的设计资源映射到设计资源领域本体描述中的类。

定义规则2:概念映射为该类的属性,并对应到相应的OWL描述语言之中。

定义规则3:表格当中的约束映射主要为本体中的约束关系,在方法当中对约束关系的提取则对应着相应的Datate property 的值域 f:range。

定义规则 4:概念间的关系与本体关系通过 partof进行表达。

2.3实例验证

以发动机的详细数据为例,通过在搜狐网和凤凰网上两类不同汽车的发动机参数表格的数据的抽取,得到如表1和表2所示的数据。

表1 搜狐网汽车发动机数据

表2 凤凰网汽车发动机数据

由此,通过上述算法的抽取,可以得出发动机本体的形成过程,在该实例中包括发动机排量、最大马力、最大功率和最大扭矩等。

3海量数据存储方案

云计算平台下的数据集聚涉及大量数据信息,如何对海量的信息进行处理成为该方案构建的重点。当前针对海量数据的处理有很多,如美国谷歌公司的GFS。本文结合方案的需求,将平台数据的处理和存储通过采用GFS的开源实现Hadoop框架,并在这基础之上借助Mapreduce模式,实现对海量数据和信息的处理。同时,为将相关的数据存储或者是部署到具体的计算节点上,采用HDFS系统及分布式数据库HBase,从而构成了该方案的数据处理和存储,具体如图1所示。

图1 基于云计算平台的设计服务集存储方案

4语音智能匹配算法

4.1算法设计

设计服务中,如何让客户精确地检索到所需要的内容,成为该方案实现的关键。对此,本文提出智能语义匹配算法,具体如图2所示。

图2 智能语义匹配

1)对资源本体进行描述。假设设计资源本体为一个多元组合的集SO={N,R,A,C,X,I,L},其中,N表示为类的集合;R表示概念关系集;A表示概念的属性集;C表示约束集;X表示特殊集合;I表示实例或者是个体;L表示对象间逻辑关系的规定集。

2)资源向量语义分析。定义SV={R1,R2,…,Rn}为资源向量,其中,Ri表示第i类资源的对应的分向量,并且其同时满足IBoxI=N∪R∪A∪C∪X。定义P={A1,A2,…,Am}为资源描述中心向量,并且有P∈Ri,Ai则表示权重比较大的属性。定义Q={T1,T2,…,Tm}为语义查询向量,通过采用属性的权重和分词法对查询的语句进行分解,其中Ti的则为查询特征向量。根据抽取算法,按照其权重的大小进行顺序排列。定义W={W1,W2,W3,…,Wm}为查询词重要性的权重向量。

3)向量的匹配算法。

ifAi=Ti,则权重系数Ki=1。

ifTi满足Ai,则Ki=Km<1。

ifTi包含Ai,则Ki=Kc<1。

ifTi与Ai为完全分离,则Ki=0。

4)资源候选集的获取。对候选集的获得采用向量距离计算公式:

(6)

通过对阀值的确定,当计算出的向量的值在大于该阀值的情况下,则将其定义到符合的目标查询向量当中。该候选查询集用D表示。

5)最优集的获取。通过上述候选查询集,以满足质量Q、数量N、成本C、时间T构成得到的最优函数找到查询结果最优的集合。

4.2算例实证

通过需求方的需求请求,如“能够进行发动机仿真分析CAE,包括连杆强度分析、曲轴孔扭曲的分析,连杆系统的机构模拟、机体模态分析,并起能提供在线使用CAE分析工具”的要求。在资源库中,通过其对CAE性能属性的描述、CAE本体实例库、匹配算法以及最优解算法,可得到其最终有这方面的功能的厂商={TW,JP}。

5结语

基于云计算平台下, 通过对设计服务资源方案的设计,解决了对信息的集聚、存储和其中的语义的匹配,从而使得用户通过搜索可到精确的设计服务资源的信息,对提高制造设计效率起到了促进的作用,具有很大的实用性。

参考文献

[1] 罗俊海,肖志辉,仲昌平.信息物理系统的发展趋势分析[J].电信科学,2012(2):127-132.

[2] 孙玉豹.关于某型履带车辆制动器的有限元分析与研究[J].新技术新工艺,2013(7):56-58.

[3] 陈东,范帅.基于Maxwell的盘式制动器辅助电磁制动装置的有限元分析[J].新技术新工艺,2013(9) :32-35.

责任编辑郑练

Manufacturing Design of Service Resource Gathering Scheme Designed for the Cloud

DANG Jie

(Xi′an Medical University, Xi′an 710021, China)

Abstract:The paper built the data source layer, data storage layer and data layer, three layer model, and through the Webpage classification algorithm, mass data storage algorithm and semantic matching algorithm, realized the collection, processing and analysis of information service, which greatly improved the design efficiency of manufacturing service enterprises.

Key words:resource gathering, page classification, data storage, semantic matching

收稿日期:2015-01-05

作者简介:党杰(1971-),男,大学本科,工程师,主要从事信息控制及强弱电控制管理等方面的研究。

中图分类号:TP 391.72

文献标志码:A

猜你喜欢
数据存储
简单的数据修复
文理导航(2017年2期)2017-02-16 13:18:46
大数据时代档案信息建设的认识和实践
浅谈电力大数据平台关键技术研究与应用
开源数据库数据存储的实现路径分析
基于Android开发的APP数据存储研究
哈希算法在物联网数据存储中的应用
空难事故跨媒体信息采集与检索方法的研究
基于STM32的AD采集与SD卡数据存储
浅谈信息系统工程和POJO模型组件开发
基于MongoDB的调查决策系统数据存储方案设计