大规模数据库的数据挖掘系统概述

2015-05-06 01:28:36张云峰
山东工业技术 2015年3期
关键词:数据源数据挖掘关联

张云峰,宋 艳

(1.北华航天工业学院,河北 廊坊 065000;2.北奔重型汽车集团有限公司,内蒙古 包头 014032)

1 数据挖掘技术

1.1 数据库的数据挖掘系统

数据库的挖掘在广义上是数据挖掘过程中从存储在数据库中的大量数据中挖掘出有用的信息。从这个角度看,数据库挖掘系统包括以下几个部分。

(1)数据库:数据库可以恢复信息,它可以整理数据库中的数据;

(2)数据仓库服务器:根据用户的数据挖掘需求,提取相关数据的数据仓库服务器;

(3)知识库:它是一种领域知识用来评估结果的有趣程度模式或指导研究。这种知识库的概念是有层次的,包括了解用户的认可;

(4)数据挖掘引擎:这是数据挖掘的重要组成部分,它是由一组功能模块的组合,用来进行描述,分类,转换和偏差分析等;

(5)数据评价模块:它通常是由有趣度去衡量,并且能够与数据挖掘模块进行交互,使得搜索专注于有趣程度的模型;

(6)图形用户界面:用户和数据挖掘系统在这个模块之间的通信,这使得系统与用户进行交互,并且为数据搜索,提供信息,帮助搜索聚焦,和探索性数据挖掘。

1.2 数据挖掘系统的功能

1.2.1 清洗泛化

数据挖掘系统可以把现有的数据提高到一个更高的水平。利用GDBR广义积分算法,通过空间和时间上的复杂性的相关性,然后采用N-gram方法可以有效地搜索和准确的重复记录系统中的相似信息,然后进行排序和测试。智能化操作,如规范的插入,删除,交换和置换可以处理常见的拼写错误,数据清洗。但也有一些偏差,采用精度检测正常消除基本算法,本系统提高了基本消除算法,利用统计原理,结合合理的直接和逆重复矩阵,能够提高拼写错误的检测和正确的修改。

1.2.2 数据挖掘的功能

根据相关的关联规则和序列规则,系统的分类以及数据聚集的数据挖掘方法,实现了数据挖掘系统的预期的应用目标。通过搜索与集成的频繁项目集之间的数据实现Apriori算法。频繁项集产生关联规则的基本思想是:通过记录I的频繁项,并记录下I所有非空子集内容。如果值的支持(I)/支持(a)大于最小置信度,规则= >(1-a)将直接输出。如果I中的非空子集不符合条件,相关规则将不输出。换句话说,关联规则不是由a形成的,但时间序列规则往往与系统中的项目集的时间相关联。该系统中的时间序列规则是由AprionAII决定的。在广泛的意义上说,关联规则包含强烈规则,例外规则和随机规则。规则的少量数据服从的例外规则的代表。虽然数量少,其有趣性高。它是未知的信息在这个阶段的和不可预知的信息规则。该系统中的最小可信度的关联规则设置了例外。因此,系统可以形成分类关联规则(CAR)和分类关联规则(ECAR)和虚假的规则(SCAR)。

这些定义数据和分类数据,代表可以形成的数据类别,并根据分类标准中属于未知类别的数据来形成分类。在这个系统中,应用区间分类器可以提高正确率和分类精度水平、降低过深树扩展的决策树分类器。

聚类算法结合高密度集群采用CURE算法进行标记的许多不同的簇代表点。所以能够形成一定的集群分布式架构。然后有效地识别特殊的形态,使数据处理更高效和提高处理能力。利用数据挖掘之前,系统会自动划分空间分布,使信息对象形成了许多数据单元。然后,根据本单位的特点,计算机集群分布。另一个独特的聚类算法是基于密度的聚类算法。通过改进Dbscan算法,数据部门可以实现由小部门集群,实现和算法的加速速度通过选择代表扩大种子点的相邻对象,和整个数据库集群实现样本数据的聚类。它使系统的聚类算法更有效。

2 基于大规模数据库的数据挖掘系统的构建方法

2.1 整体框架结构的设置

该系统集成了各种模块密切相关,形成数据结构层次,包括多个独特的输出操作功能,具有多数据源、多参数的特点。因此,每个挖掘操作模块之间的可以是相互独立的,这可以产生更多的功能和更稳定的系统。作为一个集成系统,有一个协调统一的模块进行模块之间的关联,从而提高并实现数据的传递、标准化系统的操作和数据源的挖掘结果。

在数据挖掘系统的基础上考虑一个庞大的数据库,本系统的数据挖掘的范围必须要扩大,因此实现挖掘对象不应该仅存在于数据库中,也应该在文件中。因此,根据文件系统提供的信息处理方法。呈现更容易挖掘结果,实现远程决策支持分析,该系统还具有自动恢复的功能挖掘结果,扩大应用范围。因为它是操作电脑的人,该系统配备了良好的操作界面,这能够很方便用户的操作和帮助决策者做决策分析并做出准确的决定。

2.2 模块设置

根据本系统的上述结构,以下模块设置是实现数据挖掘系统的相关功能。

(1)挖掘模块可以实现挖掘工作功能,采集不同数据库中的数据。每个挖掘模块是独立的。数据库管理模块可以控制单个模块。存储模块的数据源,通过挖掘读入相应的数据挖掘基础,为其他模块提供的基础数据。

(2)在预处理模块的主要功能是过滤,定义和格式的数据源,进一步提高整个系统的可操作性和实用性。主要的子模块进行数据映射操作,映射的列映射和类型映射。数据映射到地图源表成为身份类型,并形成相应的对照表。不同的数据映射并形成一个统一的模块。列映射到数据源中提取有用的柱,有利于减少数据量,加快了计算速度。类型映射是将不同的数据源的类型强制性转换成统一数据库中的数据类型,有利于挖掘。

(3)存储模块操作整个数据库中的数据。然而,首先必须导入外部文件,然后存储和控制。采用ODBC技术底层界面。利用内存索引和缓冲功能,加快系统的计算能力。

整个系统的核心模块是挖掘管理模块。各种信息用户实现从数据库的挖掘应存放在挖掘基地。挖掘基地直接设置在系统数据库中,便于传输和管理。挖掘库管理包括所有类型的数据挖掘过程,数据准备和数据存储。数据挖掘操作在整个挖掘过程中依赖一个其他数据挖掘和生成的一个新挖掘的运行结果。此外,新的结果可能是另一个挖掘过程中的数据源。

3 结论

本文探讨了基于大数据的数据挖掘系统的构建。首先,介绍了数据挖掘技术,包括数据挖掘的内容和实质,数据库挖掘过程和挖掘系统的组成,以及数据挖掘系统的功能。然后,论述了构建数据挖掘系统的方法,包括总体框架结构设置,模块设置界面设置。越来越多的相关数据集成系统进行发布和得到认可,企业应当根据自己的特点和需求构建数据挖掘系统,来为他们自己提供更好的服务和完善的应用及经济效益。

[1]王元卓等,网络大数据:现状与展望[J].计算机学报,2013,36(06).

[2]李国杰,程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域--大数据的研究现状与科学思考[J].中国科学院院刊,2012(06):647-657.

[3]程学旗等.网络大数据计算技术与应用综述[J].科研信息化技术与应用,2013(06).

猜你喜欢
数据源数据挖掘关联
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
Web 大数据系统数据源选择*
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
基于不同网络数据源的期刊评价研究
智趣
读者(2017年5期)2017-02-15 18:04:18
一种基于Hadoop的大数据挖掘云服务及应用
基于真值发现的冲突数据源质量评价算法
基于GPGPU的离散数据挖掘研究