孙开华 代余杰 封晴
【摘要】 随着信息技术的高速发展,如何对海量复杂数据有效分析是当前重要课题。在语音识别、自然语言处理等数据处理领域,深度学习改变传统机器学习方法。深度学习发展使得各行业使用需求迫切,普通行业使用者需要大量时间成本学习使用。机器学习智能算法可以挖掘频谱大数据中的有用信息,提高频谱资源利用率。介绍机器学习技术,探讨频谱大数据分析机器学习方法,对机器学习的应用前景进行展望。
【關键词】 机器学习 大数据技术 分析处理
引言:
随着通信技术的发展,庞大数据驱动有效决策,成为企业社会高效发展的推动力。如何对海量复杂数据有效分析是当前需要解决的重要课题。传统分析系统基于结构化数据联机分析处理系统,深度学习改变以往机器学习方法,在图像理解等应用领域取得突破性进展。深度学习系工具系统提供较好系统支持,普通行业使用者需要大量时间成本学习相关API,借助分布式计算技术构建深度学习系统可以满足普通用户使用深度学习需求。
一、大数据下机器学习算法研究
大数据上指不能载入计算机内存储器的数据。大数据特征为积累速度快,如何对大数据进行有效挖掘是现代产业发展的重要方向[1]。必须深入研究大数据下机器学习算法问题。机器学习算法包括大数据特征选择,噪音数据会降低学习算法运行质量。应采取标准遴选代表性样本。在子集基础上学习方法构造,Jordan提出分治算法进行大数据统计推理[2]。应用传统机器学习算法进行大数据处理,必须采取并行化处理,Cheng等以大规模可伸缩数据为处理对象实现数据分析。
采取传统机器学习方法存在置信区间拟合模型预测未执行等问题。传统前馈神经网络采取梯度下降法调整权值参数。Huang提出采取随机赋值方式。为确保大规模数据并行处理,Papadimitriou通过MapReduce模型满足大规模数据聚类需求。Apriori算法为关联分析基础算法,需通过并行与增量解决大数据关联问题。Li提出Apriori算法,提高学习效率。
二、大数据机器学习技术面临问题
当今大数据时代,人们意识到大数据隐藏更多价值,对大数据挖掘能获得很大的社会经济效益。机器学习是对海量数据分析重要技术,传统串行机器学习难以完成大规模数据处理。大规模机器学习旨在构建处理大数据的平台,CCF将结合机器学习算法大数据分析技术选为研究热点。大规模机器学习系统需要通过编程抽象降低设计复杂性。
大规模机器学习系统设计要重点研究处理大数据计算性能问题。为提供终端用户良好易用性,大规模机器学习系统应建立高层易用编程抽象模型。大规模数据使得串行机器学习算法无法完成计算。随着Hadoop分布式计算平台出现,需要对机器学习进行并行化设计[3]。目前通常实现基于分布式计算平台提供接口,提供与传统机器学习算法相同的编程接口。如Mahout与MLlib提供经典分类聚类等算法基于分布式并行化实现。并行算法库设计减轻数据分析进行大数据应用分析,但并行算法库提供数量有限,难以满足大数据分析应用需求。需要熟悉底层分布平台编程语言,对机器学习算法进行定制式改进优化。
矩阵运输是机器学习的重要分析建模方法,目前已有很多关于设计分布式矩阵计算库的研究。如HAMA是基于MapReduce的分布式矩阵运算实现,Marlin采用RDD表示存储矩阵。Presto实现基于分布式稀疏矩阵达到负载平衡。PbdR项目与R紧耦合使用户可实现分布是基于矩阵机器学习算法。
矩阵运算库未针对应用程序计算路程进行优化。如对多个矩阵相乘操作带来不同计算量。矩阵库无法针对计算表达式,只能由用户决定乘法顺序。如对分布式内存计算平台Spark无法自行决定矩阵数据是否存在内存中。难以由用户针对矩阵计算流程实现性能优化方案。大数据平台处理需支持多个底层计算平台。
三、机器学习的大数据分析技术研究
近年来出现很多构建大规模机器学习系统相关工作,Spark MLlib绑定在底层计算平台Spark上,满足分布式存储于上层应用开发要求。目前MLlib提供机器学习中分聚类等算法,上层用户难以用MLlib解决大数据应用需求,无法满足用户对算法内实现定制化需求。
SystemML进入Apache孵化项目开发大规模数据学习系统,DML构成代码被SystemML自动转换为地层Spark作业运行。屏蔽底层分布式实现细节,但DML语言不能兼容标准的R/Python环境。
TensorFlow可运行在多种异构平台下大规模机器学习系统,将数据流图节点映射到集群中多台机器。提供多种语言接口包含Java等,但提供接口主要针对深度神经网络算法。Presto扩展语言采用矩阵模型实现分布式机器学习,将数据进行分区实现负载均衡,用户容易对机器学习算法进行定制化实现[4]。但底层采用C++实现框架,与现有大数据环境Hadoop不兼容。目前对数据计算处理有多种设备平台,近年来出现支持底层多计算设备平台系统。Glinda在异构平台下对工作流分区采用预测法加速数据并行应用。研究在GPU上实现矩阵操作,用途模型估计任意硬件平台下计算执行时间。但基于GPU异构平台不提供分布式计算平台调度。Musketeer将前端框架与后端执行引擎解耦,可映射到后端多种计算平台执行。
四、频谱大数据
大数据价值更多体现在隐藏待开发的信息资源,大数据受到大量的关注,机器学习是通过创建计算系统不断学习经验,更好地执行下次任务。大数据成为机器学习的资源。近年来机器学习理念不断提出,计算机性能得到很大提高。
机器学习在数据挖掘等领域取得很大进展。无线通信是数据不通过实体线缆传输的通信方式。每种无线业务对应无线频谱特定区域,社会不断进步使得业频谱数据广度扩大[5]。频谱大数据是分析处理的海量复杂频谱数据集,包括用户相关数据等。频谱状态数据由不同时空频率信号表现不同特征数据。频谱大数据体现大量、多样化的特点。9-30000GHz频谱范围有限,面对有限频谱资源大数据,如何有效挖掘有价值信息,提高频谱利用率问题受到关注。频谱大数据分析是从具有多样性,针对频谱大数据特性需用特定机器学习方法。
五、频谱大数据分析机器学习方法
大量性是频谱大数据的基本属性,假设1s内1m?空间可感知0-1kHz频率内频谱能量为1字节,1h内1km?可感知0-1GHz频谱能量值为3.6EB,无线频谱状态数据在时空方向得到扩大,考虑用户相关数据频谱大数据规模更大。传统数据处理法是将小数据存储于工作站,面对大数据难以在要求时间内完成计算。
典型测量是对数据分布式存储,分布式存储是空间分布,将频谱大数据分区为多个小块。并行化计算随时在适合计算机上运行适合程序。分布式并行学习方法中云计算最具代表性。综合多种计算机网络技术。
数据快速收发要求计算机具有高速处理能力,高速数据处理是频谱预测的重要前提。数据处理耗时长,预测结果无意义,使得频谱使用紊乱,导致频谱资源紧张。高速实时数据处理技术值得关注。使用梯度算法训练学习网络,使其速度不能满足需要。研究提出极速学习机算法是前馈神经网络学习算法,网络结构为输入层与输出层,可达到快速学习的需求[6]。
ELM算法时间消耗大,研究提出新数据有序添加的在线序列ELM算法提高计算速度。图形处理器平台采用分布架构提高计算能力。将ELM算法用于GPU平台提高数据分析速度。
频谱大数据分类为数据结构及相关性等。传统数据处理方法无法处理频谱多样性大数据。核学习核函数可以把混杂数据映射到高维空间,完成多样化数据区分。在非线性频谱数据融合等问题上表现突出,随着算法不断完善,新算法数据分析能力得到加强。面向频谱大数据分析,分布并行学习,多样性学习法得到深入研究。
大数据挖掘在于得到隱藏重要信息,由于数据大量性,数据收发存在干扰等现象。频谱大数据价值密度低为数据挖掘带来挑战,要求采用学习算法深入数据挖掘。深度学习是传统浅层次学习深度化结果,传统浅层次学习模型不包含隐层单元。
神经网络中包含隐层单元为数据表征,浅层学习需要输入专家预选优秀特征,特征选择好则系统性能好。深度学习强调模型结构深度,着力于构建数据特征自我学习,将原始特征变换成高级特征。
特征学习算法对标记数据分析成熟,对无标记数据特征学习研究受到重视。
六、结束语
本文简单介绍几种机器学习方法,频谱大数据分析处理机器学习方法应用不是所有方法的堆叠。选择适合的方法解决问题,讲究多种方法有机融合,为大数据分析处理智能系统树立更高目标。随着科技的进步,微型平台系统,涉密数据传输等问题对机器学习法提出严格要求。如移动终端不断普及,机器学习应用是必然趋势。需要深入研究高速机器学习方法。
参 考 文 献
[1]胡航,杜爽,梁佳柔,康忠琳.学习绩效预测模型构建:源于学习行为大数据分析[J].中国远程教育,2021(04):8-20+76.
[2]蒋姮博,张剑,方荣超,欧阳婉卿,罗禹杰,卢晓宇.基于大数据分析的列车轮对故障诊断方法[J].湖南科技大学学报(自然科学版),2021,36(01):91-98.
[3]胡志强,罗荣.基于大数据分析的作战智能决策支持系统构建[J].指挥信息系统与技术,2021,12(01):27-33.
[4]魏英杰. 利用人工智能和大数据分析实现废弃物处理设施的自动化运行[N]. 世界金属导报,2021-02-23(B16).
[5]无锡市经济学会课题组. 大数据时代的融合发展对策[N]. 无锡日报,2021-01-30(004).
[6]陈丽萍,吴其林,李小荣.“大数据分析”课程案例设计与分析——以网络新闻分析案例设计为例[J].内蒙古财经大学学报,2021,19(01):26-28.