摘 要:Hadoop是当前非常流行的大数据分布式处理基础架构,通过HDFS和Mapredue实现了对海量数据的高速运算和存储。R软件是具有完善数据统计分析功能且被广泛使用的开源系统。文章叙述了基于R 和Hadoop构建大数据统计分析平台的过程,藉此实现对大数据的统计分析。
关键词:RHadoop;数据统计;平台
1 RHadoop简介
R是开源免费的统计软件平台,很多统计模型和数据分析方法都能方便地在R中实现。R分析数据之前必须先将数据加载到内存中,因此无法有效处理当今GB、TB甚至PB级的大数据集和实时数据流。而Hadoop的HDFS和Mapreduce能够实时地读取、存储并处理大数据集。联合R和Hadoop构建的大数据统计分析平台能够充分融合两者在大数据集实时处理和统计分析的优势,为海量数据的统计分析提供有效工具。另外,国内许多高校都开设了《大数据统计分析》课程,旨在培养学生处理大数据的能力,以适应大数据时代对人才的需求。但是,由于缺乏实用的大数据实验平台,课程讲授内容驻足于理论,未能有效付诸于实践,造成理论与应用脱节,搭建大数据统计分析软件实验平台将为开展《大数据统计分析》课程的实验教学创造条件。文章基于开源软件Hadoop和R组合搭建平台,使软件的实用性、兼容性较强,并且与昂贵的商业软件(如SAS JMP)相比,几乎零成本。
Hadoop的安装分为三种模式:单节点安装、伪分布式安装和完全分布式安装[1]。文章着重介绍伪分布式安装,这种安装方式更适应个人电脑网络环境以及大数据统计分析教学环境。通常R和Hadoop联合地方式主要包括两种,一种是使用RHIPE(R and Hadoop Intergrated Programming Environment)编程环境进行编程,另外一种就是RHadoop。下面详细介绍RHadoop大数据统计分析平台的搭建过程,主要安装流程分为如下四个步骤流程。
第一步,创建虚拟机(vmware)->安装R软件;
第二步,安装配置JDK和SSH->Hadoop伪分布安装;
第三步,R依赖库安装->RHadoop软件包安装;
第四步,平台运行与调试。
2 RHadoop实验平台的搭建
2.1 环境准备
由于Hadoop分布式系统架构主要基于Linux操作系统,因此需要创建搭载ubuntu(linux的一种衍生系统)操作系统的虚拟机来实现Hadoop的运行环境。在Ubuntu官网下载Ubuntu 14.04系统镜像文件,在电脑中安装VMware Player软件,并创建一台新的虚拟机,搭载Ubuntu 14.04操作系统。然后在虚拟机中安装R软件,可以在终端通过以下命令完成安装:
若以上命令均能运行,无报错,且运行结果最后一行显示“Output:(/…)”(此处“/…”代表运行结果的存储路径),表示RHadoop大数据统计分析平台搭建成功,利用函数form.dfs(/…)即可查看输出结果。
3 结束语
以宽带化、移动互联网、物联网、社交网络、云计算为代表的信息通信技术变革催生大数据,其显著特征为\"大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)\"。数据本身就是可以与物质资产和人力资本相提并论的重要的生产要素,毫无疑问,大数据的使用将成为未来提高竞争力、生产力、创新能力以及创造消费者盈余的关键要素,同时为商业和消费者创造价值方面具有巨大的发展潜力。因此大数据统计分析迅速地成为当前信息科技领域的前沿热点和最为实用的技术。随着“大数据”时代的来临,利用Hadoop分布式系统架构对大数据进行读取、存储和计算已经成为一种必然。R与Hadoop的联合更是极大地提高了对大数据集的统计分析能力,从而能够更加有效地利用数据,从数据中获得有用的信息。文章介绍的RHadoop大数据统计分析平台搭建方法,为个人以及大数据统计分析教学实验提供了低成本、高兼容性和通用性的软件环境。
参考文献
[1]陆嘉恒.Hadoop实战第2版[M].北京:机械工业出版社,2012,11:23-35.
[2]http://cos.name/2013/03/rhadoop1-hadoop/ (2014/12/10).
[3]http://cos.name/2013/03/rhadoop2-rhadoop/ (2014/12/15).
[4]Vignesh Prajapati. Big Data Analytics with R and Hadoop[M]. Livery Place 35 Livery Street, Birmingham B3 2PB, UK:Packt Publishing Ltd,2013:77-80.
*通讯作者:张辉国(1978-),男,山东莱西人,博士,讲师,研究方向:空间统计、非参数统计及大数据统计分析方法。