基于Hadoop+MPP架构的电信运营商网络数据共享平台研究

2014-03-12 05:17:22易兴辉陈震宇
电信科学 2014年4期
关键词:网管汇总架构

辛 晃 ,易兴辉 ,陈震宇

(1.中国移动通信集团贵州有限公司 贵州 550018;2.中国移动通信集团设计院有限公司重庆分公司 重庆 401147)

1 引言

随着移动通信网络规模的不断扩大,网络资源种类、数量不断增加,终端客户对网络质量的要求不断提高,客户感知要求也日益提高,网络运维面临前所未有的挑战和压力。为了理解移动互联网的业务特征、网络状态,需要分析和存储大量业务内容数据和信令数据。很多网管支撑分析系统面对着海量的数据压力。目前网管支撑系统的数据存在如下问题,使其不能从海量数据中获得有用的信息并服务于运维与客户。

(1)数据分散,无法关联和共享

以某省为例,各专业的资源、告警和性能数据分散在20余套系统中,各系统各自处理各自的数据,系统间的数据难以实现跨专业告警关联、全专业资源调度及端到端业务质量分析等。

(2)各系统数据模型不统一

数据建模方法、数据分类、数据粒度、数据维度、数据命名编码均不同,不同系统无法共享。

(3)数据和应用紧耦合,数据采集分散重复

告警监控在话务网管、数据网管、动环监控等9类系统中重复;网络拓扑展现在10类系统中重复;性能统计报表在17类系统中重复。系统的数据和应用紧耦合,无法基于现有数据扩展新的应用。网络数据采集不规范、重复采集。

因此,亟需将各生产系统数据准实时地整合到统一灵活的数据共享平台上,有利于以不同视角全面分析网络、业务和用户的情况,有助于生成全局的正确决策。同时需提高数据共享能力,实现跨系统应用的快速支撑。据梳理调研,目前电信运营商的网络数据存在如下特点。

(1)数据量大

以某省某运营商为例,其企业数据之“大”表现在以下方面:

·服务客户数量超过3200万户;

·每天发生通话1.44亿次,通话时长3.14亿分钟;

·每天产生流量 420 TB;

·每天发送短信1.4亿条,彩信900万条;

·无线数据核心网GN接口每天有3.5 TB的CDR话单,约70亿条;

·无线数据接入网GB接口每天有5.3 TB的CDR话单,约100亿条;

·无线交换核心网MC接口每天有300 GB的CDR话单,约5亿条;

·某移动CMNET每日产生350 TB的流量,DNS请求达3.5亿次;

·基站数超过3.4万个;

·全省服务网点数量有3.6万个。

从某种程度上来说,这些不仅是数据,而且是企业宝贵的信息资产。

(2)数据类型多样化

各专业数据不仅量大,数据结构也多样,既有结构化数据,如账单、详单、财务报表、整理后的XDR、企业 ERP等,也有非结构化或半结构化数据,如原始信令、文件、视频、语音、上网记录等。目前的传统关系型数据库只在处理结构化数据方面有较好的优势。

(3)数据存储处理介质能力限制

目前数据的存储分析处理大多采用集中式的以小型机为主的架构(SMP),此架构节点规模受限,磁盘I/O瓶颈严重,计算和存储能力的可扩展性不足,导致高峰期负荷高,性能劣化明显,无法对信令、话单等进行全量管理,难以支撑端到端、灵活的分析、优化与应用。

针对以上数据特点,传统的关系型数据库已经不能满足发展需求,需要寻求一种新的架构,其能较好地处理这些“大而有特点”的数据。

针对网管支撑系统的发展趋势和存在的问题,通过研究与具体实现,搭建一个硬件平台、网络环境,以实现数据的统一建模、统一存储、统一处理,实现数据向应用的开放共享。数据库主要采用分布式架构,探索基于Hadoop+MPP的方式,上层应用可以基于数据平台进行灵活、快速定制。

2 主流建设方案

网管系统涉及的数据源多、数据量大、数据结构差异大,以某省网管为例,总计涉及六大类12小类数据,总存储量8PB,日增量160 TB,其中信令数据占85%。因此,必然涉及大数据处理技术。目前电信运营商对大数据中心的建设主要有两大主流方案,分别对两大主流方案进行分析与对比。

2.1 采用Hadoop技术

因为Hadoop的低成本性 (使用廉价x86服务器 )、强扩展性(硬件节点可不断横向扩展)、容错好(系统设计为高容错性,允许PC出现故障;每块文件数据在不同机器节点上保存2~3份)等特点,被广泛运用于大数据解决方案中。

在Hadoop架构中,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。如某运营商在2012年用70台服务器建成CS共享平台 (CS域信令及无线信令),日增数据量约10 TB,保存60天,主要为营销、无线优化、网络运维等提供信令数据支撑。

如某省投入90台x86服务器,采用Hadoop技术搭建一个大数据平台,通过大数据平台的建设,融合DPI数据、网络信令数据、业务支撑系统内的话单及客户数据等,存储共计1125 TB,其中计算/存储节点 80台,管理及接口服务器节点10台。但随着Hadoop的广泛应用,其也显现出不尽如人意的地方,介绍如下。

·适用场合局限:与传统关系型数据库、MPP(massively parallel processing)数据库、流计算等技术相比,Hadoop只是对某些类型的计算任务比较擅长。

·人力资源问题:系统的开发人员对SQL比较熟悉,但对Hadoop技术比较陌生。Hive虽然支持在Hadoop平台上使用类SQL,但性能较差,对性能要求较高的应用,Hive无法满足相关要求。开发人员的技术能力是一大障碍。

·维护成本:主要包括两部分,一是硬件维护成本,Hadoop平台一般由PC服务器构成,而PC服务器的硬件故障率一般比小型机高,在生产系统运行初期,硬件故障发生的可能性较低,这部分成本不明显,但随着时间的推移,硬件(如内置硬盘)将会陆续出现问题,维护成本较高;二是平台维护人员的投入成本,因为Hadoop平台较为复杂,维护人员需要经常根据需要调整平台设置,以获得较好的性能。而传统数据库虽然不能设置一次后就“一劳永逸”,但至少可以在一段较长的时间内不用做大的更改。

2.2 采用传统数据库方式

传统企业的IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现方面。数据的处理目前还是以数据库、数据仓库技术为主,大多是主机+集中存储的架构;软件则主要选择Oracle相关数据库产品来搭建数据仓库,实现各层功能。如某省的性能管理系统(相当于网络数据共享平台)、南方的电网数据中心、某运营商的总部集中数据分析系统、某省的地铁数据中心均采用小型机+集中存储+数据仓库软件的方式来完成数据中心的建设。

随着数据量的增涨与数据类型的日益复杂,传统数据仓库的不足也逐渐显现,具体介绍如下。

·处理数据量小:对于10 TB以上的数据,传统小型机+磁阵方式处理吃力。

·投资高:如果使用传统磁阵,成本为1.5万元/TB,1 PB存储需要1500万元,存储半年1 GB的分析数据需要近1500万元(仅为存储费用,不含小型机费用)。

·I/O瓶颈:传统数据库采用集中式存储,数据库的诸多性能问题最终总能归咎为I/O。

3 关键技术

3.1 Hadoop

Hadoop是一个分布式系统基础架构,由Apache基金会开发[1]。用户可以在不了解分布式底层细节的情况下开发分布式程序,以充分利用集群的威力进行高速运算和存储。Hadoop的成员架构如图1所示[2]。

其有如下3部分核心内容[3,4]。

(1)分布式文件系统(HDFS):文件存储方式

HDFS是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文件数据存储能力。对用户来说,可以将其看作一个巨大的磁盘,可以创建、删除、移动、重命名文件。

(2)HBase数据库:数据库数据存储方式

HBase 是非关系型数据库 (not only SQL,NoSQL),主要依靠横向扩展,通过不断增加廉价的PC服务器增加计算和存储能力。

(3)MapReduce模型:并行计算方式

遵循map(映射)/reduce(化简)模型就可以实现分布式并行计算。基于map/reduce写出来的应用能运行在上千台服务器组成的集群上,并以一种可靠的容错方式并行处理数据,实现对大数据的处理。

图1 Hadoop的成员架构

MapReduce可以把一个任务分解为很多可以并行化处理的子任务,这些子任务被分配到不同服务器上进行并行计算,当所有服务器的计算都完成后,再把结果聚合到一起形成一个最终结果。

Hadoop的优势介绍如下[5]。

·数据处理能力强:在整体上获得较高的计算能力,可以完成传统数据库无法完成的大数据处理任务。

·成本低:在生产实践中,就Hadoop擅长的计算而言,同等计算能力的Hadoop集群的成本仅为运行于小型机的传统数据库成本的1/10~1/2。

·高可靠性:Hadoop通过维护多个数据副本,当一定数量的数据块损坏或者一定数量的节点失效时,仍能保证数据的完整和正确。通过作业控制机制,即使某些计算任务失败,也不会影响整个计算作业。

·灵活的可扩充性:Hadoop可以根据需要自由缩减和扩充集群规模(即减少和增加节点),具备良好的可扩充性。

综上所述,Hadoop平台既有优势,也有不足,适用于某些特定类型的场景,可以作为混搭结构的一部分。

3.2 MPP数据库概述

Hadoop在处理如原始信令、图片、声音等非结构化或半结构化数据时,表现出毋容置疑的优秀计算能力,但在面对传统关系型数据复杂的多表关联分析、强一致性要求、易用性等方面时,其与基于面向对象的分布式关系型数据库还存在较大的差距。此时,最有效的大数据分析系统需要结合MPP数据库搭配构建。

MPP是由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度看是一个服务器系统[6,7]。其基本特征是由多个SMP服务器(每个SMP服务器称为一个节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(share nothing)结构,因而扩展能力最好,理论上其扩展无限制。

MPP数据库是将任务并行地分散到多个服务器和节点上,在每个节点计算完成后,将各自的结果汇总在一起从而得到最终结果。

与传统的关系型数据库相比,MPP在数据处理方面具有以下优势[6,7]。

(1)采用分布式架构

与传统数据库相比,MPP最大的特点是采用分布式架构。传统数据库过于集中管理而造成大量数据堆积,需要大量存储数据的介质,从而导致服务器的回应下降乃至崩溃。而MPP是由许多松耦合处理单元组成的,每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等,每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点是不共享资源。

(2)处理数据量大

传统的数据库部署不能处理TB级数据,也不能很好地支持高级别的数据分析,而MPP数据库能处理PB级的数据。

(3)更大的 I/O 能力

典型的数据仓库环境具有大量复杂的数据处理和综合分析需求,要求系统具有很高的I/O处理能力,并且存储系统需要提供足够的I/O带宽与之匹配。传统数据库采用集中式存储,数据库的诸多性能问题最终总能归咎于I/O,而MPP采用完全无共享的并行处理架构,完全避免了集群中各节点在并行处理过程中的CPU、I/O、内存、网络等的资源争夺,不会造成计算及存储资源瓶颈。

(4)扩展能力好

MPP由多个节点构成,节点通过互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享结构,扩展能力最好,理论上其扩展无限制,目前的技术可实现512个节点互联、数千个CPU。不管后台服务器由多少个节点组成,开发人员所面对的都是同一个数据库系统。

(5)采用列存储[8]

将分布式数据处理系统中以记录为单位的存储结构变为以列为单位的存储结构,进而减少磁盘访问数量,提高查询处理性能;由于相同属性值具有相同的数据类型和相近的数据特性,以属性值为单位进行压缩存储的压缩比更高,能节省更多的存储空间。

3.3 国内外相关应用

Hadoop和MPP作为两种热议技术,目前在各行业得到广泛应用,如图2所示。

大数据的分析是重点和难点,既要满足海量数据的并行计算要求,又要满足前端应用查询的快速响应要求[9],因此,本文提出结合Hadoop、MPP数据库、内存数据库等多种技术组成的混搭架构来组建数据共享平台。

图2 国内外应用举例

4 基于Hadoop+MPP架构的电信运营商网络数据共享平台

4.1 共享平台处理数据类别

根据应用需求,数据共享平台需要接入的数据包含细节数据(CDR、MR、话单、DPI、日志等)和各类统计数据(KPI),涉及的接口系统包括综合资源、话务网管、传输网管、综合告警、网络优化平台、路测系统、经营分析系统等外部系统。主要数据管理范围见表1。

4.2 平台架构设计

4.2.1 两种技术的定位

数据的处理和访问需求决定了数据存储的平台,大数据时代需要分工严密的混搭架构,以充分发挥各个平台的优势,两种技术的定位如图3所示。

4.2.2 系统架构

网络数据共享平台按照分层、分级设计理念,由三大层构成,分别为应用层、数据层、数据质量管控中心,打造智能网络数据中心,为网络运营、管理工作提供有力支撑。系统架构如图4所示。

表1 共享平台处理数据类别

(1)数据层

数据层由统一数据处理平台、数据存储构成。数据层通过标准化的逻辑模型完成数据仓库中数据的基本存储功能,并通过数据挖掘等技术进行数据加工,形成信息和知识,为外部数据访问需求提供数据访问服务;为系统内部的应用层提供各种数据和信息,满足上层业务应用开发的需要,支撑平台的自身发展。统一数据处理平台从各外围系统中采集相关基础数据,进行数据的清洗、转换和加载,并对整个处理流程的异常情况进行管控。数据处理实现数据仓库中基础数据、汇总数据以及加工后信息的存放和管理功能。

图3 两种技术定位

图4 系统架构

(2)应用层

应用层包括基础功能组件和各类分析应用,基础组件包含指标管理、即席查询、多维分析、统计报表、数据挖掘、预测优化、GIS功能等,通过对分析功能和基础能力的集成,形成功能支撑单元,为应用功能层提供数据和功能支撑;各类分析应用包括基础分析应用、自主分析应用、挖掘分析应用、专题分析应用、实施分析应用等。

(3)数据质量管控中心

数据质量管控中心主要包括元数据管理、数据质量管理。通过数据管控中心有效发挥元数据管理的优势,结合生命周期管理,进一步完善数据质量监控应用和数据运维管理机制,逐步实现企业全程数据质量的监管。

4.2.3 技术架构

整个数据中心根据数据的流向,分成后台的数据处理、前台的数据展现两大部分。基础数据平台部分主要采用模块化、高可扩展的技术,如并行计算(MapReduce)、并行装载、MPP数据库、分布式存储等;应用平台的数据展现采用基于J2EE的多层客户/服务器模型,通过灵活的集成框架,保证不同的第三方插件、产品能够有效地集成。

网络数据共享平台的技术架构主要由基础数据平台、数据共享平台、BI应用平台构成。数据处理采用Hadoop+MPP数据库混搭模式,同时采用STORM技术支持实时数据的采集和计算,实现高并发、可伸缩。数据共享层支持数据库、消息、文件多种方式的数据共享能力,数据共享可集中管理。在应用平台将J2EE分层框架与SOA相结合,实现高可配置、组件化,可支持多种终端,可平滑承载不断增长的BI应用,如图5所示。

4.2.4 数据存储计算架构

在数据存储和计算方面,基础数据处理采用Hadoop+MPP数据库混搭模式,对非结构化大数据采用Hadoop进行分布式存储和计算,其他数据采用MPP进行数据计算和存储。上层数据的维度汇总以及深度分析同样采用MPP数据库。网络数据共享平台数据存储及计算架构如图6所示。

图5 系统技术架构

图6 数据存储及计算架构

(1)数据源层

数据源层主要指网络数据共享平台的数据来源系统,主要包括数据网管、话务网管、传输网管、网络优化平台、综合资源管理、告警与故障管理、经营分析、数据业务监测与分析、信令监测、EOMS、网投、终端库、拨测、路测等外部系统。

(2)基础数据层

主要完成数据的装载、缓存、处理、存储。

①数据装载、缓存

数据装载层涵盖网络数据共享平台从各业务源系统中对相关业务数据进行抽取、清洗、加工、整理并加载到数据存储库的全过程。数据装载层通过文件、数据库、消息等方式,从外部系统获取所需的源数据。从数据源采集到数据后,通过不同的装载处理,把数据加载至数据缓存层,以便于数据整合处理。对于数据量比较大的明细数据(如信令、话单等),将数据分发到多台机器上进行并行ETL处理,以提高数据的处理效率;对于传统数据(如性能、资源、工单、告警等),通过数据加载进入关系型数据库缓存层。

②数据整合处理

完成数据的ETL过程。对于大量明细数据,除了基本的ETL处理,还要从公共资源数据中同步与关联(用户、资源、终端数据)以便于数据聚合处理;对于传统网管数据,数据种类多,需要通过ETL过程得到分析所需要的归一化数据。

③明细数据存储

ODS层是网络数据共享平台数据处理与存储的核心部分,大数据与传统数据数据源的上报周期、频率、特征不同,因此分两个通道进行处理。可采用分布式计算及存储技术(如MPP、Hadoop),完成大数据的明细存储(存储原始用户的详单数据),根据业务需求定义的数据模型,应用并行计算技术,完成各种维度的数据计算与汇总,并将其结果存储到维度汇总数据中。对非结构化、数据关系相对简单的大数据 (如信令XDR、MR测量、DQ/CQT等),采用Hadoop技术处理;而对结构化和数据关系复杂的海量数据,采用MPP数据库(如Vertica),支持分布式高效存储、复杂计算和查询;其他普通基础数据经过ETL过程得到分析所需要的归一化数据,技术上采用MPP关系数据库进行存储和计算。

④数据聚合处理

通过数据模型进行多维的分析、汇总与计算。对于大数据的计算结果有两种输出方式:大数据的部分计算与传统网管的性能具有相同的维度、统计对象,要将这类计算结果与传统网管的性能统计数据进行整合,同时输出到维度汇总数据库中进行存储;大数据计算出的而传统网管不可能计算出的数据,如用户行为数据、终端数据、互联网应用业务数据,则直接进入汇总数据EDS层。

(3)数据仓库层

数据仓库层主要存储维度汇总数据和应用汇总数据。维度汇总数据是按照维度、事实进行数据组织,主要包括基于数据模型的大数据并行计算与传统数据的数据库计算结果。维度汇总数据为系统的应用汇总提供多维基础数据,同时通过数据共享模块,向外部系统提供可共享的数据,满足外部系统的应用要求。应用汇总数据是按照系统实际的业务需求,进行数据组织,主要来自维度汇总数据的进一步分析,是根据业务应用需求高度汇总的数据,如维护查询需求、日常分析需求、专题分析需求等,同时通过数据共享模块,向外部系统提供可共享的数据,满足外部系统的应用要求。

·数据仓库(EDS)层:网络数据共享平台的维度汇总数据层,存储周期较长,一般为3年或以上。EDS层为支撑上层应用层,根据业务需求按照主题划分原则对事实数据和维度数据进行有效的组织和规范,提高数据的访问效率,技术上采用MPP数据库。EDS层是对外数据共享的主要数据层。

·数据集市(DM):面向特定主题的应用层数据的计算与呈现。

·准实时分析:为实时应用提供实时指标计算和反向实时数据通道,为实时应用提供数据源的实时数据。

4.3 平台设计实现

4.3.1 数据量测算方法研究

(1)原始数据层

原始数据层存储量=一天基础数据量D×存储时长。

(2)基础明细数据层

共享Hadoop存储量和MPP存储量见表2和表3。

(3)数据仓库层

数据仓库层的数据流计算见表4。

表2 共享Hadoop存储量

表3 MPP存储量

表4 数据仓库层数据量计算

汇总比例为该类汇总数据与入库前基础数据的比例,冗余系数=数据库索引冗余系数1.5×数据库压缩系数0.5,汇总系数=汇总比例×冗余系数,得到数据仓库层的计算方法为:存储量=(每天采集量×7.5%×300+每天采集量×1%×300)×存储份数/压缩比。

(4)应用汇总层

应用汇总层的数据量计算见表5。

表5 应用汇总层数据量计算

汇总比例为该类汇总数据与入库前基础数据的比例,冗余系数=数据库索引冗余系数1.5×数据库压缩系数0.5,汇总系数=汇总比例×冗余系数,得到应用汇总层的计算方法为:存储量=(每天采集量×0.04%×1080)×存储份数/压缩比。

4.3.2 平台物理架构建设

采用纯x86的物理架构,根据数据接入量和数据存储处理量配置x86 PC服务器,并配置相应的MPP数据库和内存数据库,平台采用如图7所示的物理组网架构。

考虑到该平台需接入信令等大数据,同时考虑到业务的快速增长,本文采用分布式的x86集群架构:大数据分析及处理使用Hadoop云平台,汇总关联采用MPP数据库集群。Hadoop云架构可充分利用集群资源对大数据进行高速运算和存储,具有高可靠性、高扩展性、高效性、高容错性、低成本等特点;MPP架构对海量数据进行集中存放和管理,具有高并发性、线性扩展性、高性价比、高可用性、系统易用等特点。该架构具有出色的线性扩展能力。

图7 物理组网架构

4.4 混搭架构的实现

4.4.1 混搭架构的优势

(1)支持明细数据并行快速加载、压缩

加载指用户粒度XDR的分布式采集和加载。Hive的数据保存在HDFS上,因为HDFS是分布式文件系统,并行加载能有效利用网络和I/O,提高载入性能。Hadoop支持多种压缩格式。

(2)详单查询(秒级响应,千级并发)

对于实时查询,HBase能够提供较低时延的读写访问能力,并能承受高并发的访问请求,适合用于详单查询等应用。

(3)明细数据多表关联查询

MPP数据库能较好地支持明细数据多表关联查询。Hadoop如果用Hive实现明细数据多表关联,性能不是很理想;如果用MapReduce实现多表关联,则可以针对应用进行优化,有可能取得较好的效果,但MapReduce编码较麻烦,只适用于特殊情况。

(4)明细数据自定义查询

MPP数据库和Hadoop均支持明细数据自定义查询,但MPP数据库实时性更好,Hadoop仅支持非实时的明细数据自定义查询。

(5)数据共享、开放模型

数据总线可以提供数据共享和开放模型服务。

(6)明细数据并行计算

Hadoop和MPP数据库的处理机制是并行计算,因为并行计算能有效提高处理能力,常用于处理数据量较大的明细数据。

(7)数据的高可靠性和系统的高可用性

Hadoop和MPP数据库均有较强的容错机制,包括数据容错和计算容错,通过多副本、任务失败重调等手段,保证数据的高可靠性和系统的高可用性。

(8)支持横向和纵向扩展

Hadoop和MPP数据库均支持横向和纵向扩展,除了采用更强的硬件,均可以通过增加节点来提高集群的总体处理能力。

(9)数据实时查询

MPP数据库和内存数据库可支持数据实时查询。如果处理逻辑较简单(如根据行关键词查询),则HBase也是很好的选择。

4.4.2 实现效果

根据测算与实现,搭建了一个84台x86服务器规模的共享平台,平台将O域和B域数据融合,综合多渠道数据,目前已接入处理经营分析、综合资源、数据网管、网络优化平台、信令系统等20余个厂商、51个外部系统、488个数据源接口,共接入5000余个指标,向用户提供将近70个主题、专题应用,平均每天处理45 TB以上的数据。

基于数据共享平台可实现多个专题、主题上层应用,均取得了较好的效果,具体表现在以下几个方面。

·提升核心能力:实现了网络隐患预先把控能力、端到端分析能力、网络资源预测调配能力以及网络质量评估支撑能力。

·提高管理效率:规则固化及集中运维,大幅度提高工作效率;实现闭环管理,提高了沟通效率;支撑服务地市,提升了各个地市的应用水平。

·提升企业效益:支撑市场精细化营销,促进业务发展,增加企业效益,平台的集中建设极大地提升投资效益。

·提高客户感知:通过关键业务质量提升,减少客户投诉,保障客户感知。

以某省四网协调资源调配能力应用为例,基于数据共享平台对四网协同分析进行强化,进行TD-SCDMA站点和WLAN AP的规划选址和拆闲补忙,精准投放网络资源,实现效益最大化。对各资源的调整优化成果如图8~图10所示。

图8中,规划了410个TD-SCDMA站点新建工作,累计完成96个TD-SCDMA小区的拆闲补忙工作;图9中,规划了21个TD-SCDMA搬迁站点工作,对4组站点进行拆闲补忙的设备互调;图10中,新规划109个TD-SCDMA站点,利用拆闲补忙有效支撑开学的迎新促销,高校区域超闲AP减少886个,全网超闲TD-SCDMA小区和WLAN AP数量显著下降。实现了将生产系统数据准实时整合到统一的数据共享平台上,同时提高数据共享能力,减轻生产系统的压力,使生产系统专注于生产运营,提高专业化运作效率,降低企业运营成本,从而提升了企业数据资产价值。

图8 TD-SCDMA站点新建工作

图9 TD-SCDMA站点搬迁工作

图10 TD-SCDMA站点规划工作

5 结束语

本文运用分布式计算和存储技术,开展和探索了基于Hadoop+MPP架构的电信运营商网络数据共享平台建设的研究。探索数据仓库体系建设,通过整合各专业分散的网管数据,搭建了网络侧的基础数据平台、BI应用平台、统一管控平台,支撑上层应用;细分数据共享层,探索建立统一的数据模型和接口,以响应上层应用的开发需要。数据共享平台的所有模型对上层应用开放,应用厂商可以通过标准的接口调用,实现高效应用开发。

对Hadoop的二次开发影响上层平台的使用,而目前行业内优秀的Hadoop二次开发技术人员比较缺乏,开发人员经验不足和技术底蕴的深厚会严重影响Hadoop的应用。因此,本研究的后续工作是优化Hadoop的二次开发工作,进一步探究MPP和Hadoop的深层理论,找到两者的最佳契合点,实现Hadoop和MPP的完美结合。

1 王峰,雷葆华.Hadoop分布式文件系统的模型分析.电信科学,2010,26(12)

2 程莹,张云勇,徐雷等.基于Hadoop及关系型数据库的海量数据分析研究.电信科学,2010,26(11)

3 田秀霞,周耀君,毕忠勤等.基于Hadoop架构的分布式计算和存储应用.上海电力学学报,2011,27(1)

4 陈梦杰,陈勇旭,贾益斌等.基于Hadoop的大数据查询系统简述.计算机与数字工程,2013(12)

5 单士华,曹社香.基于Hadoop处理大数据分析.创新科技,2013(12)

6 张雨,蔡鑫,李爱民等.分布式文件系统与MPP数据库的混搭架构在电信大数据平台中的应用.电信科学,2013,29(11)

7 吉增瑞.基于MPP结构的计算机平台数据库管理系统设计技术探讨.计算机工程与科学,1998(Z1)

8 基于Hadoop的大规模数据处理系统.http://wenku.baidu.com/link url=ZNmtQsNXNogXR6 MDZKFT8cri7_eINjCix8I0X_4aucr-GC2X3JQfg-TlYfOPJfY4q93O6ERd_HXQoxZCkvtFXTUUOS-FqITz cneblkCXhSV4G

9 李建中,刘显敏.大数据的一个重要方面:数据可用性.计算机研究与发展,2013,50(6)

猜你喜欢
网管汇总架构
基于FPGA的RNN硬件加速架构
常用缩略语汇总
医药与保健(2022年2期)2022-04-19 08:17:34
系统抽样的非常规题汇总
功能架构在电子电气架构开发中的应用和实践
汽车工程(2021年12期)2021-03-08 02:34:30
LSN DCI EVPN VxLAN组网架构研究及实现
电信科学(2017年6期)2017-07-01 15:45:17
一种基于FPGA+ARM架构的μPMU实现
“五制配套”加强网管
新闻前哨(2015年2期)2015-03-11 19:29:29
供应商汇总
供应商汇总
一种供鸟有限飞翔的装置
家禽科学(2014年8期)2014-04-29 00:44:03