管 涛,刘 宁
(1.郑州航空工业管理学院 计算机科学与应用系,河南 郑州 450015;2.航空经济发展河南省协同创新中心,河南 郑州 450015)
大数据是国家的战略资源,是当今国内外主流的发展趋势之一。发展大数据有利于推动相关产业的进步,引导企业向互联网领域转型,提高政府决策的效率和质量。当前,国内的大数据政策积极向好。2017年,第12届全国人民代表大会第五次会议上李克强总理作政府工作报告,指出要深入实施“中国制造2025”,加快大数据、云计算、物联网应用。
在大数据教育领域,教育部发布了大数据相关专业的政策。2016年,教育部发布的“2015年度普通高等学校本科专业备案和审批结果”中首次增加了“数据科学与大数据技术专业”,北京大学、对外经济贸易大学及中南大学获批。2017年3月,教育部发布了“教育部关于公布2016年度普通高等学校本科专业备案和审批结果的通知”,共32所高校获批“数据科学与大数据技术专业”。纽约大学Vasant Dhar指出:“Data science is the study of the generalizable extraction of knowledge from data。”[1]周傲英等人在《大数据》中介绍了国内外大学开设数据科学课程的分布情况,指出了开设数据科学的必要性[2]。徐吴等人强调数据科学作为通识教育的重要性[3]。
大数据领域就业前景广阔,目前国内外大数据人才缺口巨大,及早完善大数据专业培养体系对人才队伍建设具有重要的意义。2016年,北京大学成立博雅大数据学院,积极探索大数据人才培养模式,致力于解决我国大数据人才极度缺少的问题。博雅大数据学院院长欧高炎指出“人才是大数据产业生存和发展的命脉”[4]。
如何建设大数据专业,开展大数据教研、人才培养工作,目前没有统一的标准,缺少系统化的方法。走在前列的大学积极探索适合自己的教育模式。例如,复旦大学采取“2+2”的本科大数据培养模式;清华大学数据科学研究院开展了大数据硕士项目;鄂维南院士在北京大学建成了本硕博3个层次的大数据教育体系。
解决大数据教育问题,需要根据学校的定位及跨学科、复合型人才的积极参与和领导的前瞻性决策,做好大数据专业的顶层设计,构建大数据专业建设方法论,建立具有学校特色的OBE模式培养体系。
在传统的教学模式中,课堂教学、课后辅导视角教学更注重知识的传授、解惑和知识模板的套用,较少注重学生在相关学科的能力的培养。为了提高学生的综合能力和素质,国外提出了一种面向基础教育的新模式——outcomes-based education(OBE),目标在于通过课程学习提高学生的分析和解决问题的能力,而不仅仅是学习到课本知识。在OBE的模式中,教师需要根据课程的内容,设置需要达到的目标点(能力达到目标),然后根据知识点撰写教学计划、教学大纲、OBE教案,提出面向能力培养的教学方法、准备相应的课件、制定合理的评价方式等[5-6]。
大数据是一个多学科交叉的领域,涉及数学、计算机科学、应用领域学科,对人才培养提出了很高的要求。Vasant Dhar教授提到:“A data scientist requires an integrated skill set spanning mathematics,machine learning,arti fi cial intelligence,statistics,databases,and optimization,along with a deep understanding of the craft of problem formulation to engineer effective solutions。”[1]可见,大数据科学家需要涉猎的专业课程十分广泛。对于大数据分析工程师而言,同样要求具备这种多学科交叉的知识,并且需要熟练掌握开源平台的原理和应用。图1展示了大数据从业者需要掌握的基本的学科知识体系。
从数学体系看,高等数学、线性代数是非数学专业学生的基础性课程,是大学生必备的基本知识。离散数学是计算机领域的基础课程,内容覆盖面广,可以扩大学生的知识面。矩阵计算课程具有一定的难度,适合高年级本科生学习。在应用中,许多大数据问题需要计算大规模矩阵,而这些矩阵规模庞大,或稠密、或稀疏、或对称、或奇异,分解、抽样、求解特征系统、降维、投影都能在该课程中找到经典的解决方法。数理统计是数据分析课程的重中之重,可描述数据统计规律,实现数据清理、变换、分类、降维、聚类、光滑、推断、预测、抽样等功能。随机过程的思想在数据分析多有应用,如时间序列分析、马尔科夫决策过程、高斯过程等,内容适合高年级本科生学习。最优化技术在聚类分析、支撑向量机(SVM)、神经网络模型、EM算法、粒子群优化、蚁群算法、遗传算法、增强学习等领域应用广泛,而这些方法在数据分析领域各有优势。除了图1所示课程之外,在算法分析的过程中,还会涉及组合数学、泛函分析、算子理论、调和分析、图论等内容。图2展示这些数学课程之间大概的层次关系。
从计算机领域看,操作系统、数据库原理、数据结构、程序设计都是基础性的必修课程。分布式数据库、分布式操作系统是大数据分析的基本平台配置,必须熟悉其基本原理和操作。算法分析与设计课程覆盖了贪心算法、动态规划、回溯法、迭代法、分支定界法等经典方法,用途广泛,如网页搜索、路径规划。该课程具有一定的难度,适合高年级本科生学习。数据挖掘和人工智能是专业性较强的课程,内容包括数据分析的常见模型和算法,可作为大数据专业的高年级的必修课程。除了这些基本课程之外,与大数据平台有关的课程细分领域还包括分布式计算模型、并行计算模型、计算机网络、信息安全、机器学习、数据质量、可视化技术等。实践课程是大数据走向应用的重要一环,实习、竞赛、项目开发、模拟都是合适的形式。图3展示了计算机相关课程之间的关系。
图1 大数据的基础课程体系
图2 数学课程层次
图3 计算机课程层次
从工程应用的角度看,不同领域的课程体系有差别,但都侧重于学习与数据分析紧密相关的课程。此外,不同领域生产过程产生的数据种类有差别,需要根据不同的需求选择合适的模型或算法。
综合以上可知,大数据知识体系具有如下特点:①体系完整,层次清晰。与大数据技术紧密相关的课程形成了完整的知识层次,由浅入深,从理论到实践。不同定位的大学都可以构建符合要求的知识培养体系。②覆盖面广,具有深度。大数据技术专业学习需要理解深刻的数学原理,熟悉计算机实现手段,还要具备完整的专业领域的知识和数据思维。③跨学科、跨领域集成。大数据专业具有数学、计算机、专业领域属性,前两者是解决问题的工具,后者是工程问题的来源。只有将这3种学科有机整合、形成特色,才能有效地发掘大数据的价值。④应用领域广,分析方法可选择性多。不同的专业领域产生的数据格式、类型、容量、时效性均不同,数据分析的需求和目标亦有差异,从而导致分析工具和方法的不同。
根据不同学校的性质和需求,大数据专业会有不同的定位。研究型大学更重视大数据基础理论、方法、技术的研究,锻炼3种思维:数学思维、计算思维、数据思维,提升数据分析的分析、综合和深度探索能力,关注大数据核心技术的探索和突破,包括算法、模型、平台架构等。这类研究要求更好的数学基础和计算机综合能力,在人才培养上可以定位为高端研究人员。应用型院校更侧重于大数据与领域结合的应用、创新和实践,满足行业领域的大数据应用分析需求,培养对于工程问题的分析和建模能力、算法设计和实现能力。培养目标更适合定位于工程技术研发人员,归纳3个工程方向:大数据平台的开发;数据挖掘、数据分析和机器学习基础和算法;大数据运维。在OBE的模式下大数据专业建设可以从目标设置、教学内容及教学方式等方面考虑。
不同的大学对于数据科学的目标不一样,在OBE目标设定的过程中存在一定的差异。从理论角度看,大数据研究可以在两个方面开展:①数学能力。注重数学抽象和建模的能力、算法的创新和改进的能力、从工程实践中抽象建模并加以解决的能力、指导工程人员实践的能力。②数据挖掘能力。注重根据工程问题,设计计算可行的算法;数据平台和源码的设计和创新能力。从实践角度,注重以下研究工作:①大数据系统。注重大数据平台的二次开发、优化和运维的能力;②大数据项目开发实践研究。结合应用场景提出大数据项目实施和方案,开展数据分析和挖掘的能力,总结见表1。
表1 研究型和应用型大学OBE目标设置
大数据的教学需要通过理论教学和实践训练完成。二者缺一不可,对于数据分析工程师来讲尤其重要。大数据课程的设置与专业定位有关。结合实践经验,建议授课内容从两个方面考虑:一是大数据基础性课程,提升对问题的理解、抽象和综合分析的能力;二是大数据实践性课程,提升知识应用、动手实践能力,避免眼高手低。课程设置见表2,通过这些课程的学习和训练,可以全面提升学生的综合素质。
首先需要明白几个关系:①大数据理论与大数据实践。大数据理论融合了数学、计算机理论、应用基础领域的知识。大数据实践要在一定的软件架构上实现,使用工具操作和调优,协调各个工具之间的关系。②数学与计算机。大数据是数学与计算机的交叉领域。数学提供了内部的计算方法和技术,计算机科学展示了计算能力,突出直观感受。③大数据平台和数据挖掘。大数据平台是软硬件基础架构,数据挖掘面向行业应用,二者不在同一层次,但是,应用决定基础架构的形式,平台决定应用的水平和性能。
表2 大数据课程设置
在理顺3个关系之后,给出以下3点教学建议:①选择数学课程中与大数据相关的内容重点课堂讲解。传统的数学课程讲究知识的系统性、完整性,在大数据中需要的是能够解决实际问题的数学知识,不追求数学体系的完整性。②讲解计算机重点课程,突出现代性、先进性,删除过时、淘汰的内容。目前大多数计算机课程停留在传统的教学内容上,跟不上科技趋势的发展,这种局面亟待改变。③结合大数据案例,在实践中完整与系统地讲解大数据的基本架构、原理和实现路径。让学生通过开源软件、开放数据进行实践,增加切身感受和成就感。
大数据涉及的理论内容众多,既有理论又有实践,那么如何开展大数据的教育教学?从几个方面考虑。
(1)教师队伍。可以考虑从数学、计算机专业选拔具有大数据相关课程专长、不同学历层次的教师组成教学队伍,从基础课程到专业课程讲授。对于研究生教学,以不同的大数据领域研究团队、实验室、研究中心为主导,在理论和工程方向分别开展工作,培养研究型或者工程技术人才。
(2)教材选择。目前,还没有大数据方面的统一教材,主要原因在于大数据涉及领域太广,从基础理论到工程实践,有数学的深度,又有工程的复杂。在每个学习阶段,可以选择的传统教材很多,但不足之处在于缺乏大数据内容的阐述。因此,建议在采用传统教材的基础上,补充大数据相关资料,如慕课、学术论文、学术报告、视频、书籍章节等,并选择合适的软件平台或开源软件自拟定项目进行开发。
(3)教学环节。在本科生教学阶段,注重基础理论知识的学习,扩大知识面。同时,利用常用统计分析工具、开源平台开展基本的数据分析工程训练,更多地培养初级数据分析师或培育研究性人才。研究生教学注重深入课程的学习、工程或理论研究,侧重在某些领域的深入和细化。目标是培养高级数据分析师与高级数据分析研究人员。
(4)实践环节。无论是研究型人才,还是工程技术人才,都应当参与一定的工程实践训练。一方面,可以提高研究人员的感性认识、动手能力,让研究人员了解数据的来源和问题的本质,便于更好地在实验室完成需求分析、算法测试、模型优化和过程模拟。另一方面,工程技术人员应当侧重工程实践锻炼,通过项目实战、竞赛、练习等形式开展大数据分析任务。通过学校的产学研合作、校企合作形式及早参与到企业的大数据开发项目中。
面向OBE的大数据专业教育是一门新兴的领域,在建设的过程中会遇到很多困难和问题,都是前所未有的。问题解决和专业规划需要从顶层进行设计,逐步细化、完善,并在研究和教学实践中积累经验,反馈并调整,最终形成比较完善的教学体系。