许允飞, 樊东卫, 崔辰州, 何勃亮, 李长华, 于 策, 肖 健,李珊珊, 米琳莹, 韩 军, 陶一寒, 王传军, 张海龙, 刘 梁,李 正, 韩 叙, 杨丝丝, 杨涵溪, 和 兰, 张 磊, 崔 顺,,王川中,, 苏丽颖, 陈 力, 乔翠兰0, 许 谦, 李乡儒, 杨海峰2,曹子皇,王俊峰,强振平,白春海,周卫红5,袁国武, 柏正尧,李 冀,郑子鹏,和寿圣,屈彩霞2,孙继先,逯登荣,赵永恒
(1.中国科学院国家天文台,北京 100101;2.中国科学院大学,北京 100049;3.天津大学智能与计算学部,天津 300350;4.中国科学院云南天文台,云南昆明 650216;5.中国科学院天体结构与演化重点实验室,云南昆明 650216;6.中国科学院新疆天文台,新疆乌鲁木齐 830011;7.中国科学院紫金山天文台,江苏南京 210008;8.北京工业大学机械工程与应用电子技术学院,北京 100124;9.中国科学院上海天文台,上海 200030;10.华中师范大学,湖北武汉 430079;11.华南师范大学,广东广州 510631;12.太原科技大学,山西太原 030024;13.厦门大学,福建厦门 361005;14.西南林业大学,云南昆明 650224;15.云南民族大学,昆明云南 650500;16.云南大学,云南昆明 650500;17.河北师范大学,河北石家庄 050024;18.河北工业大学,天津 300401;19.中国科学院紫金山天文台青海观测站,青海德令哈 817000)
随着天文学的不断发展,科研协作日益广泛,传统的研究模式也必须改变。2000年前后,为了实现对天文数据所有访问过程的标准化,天文学家提出了一个跨天文学科、计算机学科、信息学科的概念——虚拟天文台(Virtual Observatory,VO)。虚拟天文台是通过先进的信息技术将全球范围内的天文研究资源无缝透明地连结在一起形成的环境,用于数据密集型网络化天文研究和科普教育[1]。虚拟天文台通过利用最先进的计算机和信息技术将各种天文研究资源,包括观测数据、天文文献、计算资源、存储资源、软件服务,甚至天文观测设备,以统一的服务模式无缝地汇集在一个物理上分散、逻辑上统一的系统。经过近二十年的发展,虚拟天文台统一了各个数据服务系统的访问标准,已经成为天文学研究重要的信息化支撑平台。
2002年,以中国科学院国家天文台为首的中国天文学界提出了中国虚拟天文台(China-VO)的设想。中国虚拟天文台的重点研发领域包括系统平台的开发、国内外天文研究资源的统一访问、基于虚拟天文台的天文研究示范和天文科普教育等几方面[2]。中国虚拟天文台的目标是在天文学和信息技术之间起到桥梁和纽带的作用,促进先进的信息技术服务于天文学研究。
2013年,中国虚拟天文台基于CloudStack云计算中间件开始了公共服务平台的研发,在国内多个地方部署了云节点。自2016年下半年开始,以国家天文台-阿里云建立战略合作关系为切入点,中国虚拟天文台全面探索“公共云+专有云”的混合架构方案。中国虚拟天文台云服务平台充分利用各台站和中科院现有的网络、存储、计算等基础设施,借助信息领域和虚拟天文台领域的先进关键技术,以天文观测数据汇交、共享和使用及国内核心天文观测设备的时间申请、审批为线索,融合天文观测和科研活动所需计算、存储、软件等资源,形成一个物理上分散、逻辑上统一的网络化科学研究平台。
现阶段,中国虚拟天文台公共服务平台已经发展了国家天文台(北京)、紫金山天文台(南京)、上海天文台(上海)、云南天文台(昆明)、新疆天文台(乌鲁木齐)、南京大学(南京)和阿里云(杭州)等7个节点;为兴隆LAMOST、13.7 m毫米波望远镜、佘山1.56 m、丽江2.4 m、南山25 m等10多套观测设备提供数据管理和开放共享服务;为丽江2.4 m、兴隆2.16 m等望远镜提供时间申请服务;为中国科学院大学、南京大学等提供云教学环境;为上千位科研用户提供虚拟机等服务;基于国内业余天文观测数据发现了19颗超新星和新星;注册用户超过21 000人。2015年初,中国虚拟天文台入选“中国科学院科研信息化十大优秀案例”。在 “互联网+”大数据时代 ,中国虚拟天文台正在为天文学的发展发挥越来越大的信息化支撑服务作用。
随着双中子星并合引力波事件GW170817及其电磁对应体的发现[3],以及IceCube-170922A高能中微子的BL型耀变体的证认和表征[4],天文学进入了多信使科学发现的新时代。与此同时,以大口径全天巡视望远镜(Large Synoptic Survey Telescope,LSST)和平方千米射电望远镜阵(Square Kilometer Array,SKA)为代表的时域概要式巡天项目开启了时域天文学探索和发现的新时代,同时也带来了巨大挑战。多信使天文学和时域天文学的开展强烈地依赖信息技术,需要一个非常强大的网络系统架构,包括数据处理流水线,归档,事件自动检测、分类和发布,以及数据的高效融合等。天文学正在从发现驱动的科学转化为数据驱动、科学引导的科学,即数据密集型科学。而虚拟天文台的目标正是要把天文学从老的数据贫乏的研究体制变革到新的数据极大丰富的研究体制,充分利用信息技术解决数据密集型的多信使天文发现时代的挑战。
新时代带来的挑战对于虚拟天文台的技术支撑能力提出了更高的要求。虽然中国虚拟天文台已经有了相当多的资源和技术积累,但距离时域天文学和多信使天文学所需研究的能力和技术需求还存在很大的差距。新一代观测设备产生的PB级的数据流给数据处理和挖掘带来了全新挑战,其中关键的一方面是实时大数据流处理分析[5-6]。由于大量的多信使观测和时域观测事件是暂现的,事件的检测以及及时恰当的随动观测非常重要,这需要望远镜获取数据的同时进行数据处理,自动可靠地检测、分析暂现事件,并根据优先级安排及时地随动观测。此外,还需要程控望远镜替代人工编排、执行时域观测,并自动完成时域事件的发现和分类。以上过程中的需求可以概括为“多波段、多信使海量数据的高效融合”。数据融合与互操作是虚拟天文台的核心科学目标和技术能力,以往的数据融合研究主要集中在多波段方面,多信使数据的融合研究刚刚起步。同时,传统的数据融合与互操作研究大多是为满足传统科研课题的需要,而不是时域天文学科学计划甚至科学工程的需要,对于完成时限等性能方面的问题没有严肃的考虑。因此,目前中国虚拟天文台尚不完全具备“多波段、多信使海量数据的高效融合”条件,亟需对自己的核心能力进行提升。
基于以上认知,中国虚拟天文台团队针对时域天文学和多信使天文学涉及的主要关键技术需求进行了梳理,并以调查问卷的形式向中国虚拟天文台学术委员会的专家和广大用户公开征求意见,希望通过调查确定未来一段时期的主要努力方向和目标。调研问卷包含中国虚拟天文台团队所提供服务内容的各方面,涉及文件存储服务、数据检索服务、数据可视化、交叉证认服务、在线计算服务、远程天文台自动化控制、自动化数据分类方法、平台拓展建设共8部分。每部分包含若干关键技术点,共计23条具体需求。问卷中描述了每条关键技术的应用范围和技术特征,具体如表1。
表1 中国虚拟天文台核心功能调研明细Table 1 Contents of China-VO core functions survey
(continued table)
本文分别对这8部分的需求进行了前沿技术调研。如何实现高效的文件存储服务和数据检索服务一直是虚拟天文台领域的研究热点。除了本地大数据的高速读写,随着多节点数据中心的不断建设,异地数据检索和分级存储也是当前研究的重点。天文数据的存储格式是比较多元化的,主流数据格式包括FITS,CASA和HDF5,大量碎片化的数据带来了极高的输入/输出消耗,因而迫切需要实现海量数据的并行读写策略、分布存储策略,并提供无缝数据访问服务。现阶段业界较为流行的分布式并行存储系统包括Lustre,Haystack,HDFS,TFS等,它们设计思路基本相似,主要包含一个底层的文件存储系统及一个目录服务,通过高效的目录检索进行底层文件的存取。除了分布式文件存储系统外,高效数据存储和检索还依赖于高效的索引技术。天体的赤经、赤纬是二维向量,通过将二维向量映射为一维数据可以实现对天体坐标的索引。可行的方法是将天球面划分为多个子区域,并给予子区域唯一编号,实现对空间的索引。较为常用的方法包括球面三角网格划分HTM,HEALPix以及Zones等,这些方法在斯隆数字化巡天(Sloan Digital Sky Survey,SDSS),明安图超宽频谱射电日像仪(Mingantu Ultrawide Spectral Radio Heliograph,MUSER),大口径全天巡视望远镜等项目中分别得到应用。
数据可视化包括图像分层可视化和星表分层可视化,主要用于全天星图的展示和全天星表分布的展示。这里主要强调分层的可视化,是指对于海量数据采用基于分辨率、星等亮度等条件渐进式的可视化。常用的方法为层次细节技术(Level of Details,LOD),主要实现包括四叉树、八叉树算法等。美国国家航天局(National Aeronautics and Space Administration,NASA)的Skyview系统,法国斯特拉斯堡天文数据中心(Centre de Données astronomiques de Strasbourg,CDS)的Aladin系统均实现了大数据条件下的全天图像拼接。
交叉证认的核心方法是计算两个目标之间的距离,如果小于阈值则认为两个目标为同一天体。国内外,交叉证认的研究已经取得了一系列成果,如基于HTM索引分区与kd-tree的最近邻算法[7]、基于MapReduce的分布式交叉证认方法[8]、基于HEALPix与Zones Algorithm的图形处理器集群算法[9]等。但是,在多波段、多信使数据交叉证认及置信度估计方面还有许多关键技术需要突破。
自动化数据分类方法主要面向时域天文领域的海量数据分析。随着新一代观测设备的不断投入使用,将会获取海量不同波段的暂现源观测数据,现有数据分类的方法已不能满足大数据时代的处理要求,借助人工智能尤其是深度学习方法将是一条可行之路。在图像数据分类上,深度学习方法已经发展出一系列经过实际应用检验的网络,如卷积神经网络中的ResNet,Alexnet,VGG等,均可以应用到不同波段图像数据甚至光谱数据的分类中。
在线计算服务的主要目标是方便科研人员便捷高效地进行数据处理,无需将大量的数据从线上存储下载到本地,也无需在本地计算机上部署复杂的数据处理环境,直接通过在线平台进行数据的预处理、计算、分析等操作。CasJobs就是这样一个大型科学数据库的在线工作平台,以网络应用的形式提供强大的数据库检索和操作功能,它最初用于斯隆数字巡天的数据在线处理,现已由中国虚拟天文台团队集成至郭守敬望远镜的巡天星表数据处理系统中。Jupyter Hub广泛用于天文数据的在线处理,它的使用方法类似于Jupyter notebook,提供了一个在线的Python编写与运行平台,可以提供多用户登录使用,后台可以是计算力强大的计算集群,且可扩展能力强,是实现在线计算服务的良好平台。
远程天文台凭借连续观测、快速反应等方面的独特优势,近些年得到迅速发展,国内外已开展了一系列基于远程天文台的时序巡天计划,如ROBONET,ROTSE-III,BOOTES等,在伽玛暴余辉和其它暂现源的光学观测研究上都有良好的应用。远程天文台由望远镜、赤道仪、圆顶、计算机、气象站、全天相机等构成,具有多个自动化软件与硬件子系统,它们之间通过相互协调控制实现程控观测的功能。中国虚拟天文台团队经过多年的调研,提出并设计了一套基于嵌入式的硬件集成系统,作为用户与天文台设备间连接的桥梁,以便于各子系统的集成控制和扩展移植[10],未来将在此基础上进一步优化,重点开展智能化观测的应用研究。
平台拓展建设主要涵盖了中国虚拟天文台平台自身服务能力的完善,包括更灵活的用户权限,实用科研工具的整合,便捷的第三方应用程序开发接口,以及基于专有云或公有云的平台实现。这些基于基础设施的功能拓展能够为用户提供更好的服务体验,进一步提升用户粘性。
本次调研通过邮件问卷和在线问卷两种方式进行,共收到12份中国虚拟天文台学术委员会专家的反馈,65份中国虚拟天文台邮件列表和网络用户反馈。用户群体主要包括天文领域的科研工作者和研究生,均具有中国虚拟天文台公共服务平台使用经验。
在做反馈统计时给予专家反馈以3倍的权重进行加权,共视为101份问卷。根据问卷分值乘以分值数占总数比例,分别计算出问卷中8个大类、23条具体需求的分值。
图1为8个大类的具体反馈结果,按分值高低依次排序(分值为0~5分,分值越高,表示该需求越重要)。其中得分最高项为文件存储服务(3.89分),其次分别为数据检索服务(3.87分)、数据可视化(3.68分)、交叉证认服务(3.52分)、在线计算服务(3.39分)、远程天文台自动化控制(3.36分)、自动化数据分类方法(3.21分)、平台拓展建设(3.11分)。图2为23条具体需求的得分情况。
图1 各项需求大类别的反馈结果Fig.1 Feedback results for main categories of requirements
图2 具体需求得分情况Fig.2 Feedback results of each sub-requirement
此外,本文将中国虚拟天文台学术委员会专家的答复单独进行了统计。专家打分与问卷总体分值相差不大,具体为文件存储服务(4.11分),其次分别为数据检索服务(3.96分)、数据可视化(3.92分)、自动化数据分类方法(3.59分)、交叉证认服务(3.46分)、在线计算服务(3.44分)、平台拓展建设(3.03分)、远程天文台自动化控制(2.86分)。专家打分与总体打分之间的区别如图3。专家给出的各项分值均比总体打分的分值略高,可见专家对虚拟天文台团队的需求梳理有较高认可。此外,专家打分中自动化数据分类方法与远程天文台自动控制的得分与总体打分差异较大,可见专家与用户对这两类需求持不同意见。
图3 总体打分与专家打分之间的对比Fig.3 Comparison between overall scoring and expert scoring
从反馈结果可以看出,数据的可获取性、数据操作的便捷性仍是对虚拟天文台的核心需求。天文学家所关注的始终是如何更方便地分析、处理数据。现阶段,中国虚拟天文台团队维护的中国天文数据中心提供21个数据集的归档和查询服务,用户可直接在线进行数据检索和下载。公共服务门户提供了虚拟计算资源和存储资源服务,通过云平台的在线控制台,用户可以自行定制需要的计算资源和存储资源。同时,基于国家天文台与阿里云的战略合作,用户也可以使用阿里云的计算资源。但是,虚拟天文台的数据在线检索和处理还未能实现一体化服务,提高服务的易用性、便捷性将是今后工作的一个重点。
数据可视化、交叉证认服务、在线计算服务是数据处理需求的延伸,也是虚拟天文台提供便捷服务的突破点。中国虚拟天文台团队前期已经开展了一些工作,包括面向天文科普教育研发的天文数据可视化平台“万维望远镜”;以云平台虚拟机模板的形式发布了常用数据处理环境,如为中国科学院大学多波段数据处理课程研发的虚拟机处理模板,其中包含了CFITSIO,Graphviz,GSL等科学数据处理程序库,用户基于它生成虚拟机即可方便地使用。未来将在提高服务的易用性、便捷性的同时,进一步加强相关资源和服务的宣传,使用户更好地了解中国虚拟天文台已有的功能,从而提供更优质的服务。
致力实现数据存取、查询、处理的一体化在线服务始终是中国虚拟天文台的目标。但是,当前实现虚拟天文台核心需求仍存在相当大的困难,主要体现在需求的高难度、大体量和虚拟天文台研发人员不足之间的矛盾。将中国虚拟天文台积累的数据、存储、计算资源转换为高效便捷的服务,需要大量的研发人员,但在现有体制下,进一步增加研究人员编制是不现实的。为此,中国虚拟天文台计划采用平台化的开发模式,通过开放虚拟天文台第三方开发接口,吸引更多感兴趣的开发者基于虚拟天文台资源做出实用的工具,实现资源与技术向服务的快速转换。
图4是下一阶段中国虚拟天文台平台的体系架构设计,最底层是资源层,既包括存储服务器和计算服务器等硬件资源,也包括中国虚拟天文台归档的各类数据集。在资源层之上是关键技术层,该层向下连接,通过虚拟化技术调用资源层的硬件资源,并通过数据检索算法和数据库工具调用数据资源,同时将虚拟天文台涉及的各项关键技术进行封装形成类库,实现基于硬件资源和数据资源的按需计算。这些封装的关键技术包括数据检索方法、不同星表间的交叉证认方法、各类天文数据的可视化方法、基于机器学习的数据分类方法等,并且可以随着研发的不断深入逐步扩展。
图4 中国虚拟天文台平台体系架构Fig.4 China-VO platform architecture
关键技术层之上是接口层,也是中国虚拟天文台下一阶段着力建设的部分,通过将虚拟天文台的软硬件资源、关键技术封装为应用程序接口发布给广大天文工作者,辅以完善的文档参考和培训支持,使他们能够根据自己的科研需求建立新的应用。依据本次调研的结果,文件存取、数据检索、数据可视化、交叉证认相关的应用程序接口将优先开放,相应的文档资料和应用示例代码将通过中国虚拟天文台网站向用户发布。
研究人员通过中国虚拟天文台应用程序接口构建的应用,可以注册在中国虚拟天文台平台上,提供给更多的用户使用。这些应用将构成中国虚拟天文台平台的应用与服务层。基于统一的应用开发标准和应用程序框架,这些应用可以跨平台地运行在移动端和桌面的浏览器中,并且在统一用户账户的管理下,用户可以无缝衔接地访问不同平台的应用和数据。
综上所述,通过本次核心功能需求调研,中国虚拟天文台团队明确了下一阶段的建设重点和目标。中国虚拟天文台团队将重点提高数据的可获取性和数据操作的便捷性,并努力完善数据可视化、交叉证认、在线计算等服务。但是,当前虚拟天文台的高需求与研发人员不足的矛盾也日益突出。为此,将采用平台化的开发模式,通过开放虚拟天文台接口,吸引开发者基于虚拟天文台的资源和关键技术做出更多实用的服务和工具,并通过中国虚拟天文台平台实现共享。通过这种方式不断提升虚拟天文台的核心能力,使之形成一个面向科研需求的应用生态系统,从而更好地应对时域天文学和多信使天文学时代带来的挑战。
致谢:感谢国家天文科学数据中心提供的数据资源和技术支持。感谢所有参与本次调研及分析讨论的专家和用户,感谢国家天文台-阿里云天文大数据联合研究中心对本项工作的支持。