基于质谱的代谢组学数据分析技术研究进展

2023-01-13 08:40:44黄文洁吴绍文晏石娟

广东农业科学 2022年11期

黄文洁，吴绍文，刘蕊，孔谦，晏石娟

（1.广东省农业科学院农业生物基因研究中心/广东省农作物种质资源保存与利用重点实验室，广东广州 510640；2.梅州市农林科学院果树研究所，广东梅州 514071)

自1999年Nichilson 等［1］首次提出“代谢组学”的概念后，代谢组学得到不断发展，成为继基因组学、转录组学和蛋白质组学技术之后的又一门新兴组学技术。代谢组学研究旨在通过核磁共振技术（Nuclear magnetic resonance,NMR）、质谱技术（Mass spectrometry,MS）等分析手段对生物体内特定条件下的所有内源性代谢物（＜1 000 u的小分子）进行全面定性和定量分析［2-3］。内源代谢物通常是生物反应的中间产物或最终产物，处于不断变化的过程，因此，代谢组学比其他组学方法更能直接地反映细胞、组织或生物体的表型信息。

质谱分析技术可以实现对生物流体、细胞和组织中数千个代谢物的高通量检测，具有分析速度快、灵敏度高、检测代谢物种类覆盖范围广等优点，且随着高分辨质谱技术的迅速发展，高精确度的离子质量更有助于提高代谢物的鉴定能力，因此，该技术已成为代谢组研究中不可或缺的工具。其中，气相色谱-质谱联用（Gas chromatography-mass spectrometry,GC-MS）、液相色谱-质谱联用（Liquid chromatography-mass spectrometry,LC-MS）技术是目前代谢组学研究中应用最广泛的质谱分析技术［4］。GC-MS 适用于热稳定、易挥发或经衍生化后具有挥发性的代谢物，如氨基酸、糖类、有机酸和脂肪酸等初级代谢物［5-8］，且不受复杂样品的基质效应干扰，在定性分析方面具有通用的质谱数据库。LC-MS 具有更全面和强大的分析能力，结合不同的离子源、电离模式和色谱柱等条件进行分析，可以在不需要复杂的样品预处理的情况下分离和鉴定样品中更多种类的代谢物，适用于热不稳定、不易挥发、相对分子质量较大的物质，如脂质、类黄酮、生物碱、类胡萝卜素、苯丙素类等代谢物［6,9］。近年来，基于质谱的代谢组学研究被广泛用于解决生物学研究中的重要问题，包括解析复杂生物合成途径的代谢调控，探索控制农作物重要性状形成的分子机制，解析包括进化和驯化综合征在内的植物遗传学，以及对生物或非生物应激的代谢反应等［10］。

基于质谱的代谢组学分析技术包括代谢组学样本前处理、质谱数据采集、代谢组学数据预处理、代谢组学数据统计分析、代谢途径富集分析以及未知代谢物鉴定等主要步骤。如何通过数据分析方法从采集到的质谱原始数据中提取代谢物离子、获得代谢物的含量信息、提高代谢物鉴定效率，找出具有生物学意义的信息是代谢组学研究的关键环节［11］。前期我们围绕基于质谱的代谢组学技术发展历程、工作流程以及其在植物、肠道微生物研究中的应用进展进行了系统的阐述［12-15］。本文将重点围绕基于质谱的代谢组学数据分析技术展开综述，包括数据分析策略、数据分析软件和算法、数据库构建等方面。

1 质谱原始数据的预处理

原始质谱数据包含质荷比（Mass-to-charge ratios,m/z）、保留时间（Retention time,RT）和峰强度（Peak intensity）等多维数据［16］，涵盖了样本中实际代谢物的信息、试剂中杂质和仪器残留等噪音的质谱碎片特征。因此，对原始质谱数据进行预处理以获取准确、可靠的代谢物特征的信息，消除随机误差(噪音)和其他干扰因素的影响，能够保障下游数据分析和信息挖掘的准确性［17］。质谱数据预处理主要包括峰提取、峰对齐和归一化等主要步骤。目前代谢组学研究群体常用的一些质谱数据预处理分析软件及其功能介绍见表1。

表1 质谱数据预处理常用软件Table 1 Common software for mass spectrometry data pre-processing

1.1 LC/GC-MS 数据预处理

XCMS 是LC-MS 数据预处理最常用的软件之一，它是基于R 语言开发的，针对不同类型的质谱数据建立了不同的特征峰检测和峰对齐算法，也适合于GC-MS 数据预处理。XCMS 可以实现质谱数据过滤、峰识别、峰提取、峰对齐和定量等功能，但在分析大规模样品时比较耗时。此外，XCMS 可以与其他R 包如ggplot2、prcomp 和heatmap2 等，整合进行多变量统计分析、聚类分析等［18］。最新开发的XCMS Online是XCMS 的网页版本，支持多种实验方案数据分析，还可进行单变量分析、多变量分析等统计分析以及代谢途径富集分析［19］。Lommen［20］开发了MetAlign 软件，可用于GC-MS 和LC-MS 数据预处理，支持数据格式自动转换、计算精确的质量数、基线校正、峰提取、滤噪及超1 000 个数据集的峰对齐，该软件的缺点也是在大规模数据分析中比较耗时。此外，还有不少软件可同时兼顾GC-MS 和LC-MS 质谱数据的预处理，如Normalyzer［21］、RUV-2［22］、NOREVA［23］软件可适用于GC-MS 和LC-MS 质谱数据的归一化处理；MetTailor［24］、MetDIA［25］、TracMass 2［26］、MetFlow［27］、IP4M［28］、WiPP(Workflow for improved peak picking)［29］等软件适用于滤噪、峰提取和峰对齐。

1.2 LC-MS 数据预处理

Pluskal 等［30］开发了一个基于Java 的开源LC-MS 质谱数据分析工具MZmine2，它可以实现数据的批处理和结果可视化，具有代谢组数据的峰提取、滤噪、解卷积、谱峰匹配和标准化等预处理功能。Röst 等［31］开发了一个基于C++编写的开源软件OpenMS，提供了185 个工具和现成的工作流程用于LC-MS 质谱数据处理、可视化和定量分析，该软件为用户提供了高度灵活和专业的软件环境，以减少数据处理过程中出现潜在的错误分析。Tsugawa 等［32］开发了一款专门用于解决数据非依赖采集（Data independent acquisition,DIA）LC-MS 数据解卷积的软件MS-DIAL，该软件兼具有滤噪、峰提取、峰对齐、归一化等功能。Delabriere 等［33］开发了一款用于分析大规模代谢组学和脂质组学LC-MS 数据的软件SLAW，该软件具有程序参数自动优化、峰提取、峰对齐、缺值填充、MS2 离子碎片信息提取和同位素模式识别等功能。Guo 等［34］开发了一个多功能的代谢组数据分析R 语言包JPA，提供全面系统的代谢物特征提取和注释功能，其不仅可以直接从LC-MS原始数据中提取代谢物特征信息，而且还从其他数据处理软件（如XCMS、MS-DIAL、MZmine 2）处理的结果中对代谢物特征信息做进一步的提取。由于背景噪音、重复峰或污染会导致前处理后的数据存在假阳性色谱峰，因此还有一些功能相对专一的软件如ApLCMS［35］、质谱特征列表优化器（Mass Spectral Feature List Optimizer,MS-FLO）［36］、CPVA［37］被开发并应用于消除假阳性色谱峰，其中近期报道的Peakonly 是一种基于卷积神经网络（CNN）的深度机器学习算法平台，用于检测LC-MS 原始质谱数据的真实阳性色谱峰，该算法在检测或排除低强度噪声峰值方面具有较高的灵活性，对真实阳性色谱峰的检测精度非常高［38］。还有不少软件被开发用于LC-MS 质谱数据的滤噪、峰提取、峰对齐等，如peakPantheR［39］、DecoID［40］、Galaxy-M［41］、SPICA［42］、MET-COFEI［43］等。

1.3 GC-MS 数据预处理

由于LC-MS 和GC-MS 两种方法在电离模式、色谱分离、数据采集等方面都存在显著差异，因此，也有一些专门适用于GC-MS 质谱数据分析的软件。AMDIS 是GC-MS 质谱数据预处理最常用软件之一。该软件可以有效克服GC-MS 定性分析中基质效应和共洗脱效应的干扰,是一款功能强大的解卷积软件，自动完成峰滤噪、峰提取并利用GC-MS 数据库完成谱图检索匹配［44］。Hiller 等［45］开发了一款针对GC-MS 数据开展有效峰提取和峰鉴定的软件MetaboliteDetector，该软件提供了一个交互式用户界面，以便没有经验的用户也可以轻易使用；同时，该软件还通过计算未知化合物的KI 与正构烷烃混合物的保留指数进行比对实现对未知化合物的准确定性。Ni等［46］开发了一个基于质谱碎片离子分层聚类的解卷积算法平台ADAP-GC，具有峰提取、峰对齐等一系列数据处理功能，并且随着该平台的更新，最新版本ADAP-GC 4.0 对代谢物峰检测的灵敏度、准确性和稳定性方面都有所提升［47］。Domingo-almenara 等［48］开发了一个集成的R 语言方法包eRah，它包含了一种基于盲源分离(blind source separation,BSS)的多变量技术的色谱解卷积方法，具有样品峰提取、峰对齐、定量和利用谱图数据库实现代谢物的自动识别的功能。最近报道的QPMASS 软件，可以适用于大批量的GC-MS数据分析的软件，实现样品分组、峰提取、峰对齐、定量离子选择、缺失值过滤和填充等功能，使峰鉴定的假阳性和假阴性误差大大降低，其误差小于5%［49］。由于质谱检测的代谢物的相对强度或浓度存在数量级的差异，为了消除极限值数据在统计分析过程中忽略具有重要生物学意义但含量较低的代谢物的情况，在数据分析过程中需要减少极限值造成的误差。因此，在数据预处理后需要对数据进行归一化处理（normalization）或标度化（scaling）和数据转换等进一步的处理，系列软件被专门开发用于数据归一化处理，包括归一化自动编码器(Normalization Autoencoder,NormAE)［50］、MetTailor［24］、Normalyzer［21］、EigenMS［51］、MSPrep［52］等。此外还有很多软件在被开发用于GC-MS 质谱数据的滤噪、峰提取、峰对齐等，如TagFinder［53］、MetaQuant［54］、PyMS［55］、MetaMS［56］、Maui-VIA［57］、GC2MS［58］等。

2 代谢组学数据分析

2.1 统计分析

采集的质谱原始数据通过滤噪、解卷积、峰识别、峰提取、峰对齐，归一化和缺失值填充等预处理后，形成的数据矩阵可用于进一步的数据统计分析。代谢组学数据统计分析主要分为单变量统计分析和多维统计分析，单变量统计分析包括相关性分析，例如皮尔森相关性系数、斯皮尔曼相关性系数、方差分析（ANOVA）和t-test 检验分析等；多维统计分析又可分为非监督模式识别方法和监督模式识别方法两大类，非监督模式识别方法包括主成分分析（Principal component analysis,PCA）、自组织投影（Selforganizingmap,SOM）、聚类分析（Hierarchical cluster analysis，HCA），监督模式识别方法包括偏最小二乘法（Partial least squares,PLS）、偏最小二乘法-显著性分析联合法（Partial least squares-discriminant analysis,PLS-DA）、人工神经网络（Artificial neural network,ANN）、线性判别分析法（Linear discrimination analysis,LDA）、随机森林（Random forest,RF）和支持向量机法（Support vector machine,SVM）等［4,16］，其中PCA 和PLS-DA 是目前代谢数据分析中使用最广泛的方法。SIMCA-P 是一个功能强大、可实现多元变量统计分析的商业软件，将数据转换成可视化信息，并应用于鉴定生物标志物和寻找差异代谢物等［59］。CV-ANOVA 是基于交叉验证预测残差建立PLS 和OPLS 模型并进行方差分析，其优势是可以将交互验证的结果以统计学意义的p值展现出来，但该方法对于小样本集的检验效果较差［60］。MetabR 使用线性混合模型对数据进行归一化处理然后采用方差分析ANOVA 检验分析效果［61］。相比之下，种群模型分析-随机森林（Model population analysis-random forest,MPA-RF）是将随机森林与种群模型分析相结合，用于选择差异代谢物信息［62］。Metabomxtr 通过建立混合分析模型处理代谢物缺失值的问题［63］。许多通用的统计软件能够执行常规的统计分析功能，但也有不少软件将其他代谢组学数据分析功能整合到同一个工作流程中，如Metabololyzer［64］、metaPServer［65］、MSPrep［52］等。

2.2 代谢途径富集分析

富集分析是通过超几何分布检验（Hypergeometric test）或 Fisher 精确概率法建立统计模型分析数据中差异代谢物在各个生物通路中的富集情况，以此来帮助识别和解释其生物学功能。Xia 等［66］开发了第一个小分子富集分析软件MSEA（Metabolite set enrichment analysis），它通过识别和解释代谢产物浓度变化模式来帮助研究人员注释代谢物的生物学意义，该方法的关键是通过构建分布于各个代谢途径上的1 000种具有相关性的代谢物数据库进行富集分析，MSEA 可为代谢组学研究提供过表达分析（Over representation analysis,ORA）、单样本分析（Single sample profiling,SSP)和定量富集分析（Quantitative enrichment analysis,QEA）3 种不同的富集分析。由于MSEA 分析过程中常常对重叠代谢物集的权重分配不当而导致假阳性率较高，因此Deng 等［67］提出了一种偏最小二乘扩展模型，用于解决重叠代谢物集的富集分析假阳性高的问题，称为ogPLS 分析（Overlapping group PLS），将ogPLS模型的权重向量分解为代谢通路特异性子向量，从而再重新分配重叠代谢物的权重。以上两种方法相比，ogPLS 方法具有较高的准确率、较低的假阳性率和更好的稳定性，适用于重叠代谢物集分析。Moreno 等［68］开发了一个基于ChEBI（Chemical entities of biological interest）实体小分子数据库进行富集分析的工具BiNChE，该工具提供基于ChEBI 角色实体（ChEBI Role Ontology）或ChEBI 结构实体（ChEBI Structural Ontology）的简单的加权和片段分析，有助于探索代谢组学或其他系统生物学研究背景下产生的大量小分子，分析结果以交互式图形展示，并可导出为高分辨率图像或网络格式图片。MetaboAnalyst4.0 经过近10 年的发展已经成为代谢组学分析中使用最广泛的平台（30 万用户）之一，支持LC-MS 原始质谱数据预处理、数据归一化、统计分析、代谢通路富集分析等，旨在实现代谢组学的高通量分析，并缩小从原始数据到生物学见解之间的距离［69］。

2.3 代谢物鉴定

2.3.1 基于数据库检索的代谢物鉴定代谢物鉴定是基于质谱的代谢组学研究中最具挑战性的步骤，代谢物鉴定的准确性在很大程度上取决于准确质量数、质谱谱图、离子碎裂模式、保留时间等信息。基于数据库检索的代谢物鉴定方法是最传统的方法，代谢物鉴定的常用数据库见表2。

表2 代谢物鉴定常用数据库Table 2 Common databases for metabolites identification

NIST 数据库是谱库检索中应用最广泛的质谱谱图数据库之一，可以用于谱库检索以识别GC-MS 和LC-MS 质谱中的未知化合物。NIST 数据库包含有多个碰撞能级采集的二级（MS/MS）质谱图、不同加合离子的质谱图、化合物名称、分子式和CAS 号等信息［70］。HMDB 包含关于人体小分子代谢物的详细信息，截至2022 年9 月该数据库包含220 945 个水溶性和脂溶性代谢物信息，同时还有DrugBank、T3DB、SMPDB 和Food DB 4 个子数据库可应用于药物、药物代谢物、毒素、环境污染物、人类疾病相关代谢物和食物方面的研究［71］。GNPS 是一个利用分子网络构建天然产物数据库，具有代谢组学数据分析功能，其涵盖了Massbank、HMDB、NIST 等第三方数据库的信息，以及实验室采集的化合物谱图和全球多个科研社团提供的质谱数据库，实现MS/MS 质谱数据共享功能［72］。METLIN 是另一个被广泛使用的高分辨质谱数据库，涵盖了不同碰撞能级和正/负模式条件下采集的MS/MS 图谱，可以找到代谢产物的碎片离子、其来自标准品及其稳定同位素标记的类似物生成的谱图，在未知物的鉴定过程中起着关键作用［73］。MassBank 数据库包含了来自不同实验室、不同仪器型号以及不同质谱参数条件下采集的多级质谱数据用于代谢物鉴定代谢物，该数据库可以通过化学名称、质量数、质荷比m/z 和分子式进行搜索，截至2022 年9 月数据库涵盖了15 075 个代谢物的90 190 个质谱数据，其中有68 941 个二级质谱图，对化合物鉴定非常有用［74］。GMD 是一个植物代谢物数据库，含有大量的植物代谢产物的GC-MS图谱（特别是衍生化后的），用户可以导入样品的GC-MS 数据进行搜索比对和鉴定。该数据库仅收录植物的代谢组，并含有部分代谢产物在植物中的浓度信息［75］。ReSpect 是另一个植物代谢物数据库，包括文献记录以及真实标准品的MS/MS数据［76］。针对脂类物质，Lipid Maps 是一个包含生物相关脂质结构和注释的数据库，截至2022 年9 月包含了47 718 种独特的脂质结构，是世界上最大的脂质公共数据库。支持通过脂质类别、常用名、系统命名、分子量、InChIKey 命名或Lipid Map 编号进行检索［77］。此外，还有一些常见的基于化合物谱库（谱图）信息建立的数据库，如MetaboLights［78］、PubChem［79］、mzCloud［80］、Fiehn［81］、MoNA［82］、LipidIMMS Analyzer［83］等。

尽管从上述数据库中通过图谱匹配可以鉴定非常多的代谢物，但仍有许多代谢物由于缺乏标准品MS/MS 图谱而难以鉴定出来。因此，基于代谢途径而开发的数据库应运而生。KEGG 是最重要的生物信息学数据库之一，涵盖了代谢通路和整合代谢、基因和蛋白通路的信息。截至2022年10 月9 日，KEGG 数据库含有558 条代谢通路和18 991 个代谢产物和化学结构信息，通过对生物代谢物分子的相互作用和反应网络实现对代谢物的注释［84］。MetaCyc 是一个包含了初级和次级代谢物途径的数据库，其中收集了来自3 000 多种生物近2 800 个代谢通路［85］。PlantCyc 9.5 数据库（https://plantcyc.org/databases/plantcyc/9.5）提供超过350 种植物和800 条代谢通路信息，包含代谢通路、催化的酶和基因，以及各种植物代谢物，同时整合了各种植物代谢通路数据库，包括MetaCyc 数据库中所有的植物代谢通路。WikiPathways 包含30 多个物种的代谢通路，如水稻（Oryza sativa）、玉米（Zea mays）等［86］。

2.3.2 基于分子网络技术的代谢物鉴定 2012年，Watrous 等［87］首次开发了分子网络方法用于代谢物鉴定，是基于质谱的代谢组学数据分析的一个突破性进展，这一方法通过MS/MS 谱图对比，构建以谱图为节点、谱图相似性为边线的网络，从而进行代谢物的注释。分子网络方法能够有效地利用已有数据，如GNPS 中集成的大规模代谢组学、分子网络数据集，从而增强对代谢物的注释能力［72］。目前，已有许多先进的分子网络工具被开发并应用于LC-MS/MS 数据分析和代谢物的注释。例如，在对复杂生物基质进行分析时，首先指认出提取物中的已知化合物（即去重复）被认为是未知代谢物鉴定的关键步骤。Allard等［88］提出了一种分子网络和天然产物模拟MS/MS 碎片数据库(in-silico MS/MS database,ISDB)相结合的去重复策略，并使用这一策略分析了植物和真菌提取物，结果表明模拟MS/MS 碎片数据库能够有效地帮助分子网络中节点的注释。基于结构相似性的分子网络也被应用于提高模拟碎片峰预测的准确性，从而增强其注释能力［89］。

针对天然产物的鉴定，Mohimani 等［90-91］使用去重复的策略开发了DEREPLICATOR和DEREPLICATOR+算法。这两种算法中，DEREPLICATOR 通过将分子网络用于多肽匹配谱图的搜索，实现了已知多肽天然产物新变体的可变去重复，并允许对网络中的谱图所代表的多肽结构相关性提出假设。经测试，在GNPS分子网络平台中搜索近1 亿个串联质谱后，DEREPLICATOR 能够鉴定的多肽天然产物及其新变体的数量相比于以往的去重复策略有数量级的提升［90］。由于这一方法只能鉴定多肽天然产物，作者又开发了DEREPLICATOR+算法，将上述策略拓展于聚酮化合物、萜烯、苯类、生物碱、类黄酮等天然产物的鉴定，在GNPS 分子网络平台中搜索近2 亿个串联质谱的结果显示DEREPLICATOR+能够鉴定的分子数相比于以往的方法提高了5 倍［91］。

上述分子网络以及结合ISDB 的方法使用已知标准品或者模拟得到的碎片离子谱图库来鉴定代谢物，然而碎片离子谱图包含的与生物化学特征相关的信息却被忽略了。为此，Van der Hooft等［92］研究组开发了MS2LDA，一种无监督的分析方法，这一方法通过在碎片数据中提取生物化学相关的分子亚结构，并作为共同出现的分子片段和中性丢失碎片峰的集合（Mass2Motifs），然后使用分子共享的亚结构进行分组，再根据这些亚结构来推定新的结构注释。使用MS2LDA 分析4 种啤酒提取物的结果表明，在没有训练数据的情况下，使用30 个结构表征的Mass2Motifs能够注释的分子数为传统库匹配方式的3 倍。为了整合分子网络、生物化学特征和模拟碎片峰等多种来源的结构信息，以增强从不同数据集中提取化学信息的能力，Ernst 等［93］开发了MolNetEnhancer 以提供代谢组学数据的更全面的化学概述，并阐明每个碎片峰的结构细节，4 个植物和细菌的研究案例显示MolNetEnhancer 能够通过组合多个独立的分析流程来帮助研究者解读代谢组学数据。

此外，一些新的策略被整合到分子网络分析中。例如，通过整合高分辨率同位素模式分析和碎片峰树（Fragmentation trees），SIRIUS 4 能够完成大型MS/MS 数据集的分子结构评估，并通过分子网络传播注释［94］。结合贝叶斯统计和Gibbs采样，Ludwig 等［95］建立了一种不依赖数据库的分子式注释方法ZODIAC，通过构建一个相对更小的相关化合物网络，其运算速度提升了25 倍。基于代谢反应网络的递归算法，Shen 等［96］开发了一种使用MS/MS 谱图来表征初始种子代谢物，并利用其实验得到的MS/MS 谱图作为替代谱图来注释其反应配对的领近代谢物的方法MetDNA。Beauxis 等［97］则整合MS/MS 谱图、GNPS 中的分子网络、化学反应库和MS/MS 谱图预测等信息开发了MetWork。一个比较大的进步是基于特征的分子网络方法（Feature-based molecular networking,FBMN）的开发，相比于传统的方法，FBMN 整合了相对定量和离子淌度数据，从而实现了对同分异构体的分辨和分析［98］。另外，Tripathi 等［99］提出了一种从碎片峰谱图预测分子指纹的分层组织策略Qemistree，这一方法可使用描述样本信息的元数据和化学本体来表示质谱数据，通过将分子关系表示为树，实现了使用基于系统发育的工具来分析代谢组学数据。

近年来，色谱和一级质谱信息（MS1）也被用于分子网络分析，以进一步开发高效的代谢物注释和鉴定方法。例如，Chen 等［100］开发了一种全局网络优化方法NetID 来注释非靶向代谢组学数据，这一方法根据对应于相关化学分子增减的MS1 质量差异和MS/MS 谱图的相似性来进行网络的全局优化。将此方法应用于酵母和小鼠数据的分析，作者鉴定到5 种以前未识别的代谢产物。另外，在电离过程中，分子通常会形成具有不同碎裂行为的多种离子，而在传统的分子网络中这些离子的碎片峰通常不相连，导致相同类别的化合物的分子网络冗余且不相连。为了克服这一瓶颈，Schmid 等［101］开发了一种离子识别分子网络算法（Ion identity molecular networking,IIMN），将色谱峰形状的相关性分析整合到分子网络中，以连接和折叠同一分子的不同离子种类。此外，Senan 等［102］还建立了一种复杂生物样品和纯化合物共洗脱曲线的相似性网络结合计算得到的加合物形成的自然频率，对冗余的MS1 特征进行注释，从而为单个化合物提供准确注释的方法CliqueMS。近期，Zhou 等［103］更是进一步开发了知识引导的多层网络算法（Knowledge-guided multi-layer network,KGMN），KGMN 使用基于知识的代谢反应网络、知识引导的MS/MS 相似性网络和全局峰相关网络，实现了未知代谢物的有效注释。总的来说，通过多种实验数据、计算方法和分子网络算法的整合，实现了相对有效和准确的代谢物注释，具有广泛的应用前景。常见的用于分子网络鉴定的软件见表3。

表3 基于分子网络的代谢物鉴定相关软件Table 3 Software for molecular networking-based metabolite identification

2.3.3 基于其他技术的代谢物鉴定尽管基于或整合分子网络的工具在代谢组学数据分析方面非常流行、通用且高效，但构建的网络依赖于分析参数，且没有保留对谱图相似性的全局分析。因此，一些基于降维和机器学习的分组方法被应用于质谱数据的分析，以提供分子网络中无法获得的信息，有望进一步提高代谢物注释的能力。例如，Bittremieux 等［104］提出了一种快速谱图相似性搜索方法Falcon，能够对数百万MS/MS 谱图进行有效的聚类和分组。传统的计算方法通常使用谱图相似性作为分子结构相似性的度量，两种指标的相关性制约了分析方法的有效性。为了解决这一问题，Huber 等［105］开发了一种孪生神经网络算法MS2DeepScore，这一方法实现了根据两个化学结构的MS/MS 谱图来预测其结构相似性。Falcon 和MS2DeepScore 是两种大规模MS/MS 谱图比较和分析的强大工具，被认为在代谢组学数据分析和注释方面具有较大潜力。此外，机器学习算法也被应用于预测色谱保留时间，以增强其在代谢物注释中的可用性。García 等［106］将多种机器学习算法应用于预测色谱保留时间并整合到代谢物注释的流程中，以获得候选注释的Z-cores，实验测试结果显示68%的正确注释出现在按质量过滤并按Z-cores 排序的前3 个候选分子中，表明其对支持代谢物注释的有效性。而针对模拟谱图无法区分正确和错误注释的问题，Hoffmann等［107］近期开发了一种模拟谱图数据库的生成、注释和置信度评分相结合的方法COSMIC（Confidence of small molecule identifications），这一方法库搜索的注释错误率更低，并实现了多个未知结构的天然胆汁酸的准确注释。

除了上述数据分析方法，全面、自动化和可重复的代谢组学分析流程对于准确有效的化合物注释也至关重要。为此，Shen 等［108］首先开发了一个基于LC-MS 数据进行自动化合物注释的R包metID。metID 结合了所有主要数据库的信息，是一个灵活、简单、强大的工具，可以安装在所有平台上。使用metID 分析一个已发表案例数据的结果显示其不仅完成了发表论文中所有的463个代谢物的注释，还注释了479 个新的代谢物［98］。基于这一工具，作者又进一步开发了面向对象的计算框架TidyMass，实现了基于LC-MS 的非靶向代谢组学数据处理和分析的可追溯、可共享和可重复［109］。另外，Yu 等［110］提出了一种自动化的、全面且无统计模型的工作流程PMDDA（Paired mass distance-dependent analysis），这一流程根据MS1 的特征进行全面的MS/MS 数据采集，实现了更多化合物的注释。

总的来说，目前已经研发了很多新的代谢组学数据分析和注释工具，大大促进了这一领域的发展。同时，大量的新型工具也使得用户很难判断其适用性，尽管开发者通常会将其研发的工具与其他方法进行比较，但目前仍然缺少标准化的测试数据集来进行关键的性能评估和比较。建立适用于评估分析工具通用性、有效性和重复性的大量、随机的数据集，不仅能够帮助用户选择其需要的工具，也能促进方法开发的标准化，是未来值得探索的重要方向。

3 结语与展望

基于GC-MS 和LC-MS 等质谱系统的代谢组学数据分析主要包括质谱数据预处理、代谢组学数据统计分析、代谢途径富集分析以及代谢物鉴定等步骤。过去十来年许多关于质谱数据预处理、多维变量统计分析、代谢途径分析和代谢物数据库的分析软件被相继开发和成功应用。特别是近年来计算代谢组学方法迅猛发展，极大地推动了代谢组学数据分析流程的自动化和规范化，为大规模代谢组学数据的充分挖掘打下坚实基础。而分子网络、机器学习等前沿方法也大大提高了代谢物的注释和鉴定能力，显著提升了代谢物特征信息提取的准确性以及代谢物鉴定的覆盖范围。然而，由于生物样本的复杂性以及现有质谱分析技术的局限性，使得代谢组学所能检测并注释的代谢物数量远远少于生物体内源代谢物的数量，难以满足现代研究发展的要求。因此，在未来的研究中，首先需要进一步发展高通量、高分辨率和高灵敏度的先进质谱数据采集技术，提高对低丰度代谢物的检测能力，以实现对代谢组学原始数据更充分地采集，从而构建更全面的代谢物质谱数据库。其次，深入开发更强大的计算代谢组学分析工具对于提高代谢物的鉴定和注释能力也至关重要。已有研究显示代谢物的生物化学特征、反应网络等信息，能够明显提升分子网络技术对代谢物的注释能力；同一条代谢途径常常受到相同遗传位点的调控，因此，在已知生化反应和分子网络分析的基础上再整合代谢物合成的遗传位点等信息，也有望进一步提高代谢物的鉴定数和准确度。此外，不断优化代谢物注释的算法必将极大地促进代谢组学研究的发展，也是未来代谢组学数据分析研究的重点。

我们相信，随着高分辨质谱仪的更新迭代和不同代谢组数据分析方法的相继开发，定会极大提高基于质谱的代谢组学技术分析能力，主要表现为代谢物的分析效率、鉴定数量、灵敏度和精准度得到不断提升。在农业领域，基于质谱的代谢组学分析将助力于农业生物复杂性状形成的机制探索，农业生物重要代谢途径的解析、农作物生长发育与胁迫应答的代谢调控网络研究，以及转基因安全评估等不同学科领域。