●前言
耶拿大学SebastianBcker课题组在期刊发表了题为“”的研究成果,提出了一种计算方法——CANOPUS(classassignmentandontologypredictionusingmassspectrometry),它能利用深度神经网络从碎片谱中预测出个化合物分类,明确地以缺乏光谱和结构参考数据的化合物为目标,预测缺乏串联质谱训练数据的类别,CANOPUS具有非常高的预测性能。
中文标题:利用高分辨率碎片质谱对未知代谢物进行系统分类
研究对象:CANOPUS计算工具
发表期刊:NatureBiotechnology
影响因子:54.
运用生物技术:代谢组学
●研究背景
液相色谱质谱(LC-MS)能从一次分析中检测出成百上千的代谢物,已在代谢组学领域获得广泛应用。然而,由于谱库的不完整性和有参考光谱的化合物在亚类中分布不均匀等原因,很难预测未知分子结构化合物,代谢物的结构注释仍具有高挑战性。目前存在三种结构分类策略,分别是基于光谱类似度聚类化合物,半自动化地从数据库检索化合物类别注释;在谱库或结构数据库中检索化合物,考虑分配的最佳”khits”;使用机器学习法从MS/MS谱直接预测化合物类别。课题组提出了CANOPUS的计算方法,通过在LC-MS/MS运行中为每一个代谢产物MS/MS特征分配化合物类别来解决这些问题。
●研究技术路线
●研究结果
1.CANOPUS的工作流程
在训练阶段,使用支持向量机(SVMs)从碎片光谱中预测分子指纹,该分子指纹作为深度神经网络(DNN)的输入,然后预测所有化合物类别。在预测阶段,给定一个MS/MS谱作为输入,通过计算碎片树,预测化合物的分子指纹,利用DNN从指纹中预测化合物类别并完成分类。
化合物分类的应用十分广泛。可作为结构说明的一部分,用于单个化合物的分类注释;用于样本内或样本间化合物类别的可视化分析分布;基于化合物类别分布聚类样本;使用主成分分析可视化化合物类别分布;根据化合物类别注释分子网络;基于感兴趣的化合物分类过滤化合物。
图1
CANOPUS工作流程
2.评估CANOPUS的预测性能
SVMs使用参考MS/MS谱进行训练,而DNN只需训练万个化合结构,不需任何MS/MS数据,两种机器学习技术的集成使得CANOPUS能够对个ClassyFire化合物类别进行高效预测。作者根据四种“基线方法”——MetFragKNN-5,CSI:FingerIDKNN-5,spectrallibraryKNN-5和CSIkernelSVM对CANOPUS的马修斯相关系数(MCC)、精度和召回率进行评估。四种方法的平均MCC分别为0.,0.,0.和0.。CANOPUS的平均MCC为0.,CANOPUS的预测性能明显更优。
图2
使用特定性能测量预测ClassyFire化合物类别数量
(a)CANOPUS预测单个化合物类别的MCC、精度、召回率的直方图。
(b-d)四种基线方法和CANOPUS预测的MCC、精度、召回率的直方图。
3.CANOPUS和代谢组学数据分析
代谢组学旨在建立不同实验条件、时间点等条件下代谢产物谱的变化,这些变化通常是在“每个特征”水平上监控的,但这样做不能揭示代谢谱的复杂变化。作者演示了如何在一个化合物分类的水平上监测差异,从而在没有先验知识的情况下全面了解生物系统。课题组重新研究了Quinn等人的数据,使用非靶向LC-MS/MS法测量了无菌小鼠(GF)和无特定病原体小鼠(SPF)不同器官的组织样品。作者通过GF和SPF样品之间强度的差异变化对代谢物进行分类(图3a),利用CANOPUS对各代谢产物进行MS/MS分类,最有意义的化合物类别是“胆汁酸、醇及其衍生物”及其它的亚类和父类。
发现GF和SPF小鼠小肠中的胆汁酸丰度相似,但在大肠(盲肠、结肠)和粪便中的存在显著差异(图3b),与Quinn等人的研究结果一致。SPF中非糖基化的异戊烯醇酯类似乎通过消化系统从胃到粪便增加(图3),相比之下,GF中异戊烯醇酯类在消化系统中的丰度变化不明显。对于葡萄糖醛酸衍生物类,作者观察到相反的趋势:他们在SPF中风度相对较低,没有表现出明显的趋势,但通过GF的消化系统积累,并在粪便中丰度达到最高(图3d)。这些结果表明微生物通过分解糖酸参与了糖基化异戊烯醇酯类的代谢。
图3
GF和SPF小鼠消化系统的比较
(a)在GF和SPF小鼠的消化系统间FC10的种化合物的化合物类别。
(b-d)GF和SPF小鼠消化系统种属于胆汁酸(b)、丙烯醇类脂(不包括葡萄糖醛酸类(c)和葡萄糖醛酸类(d))的所有化合物的强度之和。
4.CANOPUS加速对rivulariapeptolide的结构注释
天然产物的结构解析是一项耗时的人工任务,这仍然是发现药物先导物的瓶颈。由于CANOPUS可以从粗糙混合物中快速标注任何化合物的结构类别,它很有可能加速识别独特的结构特征。应用CANOPUS对海洋丝状蓝藻Rivulariasp.提取的新型含Ahp(3-amino-6-hydroxy-2-piperidone)类环肽进行了结构鉴定。鉴定结果表明,分离得到的化合物主要是缩酚酸肽,以及在同一范围内的至少20种其他相关化合物(图a-c)。有趣的是,对于分离出的化合物,CSI:FingerIDl都无法预测出是缩肽类,说明这些化合物是未知的。
图4
CANOPUS对rivulariapeptolide的结构分析
(a)CANOPUS主类预测确定了rivulariapeptolide的正确分子式
(b)CANOPUS选择类预测rivulariapeptolide的大环
(c)CANOPU亚结构预测促进rivulariapeptolide的结构说明
●研究结论
CANOPUS是一种从碎片谱中对化合物进行系统分类的自动化方法,SVM和DNN这两种机器学习技术的集成可以使CANOPUS对个ClassyFire化合物类别进行高质量预测,与四种基线方法相比,CANOPUS的预测性能更优。课题组通过GF和SPF小鼠实验,演示了如何使用CANOPUS去研究微生物组学中的比较代谢组学,类注释也允许人们推断新的生物学发现,而不需要用谱库或结构数据库去注释所有的MS/MS谱,CANOPUS还可以加速传统的结构解析过程,快速从粗糙混合物中标注化合物的结构类别。随着进一步开发测试,CANOPUS可以预测ClassyFire本体之外的类别以及其他化学性质。
小鹿推荐
由于对LC-MS检测到的代谢物进行结构注释仍然具有高挑战性,SebastianBcker课题组提出具有高预测性能的CANOPUS计算方法,明确针对无法获取质谱或结构参考数据的化合物,用深层神经网络从碎片谱预测种化合物类别。通过研究小鼠消化系统的微生物定植效应和发现海洋天然产物等,证实了CANOPUS的广泛应用。天然产物、食品、环境研究、药物降解和病理学等也能成为它的潜在应用领域。
.
文末看点
|lumingbio
上海鹿明生物科技有限公司多年来,一直专注于生命科学和生命技术领域,是国内早期开展以蛋白组和代谢组为基础的多层组学整合实验与分析的团队。目前在多层组学研究已经有了成熟的技术方法
猜你还想看
◆千万医学支持
鹿明生物空间代谢组计划“火热”启动
◆质谱组学加速新药研发与临床诊断会议圆满落幕(附回看视频)
◆项目文章
胡培松院士团队:首次利用基因编辑创制香味改良三系杂交稻
◆9月
欧易/鹿明生物蛋白、代谢方向16篇项目文章发表
End本文系鹿明生物原创