作者 | 蒋长志
单位 | 厦门大学
方向 | 微生物表征学习
今天给大家介绍2019年11月,加州大学圣地亚哥分校儿科和微生物创新中心、加州大学计算机科学与工程系和质谱创新中心合作在Nature methods 上发表的题为Learning representations of microbe-metabolite interactions的文章。该工作提出了一种可以很好的学习微生物与代谢物之间的相互作用关系的神经网络模型,这促进了未来微生物和代谢物关联的研究。
1
研究背景
推断微生物-代谢物相互关系对于微生物研究至关重要,传统工作大都是在微生物及其代谢物数据上做统计相关性分析,然后进行微生物-代谢物的关系推断。这些统计工作往往是在微生物和代谢物丰度数据相互独立的假设条件下做出的估计,但现有研究表明像微生物和代谢物丰度数据这种成分数据是不能简单的假设两种数据之间是独立的,因为微生物和代谢物的丰度数据是相对值不是绝对值,这很难保证数据之间的相互独立。实验表明:现有统计方法存在相当高的错误率,在推断微生物和代谢物相互作用关系上存在明显的不足。
加州大学的研究者提出使用神经网络模型来解决这个问题,通过神经网络提取微生物及其代谢物数据特征,估算微生物和代谢物的共现概率,进而推断微生物-代谢物作用关系;作者在已知环境(沙漠土壤生物湿润生物壳)和临床环境(肺囊性纤维化肺)中的微生物和代谢物数据上做了实验,实验结果表明作者提出的神经网络模型可以很好的推断微生物与代谢物相互作用关系。
2
模型
加州大学Morton等人将微生物和其代谢物的丰度数据输入提出的神经网络模型mmvec(microbe-metabolite vectors),去估计在给定一个微生物样本情况下代谢物的共同出现的概率,通过优化预测关联与真实关联的误差来更新模型的权重等参数,进而预测微生物-代谢物关联关系。
图1. mmvec模型整体框架;模型输入一个单一微生物序列(x),对其进行one-hot编码,然后预测代谢物丰度(y)。
3
实验
3.1 对比试验
本文使用模拟囊性纤维化生物膜的数据集与Pearson’s、Sperman’s、SPIEC-EASI、SparCC、proportionality和随机方法进行对比试验,对每个微生物样本预测出关联度最高的前100个代谢物,采用F1 score, precision, recall作为评价指标,对比结果如图2。
图2. 对每个微生物预测出的前100个代谢物的F1 score, precision, recall对比结果
3.2 真实场景验证
3.2.1沙漠土壤生物浸湿环境下的微生物群落
从沙漠土壤生物浸湿环境中获得微生物和代谢物数据集,输入mmvec模型中,几乎70%的已经被验证的微生物-代谢物关系被发现,对比Pearson’s、Sperman’s、SPIEC-EASI、SparCC、proportionality方法有更高的预测准确率,对比结果如图3。
图3.预测真正样本准确率对比结果
3.2.2 囊性纤维化病人的肺粘液上的微生物群落
为了进一步验证mmvec模型是否可以检测出微生物-代谢物相关关联,使用囊性纤维化病人的肺粘液上的微生物群落上的微生物-代谢物数据输入模型进行分析预测,识别出了4-hydroxy-2-heptylquinoline, pyocyanin, phenazine-1-carboxylic acid,2-nonyl-4-hydroxy-quinoline, 2-heptyl-3,4-dihydroxyquinoline (Pseudomonas quinolone signal) and pyochelin这些代谢物分子与P.aeruginosa(微生物)共现概率很高,还识别出了rhamnolipids可能是被P.aeruginosa(微生物)产生的代谢物分子,如图4。
图4. mmvec模型在囊性纤维化病人的肺粘液上的微生物群落数据集上的预测结果
4
结论
为了克服在微生物-代谢物关联研究中的整合多组学数据的困难,作者提出使用神经网络mmvec模型去估计在给定微生物条件下代谢物出现的概率,进而预测微生物与代谢物之间相互作用关系;模型在模拟囊性纤维化生物膜的数据集上的预测效果优于Pearson’s、Sperman’s、SPIEC-EASI、SparCC、proportionality和随机方法,并且在两个真实场景进行实验,检验了模型是鲁棒和正确的;当然该模型还存在局限性,首先还不清楚如何使用共现概率来获得相互作用的统计显著性,其次每种微生物-代谢物相互作用强度的置信区间无法计算。
参考资料
论文链接
Morton J T, Aksenov A A, Nothias L F, et al. Learning representations of microbe–metabolite interactions[J]. Nature methods, 2019, 16(12): 1306-1314.
代码链接
https://github.com/biocore/mmvec. https://github.com/biocore/songbird. https://github.com/mortonjt/multiomics_network.作者
蒋长志
编辑:王建民
DrugAI
长按识别二维码关注我们获取最新消息!