人工智能帮助揭开海洋和我们肠道中病毒的奥秘
病毒是微生物生态系统中一种神秘且知之甚少的力量。研究人员知道,它们可以感染、杀死和操纵人类和细菌细胞几乎每个环境,从海洋到你的肠道。
但科学家们还没有全面了解病毒如何影响周围的环境,这在很大程度上是因为它们具有非凡的多样性和快速进化的能力.
微生物群落很难在实验室环境中进行研究。许多微生物的培养具有挑战性,它们的自然环境已经更多功能影响他们的成功或失败比科学家在实验室中可以复制的要多。
所以像我这样的系统生物学家通常对样本中存在的所有 DNA 进行测序——例如,来自患者的粪便样本——分离出病毒DNA序列然后批注各部分编码蛋白质的病毒基因组。
这些关于基因的位置、结构和其他特征的注释有助于研究人员了解病毒在环境中可能执行的功能,并帮助识别不同种类的病毒。
研究人员通过将样本中的病毒序列与先前注释的序列进行匹配来注释病毒公共数据库病毒基因序列.
然而,科学家们正在鉴定从环境中收集的DNA中的病毒序列远远超过的速度我们注释这些基因的能力。这意味着研究人员正在使用不可接受的一小部分可用数据来发表有关微生物生态系统中病毒的发现。
为了提高研究人员在全球范围内研究病毒的能力,我和我的团队已经开发了一种新颖的方法使用以下方法注释病毒序列人工智能.
通过类似于 ChatGPT 等大型语言模型但特定于蛋白质的蛋白质语言模型,我们能够对以前看不见的病毒序列进行分类。这为研究人员打开了大门,不仅可以更多地了解病毒,还可以解决当前技术难以回答的生物学问题
使用 AI 注释病毒
大型语言模型使用大型文本数据集中单词之间的关系,为未明确“教”出答案的问题提供潜在答案。
例如,当你问聊天机器人“法国的首都是什么?”时,该模型不会在首都城市表中查找答案。相反,它正在利用其对大量文件和信息数据集的训练来推断答案:“法国的首都是巴黎。
同样地蛋白质语言模型是经过训练的人工智能算法,可以识别来自世界各地环境的数十亿个蛋白质序列之间的关系。通过这种训练,他们可能能够推断出一些关于病毒蛋白的本质及其功能的信息。
我们想知道蛋白质语言模型是否可以回答这个问题:“给定所有注释的病毒基因序列,这个新序列的功能是什么?
在我们的概念验证,我们在预先训练的蛋白质语言模型中对先前注释的病毒蛋白序列进行神经网络训练,然后使用它们来预测新病毒蛋白序列的注释。
我们的方法使我们能够探测模型在导致特定注释的特定病毒序列中“看到”的内容。这有助于根据它们的特定功能或它们的基因组排列方式来识别感兴趣的候选蛋白质,从而筛选出大量数据集的搜索空间。
通过识别更远相关的病毒基因功能,蛋白质语言模型可以补充当前的方法,为微生物学提供新的见解。
例如,我和我的团队能够使用我们的模型来发现一个以前未识别的整合酶– 一种可以将遗传信息移入和移出细胞的蛋白质 – 在全球丰富的海洋皮蓝藻中原绿球菌和聚球菌.
值得注意的是,这种整合酶可能能够将基因移入和移出海洋中的这些细菌种群,并使这些微生物能够更好地适应不断变化的环境。
我们的语言模型还识别了一个新型病毒衣壳蛋白这在全球海洋中很普遍。我们制作了第一张关于其基因如何排列的图片,表明它可以包含不同的基因集,我们认为这些基因表明了这一点病毒在其环境中提供不同的功能。
这些初步发现仅代表了我们方法提供的数千个注释中的两个。
分析未知
大多数数以百计数以千计新发现病毒仍然存在未分类.许多病毒基因序列与功能未知或以前从未见过的蛋白质家族相匹配。我们的研究表明,类似的蛋白质语言模型可以帮助研究我们星球上许多未表征的病毒的威胁和前景。
虽然我们的研究集中在全球海洋中的病毒上,但改进病毒蛋白的注释对于更好地了解病毒在人体健康和疾病中的作用至关重要。
我们和其他研究人员假设病毒在人类肠道微生物组中的活性可能会被更改当你生病时。这意味着病毒可能有助于识别微生物群落中的压力。
然而,我们的方法也有局限性,因为它需要高质量的注释。研究人员正在开发更新的蛋白质语言模型,将其他“任务”作为训练的一部分,特别是预测蛋白质结构以检测相似的蛋白质,以使它们更强大。
使所有 AI 工具都可通过以下方式使用FAIR数据原则- 可查找、可访问、可互操作和可重复使用的数据 - 可以帮助广大研究人员意识到这些注释蛋白质序列的新方法的潜力,从而带来有益于人类健康的发现。
利布莎·凯利,系统与计算生物学、微生物学和免疫学副教授,阿尔伯特爱因斯坦医学院