资讯
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

预测基因调控的“预言机”

酵母,基因表达,神经网络模型

研究人员设计了一种能够预测酵母中非编码序列的变化是如何影响基因表达和生殖适应度的神经网络模型。该模型创建了如图所示的适应性图谱,并以鸟类和鱼类的化石形态呈现出来。这些更高层次的生物是在非编码序列上进化的结果,正如适应性图谱所描绘的那样。(图片来源:Martin Krzywinski)

尽管人类的每个细胞都含有特别多的基因,但这些所谓的“编码”DNA序列却只占了整个基因组的1%,而剩下的99%由“非编码”DNA组成,与编码DNA不同的是,它们不携带构建蛋白质的指令。

非编码DNA,又称之为“调控”DNA,具有一个能够帮助启动和关闭基因的表达、从而控制蛋白质产量(如果基因表达启动的话)的功能。随着时间的推移,当细胞通过DNA复制进行细胞生长和细胞分裂的时候,非编码区的DNA经常会出现突变——该突变有时会调整它们的功能,改变它们控制基因表达的方式。大部分突变的影响是微不足道的,有些突变甚至是有益的。不过,偶尔有些突变也会增加一些常见疾病的风险,如2型糖尿病或危及生命的疾病,包括癌症。

为了更好地理解非编码区突变的影响,研究人员一直在努力绘制数学模型地图,以便在观察一个生物体的基因组时,可以预测将被表达的基因,并确定这种表达将如何影响生物体的表型特征。这些地图被称为适应性图谱,出现于大约一个世纪前,目的是了解基因组成是如何影响一个常见生物体的健康衡量标准——繁殖成效。早期适应性图谱的构建非常简单,通常只关注有限数量的突变。虽然现在有了更丰富的数据集可用,但研究人员仍然需要额外的工具来描述和可视化这些复杂的数据。这种能力不仅有助于更好地理解单基因是如何随着时间的推移而进化,而且还有助于预测未来的序列组成和相关表达的变化。

DNA,非编码序列,分子结构

(图片来源:pixabay)

3月9日发表在《自然》(Nature)杂志上的一项新研究中,一组科学家开发了一个研究调控DNA的适应性图谱的框架。他们创建了一个神经网络模型,在经过数亿次实验数据的训练后,该模型能够预测酵母中非编码序列的变化,以及这些变化是如何影响基因表达的。他们还设计了一种以二维空间呈现图谱的独特方法,使人们更容易理解和预测除酵母以外其他生物的非编码序列的变化模式,甚至可以定制基因表达模式,服务于基因治疗和工业应用。

麻省理工学院生物学教授、哈佛-麻省理工博德研究所的核心成员、Genentech Research and Early Development组织负责人、该研究第一作者Aviv Regev表示:“现在我们有了一个可以咨询的‘预言机’:如果我们尝试了该序列所有可能的突变情况将会怎么样?或者我们应该怎么设计新序列从而实现我们想要的表达?现在科学家们可以用该模型解决他们感兴趣的进化问题或设想,以及如何制作控制基因表达方式的序列等问题。同时,这给对解译能力感兴趣的机器学习研究者,带来的可能性也令我感到兴奋;因为他们可以逆向思维提问,以便更好地理解潜在的生物学原理。”

在此项研究开展之前,许多研究人员只是利用自然界中存在的已知突变(或其中的微小突变)简单地训练模型。但Regev团队通过建立他们自己的无偏差模型对DNA序列突变进一步探索,达到能够基于任何DNA序列,甚至是他们从未见过的序列,去预测生物体的适应性和基因表达的能力。这使得研究人员能够利用该模型改变细胞内的遗传物质,以服务于生物制药行业,包括开发针对癌症和免疫性疾病的新疗法。

为了实现这一目标,麻省理工学院的研究生Eeshit Dhaval Vaishnav、现为英属哥伦比亚大学的助理教授Carl de Boer和他的同事创建了一个神经网络模型来预测基因表达。他们将数百万个完全随机的非编码DNA序列插入酵母DNA中,观察并记录每个随机序列对基因表达的影响,将这些观察值作为一个数据集训练该模型。他们专门研究非编码序列中一个特定子集——启动子,它是蛋白质的结合位点,可启动或关闭邻近的基因表达。

Regev说道:“这项研究强调了,当我们设计新实验生成用于模型训练的正确数据时将会出现的可能性。从更广泛的意义上讲,我相信这类方法对许多问题都很重要,比如了解人类基因组中造成疾病风险的调控区域的遗传变异,以及预测各种突变组合所带来的影响,或设计新的分子结构。”

Regev、Vaishnav、de Boer和他们的共同作者为了证实该模型是如何帮助他们了解某些增强子在过去和将来的演化过程中的状态,继续以各种方式测试了他们的模型预测能力。Vaishnav解释道:“创建一个准确的模型当然是一项成就,但对我来说,这只是一个起点。”
首先,研究人员为了确定他们的模型是否有益于应用在合成生物学上,如抗生素、酶和食物的生产,使用该模型设计了增强子来检验是否能在感兴趣的基因上产生所期望的表达量。同时,他们还搜寻了其他相关科学文献,从中找出基本的进化学问题,看看他们的模型是否能够帮助回答这些问题。该团队甚至还从一项现有的研究中,获取了现实世界里全球的酵母菌株种群数据集。通过这些数据集对模型进行训练,他们能够描述出酵母在过去数千年进化历史中所受的选择压力,而这些选择压力塑造了今天酵母的基因组信息。

但是,研究人员知道,在缺乏全面的数据集情况下,要创造一种可以探测任何基因组的强大工具,他们需要找到一种可以预测非编码序列进化方向的方法。为了实现这一目标,Vaishnav和他的同事创造了一种可将预测结果从框架中提炼,并呈现在二维图表的计算技术。这能够帮助他们以一种简单的方式呈现出非编码序列是如何表达和适应的,而不需要在实验室中通过实验来验证。

Vaishnav解释道:“在适应性图谱研究中,仍存在着一个尚未解决的问题,即不存在一种能有意义地捕获序列进化的特性并呈现出来的可视化方法。我真心想找到一种方法来填补此空缺,并参与到致力于完善适应性图谱的研究中。”

英国爱丁堡大学医学研究理事会、人类遗传学单位的遗传学教授Martin Taylor并没有参与这项研究,但他表示,该研究展示了人工智能不仅可以预测调控DNA变异所带来的影响,也可揭示出生命在数百万年进化历程中潜在的本质特征。

哺乳动物,基因调控,进化历程

(图片来源:pixabay)

尽管仅用在一些生长条件下部分酵母调控DNA变异数据对模型进行训练,但让他印象深刻的是,该模型居然能够如此有效地预测哺乳动物基因调控的进化历程。

Martin Taylor解释道:“近期通过利用调控DNA改造后的酵母,在酿造、烘焙和生物技术方面产生了显著的应用效果。不仅如此,这项研究也可帮助人类在调控DNA的水平上,识别控制疾病的突变,而这些突变目前很难被发现,且在临床研究中大多数都会被忽视。因此这项研究表明,调控基因的人工智能模型经过更丰富、更复杂和更多样化的数据集训练后,它的应用前景将会是一片光明。”

在这项研究正式发表之前,Vaishnav就已经收到其他研究人员的询问与合作,他们希望能够使用该模型,设计出用于基因治疗的非编码DNA序列。

Vaishnav说道:“人们在过去的几十年里一直在研究调控进化和适应性图谱,但我认为,我们的研究框架将继续在这条路上开展下去,并回答相关调控基因的基础、进化和可进化性的问题,而这些问题的解答将有助于设计出令人兴奋的、具有新应用的生物序列。”

翻译:黄俊满

审校:赵冰莹

引进来源:麻省理工学院(MIT)

本文来自:中国数字科技馆
特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
[责任编辑:环球科学]
分享到:
文章排行榜
©2011-2022 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号-1 京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20220414_1067577_taonews.html