@ 2018.09.12 , 11:00

负责编码蛋白质的基因比预期的要少20%

负责编码蛋白质的基因比预期的要少20%

最新研究指出,人类的基因组中编码基因的数量比科学家预估的要少出20%。

自2003年成功完成了人类基因组测序以来,科学家一直试图弄清楚,有多少基因可以表达生成蛋白质,又有多少基因负责调控细胞的生理化学过程。这也不是第一次猜测失败。

由西班牙国家癌症研究中心(CNIO)领导的一项国际联合研究发现,目前按科学传统分类为编码基因的约20000条核苷酸序列中,有超过4000个基因实际上可能无法通过编码产生蛋白质。

“我们已经对这些基因做了足够多足够详尽的分析,”CNIO生物信息学研究员Michael Tress解释说,“已有300多条基因被重新归类为非编码基因。”

但是,如果这些基因——或许还有成千上万的基因——不是我们构建蛋白质的编码基因,那么它们是什么?

目前还没有人知道确切的答案,但这意味着我们细胞中存在着大量的非编码DNA(又叫垃圾DNA或卫星DNA),这些DNA占人类基因总数的75%。

虽然大量的遗传密码可能无法产生蛋白质,但它们并不一定像绰号所暗示的那样“垃圾”,因为科学家不断发现新的证据,表明所有这些卫星基因和假基因(过时的编码基因)对我们的身体产生了某种实际的影响。

在这项新研究中,Tress和他的团队分析了三个数据库中的数据——它们是对人类蛋白质组进行编目的主要参考数据库:GENCODE / Ensembl,RefSeq和UniProtKB。

研究人员表示,在这三个数据库——共计22210个编码基因——有2764个基因仅仅被1或2个数据库识别为编码基因。

实际上,这些基因外加另外1470个被三个数据库同时鉴别为编码基因的基因都无法像典型的蛋白质编码基因一样演化,换句话说,总共有4234个基因属于垃圾基因或假基因。

结果还需要进一步研究确认,但是“我们为基因做出进一步的精确分类是极为重要的工作,”该团队表示,“因为蛋白质组分类是大多数基础研究的支柱,它支撑起了几乎所有的大规模生物医学项目。”

“令人惊讶的是,我们早已对其中一些假基因做了许多煞有介事的研究,有超过100篇科学出版物专门探讨这一基因编码的蛋白质有何特性——然而,现在我们知道它是假基因,所以不负责表达产生蛋白质。”团队中来自西班牙庞培法布拉大学的David Juan说。

科学家们越早澄清这些细节,人类的基因科学就越健康。

作者总结说:“即使我们发现的可能的非编码基因中只有一半确实是非编码基因,这显然也会对一系列领域产生重大影响。作为分析过程的一部分,混入非编码基因的假基因越多,最后的分析结果就越嘈杂。”

该发现刊登在国际杂志Nucleic Acids Research上的研究报告中。

本文译自 sciencealert,由 majer 编辑发布。

赞一个 (4)