走进科学
用音乐解密基因编码
#由于原文中音频和图片均不能再使用,因此以链接形式给出。
我研究分子生物学已经很多年了。我也非常热爱音乐,跟悉尼的流行乐队蜂鸟一起玩过。一般来说这两种追求之间没有多少重合之处,但我最近发现可以利用DNA序列创造音乐。
这被称为可听化。这样做的人们通常将DNA序列看成随机模式,创造好听的音乐。但如果我们使用音符发现某些关于DNA序列的有用信息又如何呢?就像是哪些地方发生了突变?
所以我开始编码,设计了一种工具将DNA序列转换为音频流。这一研究成果已发表在英国医学委员会生物信息杂志上。
credit: 煎蛋画师BC
听出差异
DNA是蛋白质合成的模板。DNA序列是一条长长的连续链,由四种基本化学物组成,即G、A、T以及C。它们以不同的模式进行复制形成基因。一个物种中很多基因的顺序都是一样的。
但某些时候序列中的某个基本化学物会与一般的模式不同,这就是突变,这就会为人类或者微生物造成问题。
在我的在线音频工具中,任何重复性DNA序列中突变引起的变化都会被明显地听出来。
为了让你能直观地明白我在说什么,下面是我的在线音频工具中一个由一系列的G组成的人造测试DNA序列:
相对的,下面是一个包含突变的人造测试DNA序列:
在这个自然DNA序列中,在大约13秒的时候重复音调中有一个变化表明序列中那个位置有一个微小的变化(突变):
编码密码子
在实际中当然DNA序列比这更加复杂。首先,真实的DNA序列包含密码子。密码子是一个三基本元序列联合起来形成的DNA信息单元。一个密码子引导一个蛋白质的基本单元,即氨基酸。在自然界中,特定密码子标记基因的起点和终点。在我的方法中,这些特殊密码子被用于开始和终止音频。
我并不打算让你听到一个音符就将其关联到特定的密码子,但整个音频却具有潜在序列的特性(正如你在例子中听到的那样)。
例如,编码一种蛋白质的一段人类DNA序列(对于专业蛋友而言,这就是大鼠肉瘤RAS蛋白质,在癌症中常有涉及)。下面是以传统的书写形式表达出来的:
下面是在我的在线音频工具中听起来的样子:
最后,当我“可听化”某些编码细胞重要RNA组分(不是蛋白质)的序列时,你能听到一段时间的静音,点缀着打击声,所以你能听到哪里是停止密码子。
通常,科学家们严重依赖于DNA序列的外观检查来揭开它们的秘密。可听化并不是要取代外观检查,而是作为一种补充。
希望聆听由DNA衍生来的音频能帮助科学家更好地理解细胞生物学。
论文原文:DOI: 10.1186/s12859-017-1632-x
本文译自 conversation,由 CliffBao 编辑发布。Mark Temple(西悉尼大学)