走进科学
为了避免基因名被Excel自动纠正,遗传学界更改了命名规则
人类的遗传物质中存在大量的基因片段。为了研究它们,就需要先区分它们。所以科学家编制了一整套基因命名规则。每个基因都有一个名称和字母数字代码。毕竟只有遵循同一套术语体系,科学才有互相交流的可能。
另一方面,Excel是电子表格界中的大哥大,虽然它本身并非专门为科研开发,但早已是科学工作者难以舍弃的工具。
现在问题来了。
随着被标记命名的基因越来越多,那些字符串有时看起来像是某种有意义语段的错误拼写。而Excel的自动格式匹配和拼写检查功能会把它们自动改成“正确的”形式。
例如,当用户在Excel中输入名为MARCH1的基因编号时,Excel会将其转换为日期: 3月1日。
这是极其令人沮丧的,甚至是危险的和有破坏性的善意,科学家必须手动恢复。同时,稍有疏忽,就会造成数据错误。2016年的一项研究检查了3597篇已发表论文共享的遗传数据,发现大约五分之一受到了Excel拼写纠错功能的影响。
“简直烦死个人。”英国Quadram研究所的系统生物学家Dezső Módos告诉The Verge。莫多斯(Módos)的工作涉及分析新近测序的遗传数据,他说Excel的问题一直存在,这仅仅是因为该软件通常是科学家处理数值数据时的首选。他说:“它是一种被广泛使用的工具,嗨,如果您搞不了理论物理,又想做科学工作,那么您就离不开这玩意。”
没有简单的解决方法。 Excel没有提供关闭此自动格式审查的选项,唯一避免这种情况的方法是更改各个列的数据类型。即使这样,一旦有其他人直接打开同一电子表格,错误将再次发生。
所以,本周,HGNC发布了有关基因命名的新指南,包括“影响数据处理和检索的符号”。从现在开始,人类的基因及其表达的蛋白质将用Excel的自动格式命名。这意味着符号MARCH1现在已变为MARCHF1,而SEPT1已变为SEPTIN1,依此类推。 HGNC将保留旧符号和名称的记录,以方便将来索引。
HGNC的协调员Elspeth Bruford告诉媒体,到目前为止,大约修改了27个基因名,但是正式指南直到本周才宣布。“我们咨询了各个研究领域的学者,讨论了拟议的更新,并且还通知了研究人员。”
公告发布之后,科研社区反响十分热烈。据说有遗传学家喜极而涕。有匿名用户宣称要开香槟庆祝,因为这是今年最伟大的新闻!
当然,也有用户表达了不满:为啥是我们遗传学家做出改变,难道不是应该让微软修改Excel的设置吗?
Bruford解释说:“考虑到微软的行事风格,很难想象他们会为了遗传学研究的方便,特意升级Excel。毕竟这只涉及很小一部分用户的需求。”
她甚至安抚道:“大家不要为了这点小事不开心。想一想,微软本身不过是历史长河中的一朵浪花,转瞬即逝。但遗传科学将永世长存,直到文明的尽头!大家看开一点,这种让步算不了什么。”