@ 2016.09.01 , 09:00

20%的基因论文出现错误:Excel的锅

[-]

一项新研究发现,Excel默认格式设置要为约20%的基因领域科研论文的错误背锅。

研究者们发现这些错误源自Excel会自动把基因名称纠正为日期或者数字,这些错误很难被修正,而且因为无法永久性停用这一功能,很多科学家们在发表论文之前干脆就忘记手动修改它们。

“Excel在在默认设置中会把基因名称转化为日期和浮点数值,”来自澳洲的研究团队解释说。

“我们用程序扫描了主要基因组学期刊,发现约五分之一的论文所补充的Excel基因组表单中都有基因名称转化错误。”

团队扫描了2005到2015年间发表于19份不同期刊上的3597份论文的35175张Excel表单。通过一个可以识别基因名称错误的专门程序,他们发现有704份论文存在错误。

团队解释说:“煮个栗子,名为SEPT2和MARCH1的基因就会被Excel自动纠正为‘2-Sep’和‘1-Mar’。此外,Excel还会自动将RIKEN标识符转化为浮点数字(比如将‘2310009E13’变成‘2.31E+13’)…在最近发表的论文里,我们发现了更多基因符号被转化成日期的现象(比如‘SEPT2’变成了‘2006/09/02’).”

雪上加霜的是,如果研究者想要点击“撤消”自动格式,它就会修改这个日期的格式,而不是改回原来的基因名称。

正如《华盛顿邮报》的Christopher Ingraham解释说,如果研究者想要输入“MARCH1”,Excel会改成“1-MAR”。如果研究者点击“撤消”,它就会变成“42430”,因为这就是Excel内部储存日期的方式。

[-]

唯一想要避免这类错误的方法就是在输入前设置表单中每一列的格式。

研究者们希望这份报告可提高大家对该问题的意识,从而更多科学家会知道他们的研究成果会因为一个简单的程序错误而打折扣。

所以最佳解决方式就是微软推出一个补丁,但是我们都知道微软是不靠谱的。所以研究者们在格式问题上还是要保持高度警觉。

[-]

该研究已经发表在Genome Biology上。

本文译自 sciencealert,由 许叔 编辑发布。

支付宝打赏 [x]
您的大名: 打赏金额:
赞一个 (24)