@ 2016.09.01 , 09:00
84

20%的基因论文出现错误:Excel的锅

[-]

一项新研究发现,Excel默认格式设置要为约20%的基因领域科研论文的错误背锅。

研究者们发现这些错误源自Excel会自动把基因名称纠正为日期或者数字,这些错误很难被修正,而且因为无法永久性停用这一功能,很多科学家们在发表论文之前干脆就忘记手动修改它们。

“Excel在在默认设置中会把基因名称转化为日期和浮点数值,”来自澳洲的研究团队解释说。

“我们用程序扫描了主要基因组学期刊,发现约五分之一的论文所补充的Excel基因组表单中都有基因名称转化错误。”

团队扫描了2005到2015年间发表于19份不同期刊上的3597份论文的35175张Excel表单。通过一个可以识别基因名称错误的专门程序,他们发现有704份论文存在错误。

团队解释说:“煮个栗子,名为SEPT2和MARCH1的基因就会被Excel自动纠正为‘2-Sep’和‘1-Mar’。此外,Excel还会自动将RIKEN标识符转化为浮点数字(比如将‘2310009E13’变成‘2.31E+13’)…在最近发表的论文里,我们发现了更多基因符号被转化成日期的现象(比如‘SEPT2’变成了‘2006/09/02’).”

雪上加霜的是,如果研究者想要点击“撤消”自动格式,它就会修改这个日期的格式,而不是改回原来的基因名称。

正如《华盛顿邮报》的Christopher Ingraham解释说,如果研究者想要输入“MARCH1”,Excel会改成“1-MAR”。如果研究者点击“撤消”,它就会变成“42430”,因为这就是Excel内部储存日期的方式。

[-]

唯一想要避免这类错误的方法就是在输入前设置表单中每一列的格式。

研究者们希望这份报告可提高大家对该问题的意识,从而更多科学家会知道他们的研究成果会因为一个简单的程序错误而打折扣。

所以最佳解决方式就是微软推出一个补丁,但是我们都知道微软是不靠谱的。所以研究者们在格式问题上还是要保持高度警觉。

[-]

该研究已经发表在Genome Biology上。

本文译自 sciencealert,由译者 许叔 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

4.7
赞一个 (22)

TOTAL COMMENTS: 84+1

[2] 1 »
  1. 你们都是战5渣
    @1 year ago
    3247033

    还有,只能最长15位数字………

  2. 小渣
    @1 year ago
    3245862

    设置单元格式→文本

  3. 神之疯神
    @1 year ago
    3245832

    应该固定用一个模板把所有格子设成文本格式,反正大学写论文的时候都直接在模板文件上写,所有格式都自动搞定

  4. 3245767

    这功能真是坑死我了。。。

  5. iiadesuyo
    @1 year ago
    3245405

    win10里输入法自动把单引号改为全角单引号简直让人摔电脑

  6. alpha_boy
    @1 year ago
    3245389

    弱弱地问一句,能用WPS 2016电子表格替代么?

  7. poorich
    @1 year ago
    3245082

    写论文还是用LaTeX吧

  8. Tedward
    @1 year ago
    3245003

    那Origin9.1呢?

  9. 3244978

    @c: 只看标题就回复了 看了原文献之后 更正一下自己的说法……这篇文章主要说的是补充材料 很多期刊限定补充材料的格式的 用xlsx格式呈现结果并没有错 当然 计算过程不要受excel影响也是对的……

    紧急查看了一下自己的文章 还好没有这个问题……

  10. 3244949

    比起gene symbol 在使用Entrez ID等纯数字ID时 excel的影响更大 科研最好还是别用这些目的不同的软件 用R perl之类的就好了

  11. 3244859

    做数据库导入时常发生的bug,一般输入前设置所有列为文本格式即可,并且列宽不要太窄

  12. gaofei
    @1 year ago
    3244856

    祝贺:又一次看见了微软公司门口的照片

  13. 3244804

    还有word里的自动排序,神烦

    [20] XX [1] 回复 [0]
  14. 3244792

    @K: 忽然发现我犯了一个基本的错误,所以根本不用继续讨论,我认输,你赢了。首先,我都不确定用得是不是libreoffice,其次,你用的应该是最新版,而我的Linux系统本身就很老,而且绝对不升级,所以其中的office肯定也是老掉牙的。所以我们说得根本不是一个产品,没有可比性。我在Linux下打开csv文件都要询问编码方式,而xlsx文件打开时间慢得发指,这给我带来恶劣的映象。当然,我是以偏概全了,以后如果有机会装个新版的Linux,也许它附带的office会改变我的看法。

  15. 3244747

    @Stelam: 我帮化学系的处理过数据…这样行不通…因为源数据是csv文件…’会被显示出来所以没用…

  16. 3244742

    @K: 不是打不开,而是要多一个“选择编码方式”的步骤,然后经常说编码方式不对,问我是否强行打开。你一个程序不会自己判断啊,罗嗦这么多干什么,有时间回答这些问题,我还不如传到Windows下用Excel操作。

  17. 3244737

    @鱼鱼: 懒得跟你多说了,你爱怎么理解就怎么理解吧。

  18. 3244724

    大二的时候有一门课叫数据按摩, 讲的就是这个.

  19. 3244720

    @Pstnk: 这么点数据,你的libreoffice calc竟然打不开???????我不管开什么(csv,txt,xlsx,xls,odf),都是calc比excel快的

  20. 鱼鱼
    @1 year ago
    3244719

    @Pstnk: 嫌数据库不灵活,又嫌Excel不好用,还说自己写一次性程序不值得。

    如果你每次处理类似的问题都要重新把程序写一遍,那么可能是你自己有问题。

  21. 3244716

    @K: 我用文本编辑器只是看一眼大体格式对不对,然后传到Windows系统下再处理。一般用Excel处理的数据都不算大,几十MB顶天了。对于几百MB、几GB的数据文件,我都是编个程序处理,最后数据量缩减到几万几十万的时候再产生CSV文件转给Excel处理和绘图。

  22. 3244700

    @Pstnk: 用文本编辑器只能编辑行不能编辑列,所以在linux下就编辑不了呢。我觉得libreoffice calc太好用了。快极了。

  23. Koneake
    @1 year ago
    3244699

    @shaoji1121:
    我觉得是歧义…倒不是标题党

  24. 3244696

    超过10行, 还用表格展示就是耍流氓. 数据备份的话, 用字符格式会死么? 多半是研究生刷完表格Ctrl+S就再也没看一眼了.

  25. 3244682

    @africanchink: 而工厂的技术人员知道能用Excel就尽量用Excel

  26. 3244680

    @九耳: 前面不是有人推荐用这些软件替代Excel吗?我想强调的就是:那些免费软件干点小活还行,处理大点的东西确实不成。我在Linux下宁愿用文本编辑器打开csv文件,也不愿用那几个免费的office

  27. 纵横
    @1 year ago
    3244679

    但是我们都知道微软是不靠谱的
    微软:“….”

  28. 3244678

    数据输入前加一个’
    即 ‘March1
    或 ‘133xxxx7450

    会正确显示为March1或者133xxxx7450

    [10] XX [0] 回复 [0]
  29. 3244671

    但是我们都知道微软是不靠谱的

  30. 3244670

    @Overmind911: access有Excel的灵活性吗?我不需要定位具体数据,而是处理数据,access有Excel的那些函数吗?对于大型的数据处理,我会自己编个程序来干,但对于几十万行的一次性处理,特意去编程就不值了。Excel的速度确实没有自己编写的程序快,但灵活性要强太多了。

  31. Get√
    @1 year ago
    3244669

    @Overmind911: 所以你要财务 统计人员再去学数据库?

  32. 武当山驻少林寺办事处
    @1 year ago
    3244668

    做生信的应该都中过招,还好找到一个靠谱的R包

  33. 碧海
    @1 year ago
    3244664

    截至今天位置,影响最大的背锅侠已经有(以下【】内为舆论的原始用语):
    1、三峡水电站。原因:影响了【上游】城市武汉的排水(【】内为舆论的原始用语);
    2、小红粉。原因:组织了反肯德基游行(此项有争议);
    3、Excel表。原因:影响了20%的基因论文。

    ——细细观察,总能发现一个ID叫做“自己的愚蠢”的家伙,在阴暗的角落开怀大笑。

    [2] XX [10] 回复 [0]
  34. Overmind911
    @1 year ago
    3244650

    @Pstnk: 几百万行的东西用excel是不是在搞笑,不说sqlserver,最次也可以用access麽,难道真的要用拉滚动条的方法去定位具体数据,用sql更简单点吧

[2] 1 »

发表评论


24H最赞