@ 2017.05.31 , 12:00
20

基因组分析工具箱GATK4开源

2017年5月24日发布于马萨诸塞州剑桥市

隶属麻省理工学院和哈佛大学的博德研究所(Broad Institute)发布了第四版基因组分析工具箱GATK4(Genome Analysis Toolkit 4),并将该业界领先的工具包源代码开放。该软件包内含新工具和重建的架构。现在GATK网站已公布GATK4的Alpha版本,Beta版本预计在6月中旬推出。博德研究所的工程师称,为促进当今的生物信息技术(Bio-IT)发展,本次更新会以开源形式发布。

该版本基于新架构开发,大幅精简了独立工具,并对性能增强技术(如Apache SparkTM)提供了支持。新框架带来了并行计算上的提升,以云部署为依托让大容量基因数据分析比以往更便捷、更快速、更高效。

基因组分析工具箱GATK4开源
Credit:123RF

“我们希望消除传统的规模壁垒,给所有用户提供相同的高水平数据质量。”作为第一个GATK软件包的创造者之一,博德研究所的数据科学工程高级总监Eric Banks说:“多亏了云计算的迅速普及,研究人员终于可以逃离基础设施对进度的阻碍,尤其是在一些小型机构和新兴公司。”

今天,世界上已经有45,000家学术和商业用户在GATK上运行了数百万计的分析项目。在SNP识别、种序DNA 插入缺失标记、RNA序列数据领域,GATK已然成为业界标准。为提升分析工具的性能,GATK4拓展了分析范围,加入了拷贝数和结构变异分析。这将有助于生殖与体细胞的研究应用。

GATK4的开源要归功于博德研究所和英特尔公司的合作。现在,世界各地的研究者们都可以用GATK4对庞杂的基因数据进行高速分析了。

在英特尔-博德数据工程中心,软件工程师和研究人员花费了数月时间重构、优化,并最终共享了这些新工具以帮助科学家整合与处理数据。GATK4的诞生得益于这些合作。工程师们在实践中共同优化相关软硬件,以使其有能力处理所有研究数据集——不管它们储存在个人设备、公共数据库还是混合云端。

各方评价

“把GATK4开源显然是团队的下一步打算,这是支持生物医学社区的最有效方式。我们希望它能继续发展创新,帮助研究人员在未来人类健康领域取得突破。”

——Geraldine Van der Auwera,博德研究所数据科学工程组对外宣传与交流副董事

“这是生物医学研究史上可圈可点的一笔,用来分析数百万人基因的软件将更加易懂而可靠。公开GATK的源代码直接鼓励了全球的方法创新、数据复用和数据再处理。”

——Ewan Birney,EMBL-EBI董事、全球基因组与卫生联盟(GA4GH)主席

“GATK对生殖与癌症分析至关重要,将GATK开源将会增进交流,造福生物医学社群。”

——Robert L. Grossman,芝加哥大学生物医学信息学专家

“GATK的开源对于开放式基因组研究是一个大推动,同时也会推动广泛意义上的开放式科研。它不仅让一个关键工具触手可及,还为其他领域已有项目的开源化做了示范。”

——Jeremy Freeman,陈-扎克伯格研究所(CZI)计算生物学经理

“开源是生物医学高效科研的基础。它消除了共享共建的障碍,让复演、复产和再混合成为可能。博德研究所的GATK项目在可扩展性、敏感性和特定变量函数调用上世界领先,开源的GATK4将让Blue Collar Bioinformatics一类的框架向所有的研究者开放。”

——Brad Chapman,哈佛大学 T.H. Chan 公共卫生学院研究科学家

“Cloudera一直是开放源代码的支持者,我们将支持GATK的数据库在Apache Spark™ 和Cloudera上流畅运行。GATK将被Spark和众多开源软件继续支持,并继续扩大和增强基因数据科学家之间的合作。”

——Tom White, Cloudera数据科学家、Apache Hadoop PMC成员

“这是基因组科学的一大步,它的性能提升与可扩展性为生物技术、制药等所有研究领域提供了机会。在英特尔的新参考架构下,GATK4将达到五倍于早期版本的速度。”

——Jason Waxman,英特尔数据中心解决方案部副总裁兼总经理

“我们已经和博德研究所合作了三年。作为开源科技的强力支持者,我们相信GATK的开源将帮助所有的基因科学家。作为英特尔的合作者之一,我们尤其期待看到研究者们用英特尔Xeon Scalable系列处理器在谷歌云上流畅运行GATK4。”

——Ilia Tulchinsky,Google Cloud医疗工程负责人

“GATK是生命科学应用最广泛的软件包之一,我们的团队曾和博德方面做了很多加速Azure的运行速度的工作。开源模式将大大促进我们的合作,我们为能够能继续扩大我们在GATK -Azure上的合作感到Excited。”

——Geralyn Miller, 微软人工智能&科研部总监

“随着GATK4的开源,我们将有机会创造一个全球性的社区。研究者们将一起协作,推进生物信息学的技术发展,” “我们期待着与广大所带来的基于云服务的客户在中国GATK基因组的紧密合作,以及持续的GATK研发。”

——Hong Tang,阿里巴巴集团的云计算部首席架构师

除了提供开源软件之外,博德研究所还会给用户提供技术支持、培训并在用户社区内扩大服务范围。和博德研究所的其他基因分析工具一样,GATK4可以在博德云端数据分析平台FireCloud上获取。

关于博德研究所

麻省理工-哈佛大学博德研究所(Broad Institute of MIT and Harvard)成立于2004年,旨在帮助当代科学家发展现代医学。其研究方向有:描述生物体所有分子构成及其联系、探索人类主要疾病的分子机理、开发高效诊断和治疗方法、向学术界公开新的发现、工具、方法以及开放数据。

博德研究所由麻省理工学院、哈佛大学、哈佛附属医院以及高瞻远瞩的洛杉矶慈善家Eli 和Edythe L. Broad建立。博德研究所组成人员来自MIT和哈佛大学的进行生物医学研究的教职工与学生。该研究所与全球40多个国家的100多个私人与公共机构有合作关系。

更多信息请访问网站https://www.broadinstitute.org。

For more information, contact:
Broad Institute of MIT and Harvard
Lee McGuire
617-714-8600
lmcguire@broadinstitute.org

本文译自 broadinstitute.org,由译者 下弦の月 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:
已打赏蛋友(1): 您的大名
3.5
赞一个 (9)

TOTAL COMMENTS: 20+1

  1. 比利海灵顿
    @7 months ago
    3464923

    我是文盲?

  2. iiadesuyo
    @7 months ago
    3464928

    做好笔记,过几年中考生物必考

    [1] XX [10] 回复 [0]
  3. 一树梨花
    @7 months ago
    3464929

    看成了GTA4,想想现在都GTA5了,才开放GTA4?文章太专业了,默默路过

    [15] XX [3] 回复 [1]
  4. kevinlee
    @7 months ago
    3464932

    过几年国产的自主研发基因检测工具就会有了

    [19] XX [3] 回复 [1]
  5. 幕后煮屎者
    @7 months ago
    3464940

    简单来说就是一套基因大数据处理的算法整合成的工具,输入A和B基因序列,输出A和B的基因相似程度,至于A和B相似具体代表啥就要看实验的安排和作者的见仁见智了。

    数据处理工具开源固然是好事,但是生物实验室的基础设施价格实在是太残暴了,不是开源一个工具软件就能拉低基础设施的门槛的,做基因的实验最基本的一台离心机几万,PCR仪几十万,比等重黄金还贵的消耗品一大堆,从根本上就杜绝了那种像黑客一样凭一己之力改变行业的大神出现。互联网行业十几台电脑加个PPT就可以拉风投了,真的是非常羡慕。

    [30] XX [0] 回复 [3]
  6. 3464944

    @kevinlee:

    MIT(最屌的工程学院)、哈佛(最屌的生命科学学院)联合研发,google(最屌的软件公司)协助软件开发、数据管理以及分布运算方案,intel(最屌的芯片公司)协助硬件加速。

    看一下开发参与者列表和开发历史,重新开发一套国产的版本不是那么容易的。

  7. 3464954

    比较主流的分析软件之一SAMtools的作者就是中国人啊,Heng Li. 而且现在大家基本用R或者Python自己调用框架。

  8. 3464972

    生物信息主流软件基本都是开源的,GATK一度开源再闭源了一次,但它的代码质量和架构,在所有同类型软件之中都是最顶级的,很少人或者组织能够开发与它竞争的产品,它处理的变异点检测问题又是整个工业中最关键的一部分。

    生物信息行业,可以说在GATK开源之后,即将进入黄金时期。月初透出流言时,某些股票已经狂涨了。

  9. 3464982

    @幕后煮屎者:
    有很多生物信息分析公司,只提供分析。而raw SAM 文件是在专业实验室取得的。
    这样跟互联网公司也没什么两样。
    当一个东西因为成本过大而风险过大时,市场机制会工作起来,工业会自适应的拆分专门部门进行细分工的。

  10. Tangweijr
    @7 months ago
    3465002

    配图貌似是hplc,和测序关系不大

  11. 3465008

    在学遗传学之前,我一直以为分析基因组只要把细胞放进机器里就可以了。等我做完实验……我从未如此热切地期盼科技的高速发展

  12. 3465017

    @hammer: 说进入黄金时期,为时过早

  13. 3465049

    这个消息发布的两天后我学长就去广州创业了,他的博士论文是基于识别CNV位点进行大数据癌症预分析,而他全部工作都是在GATK的VA框架内实现的。

    对创业者而言至少是利好。

  14. 3465068

    @幕后煮屎者: 硬盘是可以购买的 滑稽

  15. 王母娘娘修脚刀
    @7 months ago
    3465541

    说实话,我感觉GATK并不好用….也没新闻里说的那么悬乎,去galaxy转转就明白他为什么要开源了

  16. valleychow
    @7 months ago
    3465615

    Agilent 1260还没开机

  17. GATK脑残粉
    @7 months ago
    3465704

    @王母娘娘修脚刀:

    你觉得它不好用,很有可能只是你的问题吧?我没见过哪个稍微上点档次基因研究实验室不用的。

  18. gongfeng
    @7 months ago
    3465758

    @王母娘娘修脚刀: 请你务必回答你说的不好用是相比什么而言的。能全面处理sam除了自有工具和GATK还有哪个工具我真的不知道。

  19. 3466981

    哇塞!见到这么多同行好亲切啊!在澳洲读Genomics的PhD,听过GATK pipeline 的学习班,真不错

  20. 3467595

    没想到这里还看见冷门的GATK的新闻了。二十一世纪是生物的时代,我就是这么入了生物的坑,应该有更多的人参与到行业中来,快点发展,这是好消息!

发表评论


24H最赞