Tech
基因组分析工具箱GATK4开源
2017年5月24日发布于马萨诸塞州剑桥市
隶属麻省理工学院和哈佛大学的博德研究所(Broad Institute)发布了第四版基因组分析工具箱GATK4(Genome Analysis Toolkit 4),并将该业界领先的工具包源代码开放。该软件包内含新工具和重建的架构。现在GATK网站已公布GATK4的Alpha版本,Beta版本预计在6月中旬推出。博德研究所的工程师称,为促进当今的生物信息技术(Bio-IT)发展,本次更新会以开源形式发布。
该版本基于新架构开发,大幅精简了独立工具,并对性能增强技术(如Apache SparkTM)提供了支持。新框架带来了并行计算上的提升,以云部署为依托让大容量基因数据分析比以往更便捷、更快速、更高效。
Credit:123RF
“我们希望消除传统的规模壁垒,给所有用户提供相同的高水平数据质量。”作为第一个GATK软件包的创造者之一,博德研究所的数据科学工程高级总监Eric Banks说:“多亏了云计算的迅速普及,研究人员终于可以逃离基础设施对进度的阻碍,尤其是在一些小型机构和新兴公司。”
今天,世界上已经有45,000家学术和商业用户在GATK上运行了数百万计的分析项目。在SNP识别、种序DNA 插入缺失标记、RNA序列数据领域,GATK已然成为业界标准。为提升分析工具的性能,GATK4拓展了分析范围,加入了拷贝数和结构变异分析。这将有助于生殖与体细胞的研究应用。
GATK4的开源要归功于博德研究所和英特尔公司的合作。现在,世界各地的研究者们都可以用GATK4对庞杂的基因数据进行高速分析了。
在英特尔-博德数据工程中心,软件工程师和研究人员花费了数月时间重构、优化,并最终共享了这些新工具以帮助科学家整合与处理数据。GATK4的诞生得益于这些合作。工程师们在实践中共同优化相关软硬件,以使其有能力处理所有研究数据集——不管它们储存在个人设备、公共数据库还是混合云端。
各方评价
“把GATK4开源显然是团队的下一步打算,这是支持生物医学社区的最有效方式。我们希望它能继续发展创新,帮助研究人员在未来人类健康领域取得突破。”
——Geraldine Van der Auwera,博德研究所数据科学工程组对外宣传与交流副董事
“这是生物医学研究史上可圈可点的一笔,用来分析数百万人基因的软件将更加易懂而可靠。公开GATK的源代码直接鼓励了全球的方法创新、数据复用和数据再处理。”
——Ewan Birney,EMBL-EBI董事、全球基因组与卫生联盟(GA4GH)□□
“GATK对生殖与癌症分析至关重要,将GATK开源将会增进交流,造福生物医学社群。”
——Robert L. Grossman,芝加哥大学生物医学信息学专家
“GATK的开源对于开放式基因组研究是一个大推动,同时也会推动广泛意义上的开放式科研。它不仅让一个关键工具触手可及,还为其他领域已有项目的开源化做了示范。”
——Jeremy Freeman,陈-扎克伯格研究所(CZI)计算生物学经理
“开源是生物医学高效科研的基础。它消除了共享共建的障碍,让复演、复产和再混合成为可能。博德研究所的GATK项目在可扩展性、敏感性和特定变量函数调用上世界领先,开源的GATK4将让Blue Collar Bioinformatics一类的框架向所有的研究者开放。”
——Brad Chapman,哈佛大学 T.H. Chan 公共卫生学院研究科学家
“Cloudera一直是开放源代码的支持者,我们将支持GATK的数据库在Apache Spark™ 和Cloudera上流畅运行。GATK将被Spark和众多开源软件继续支持,并继续扩大和增强基因数据科学家之间的合作。”
——Tom White, Cloudera数据科学家、Apache Hadoop PMC成员
“这是基因组科学的一大步,它的性能提升与可扩展性为生物技术、制药等所有研究领域提供了机会。在英特尔的新参考架构下,GATK4将达到五倍于早期版本的速度。”
——Jason Waxman,英特尔数据中心解决方案部副总裁兼总经理
“我们已经和博德研究所合作了三年。作为开源科技的强力支持者,我们相信GATK的开源将帮助所有的基因科学家。作为英特尔的合作者之一,我们尤其期待看到研究者们用英特尔Xeon Scalable系列处理器在谷歌云上流畅运行GATK4。”
——Ilia Tulchinsky,Google Cloud医疗工程负责人
“GATK是生命科学应用最广泛的软件包之一,我们的团队曾和博德方面做了很多加速Azure的运行速度的工作。开源模式将大大促进我们的合作,我们为能够能继续扩大我们在GATK -Azure上的合作感到Excited。”
——Geralyn Miller, 微软人工智能&科研部总监
“随着GATK4的开源,我们将有机会创造一个全球性的社区。研究者们将一起协作,推进生物信息学的技术发展,” “我们期待着与广大所带来的基于云服务的客户在中国GATK基因组的紧密合作,以及持续的GATK研发。”
——Hong Tang,阿里巴巴集团的云计算部首席架构师
除了提供开源软件之外,博德研究所还会给用户提供技术支持、培训并在用户社区内扩大服务范围。和博德研究所的其他基因分析工具一样,GATK4可以在博德云端数据分析平台FireCloud上获取。
关于博德研究所
麻省理工-哈佛大学博德研究所(Broad Institute of MIT and Harvard)成立于2004年,旨在帮助当代科学家发展现代医学。其研究方向有:描述生物体所有分子构成及其联系、探索人类主要疾病的分子机理、开发高效诊断和治疗方法、向学术界公开新的发现、工具、方法以及开放数据。
博德研究所由麻省理工学院、哈佛大学、哈佛附属医院以及高瞻远瞩的洛杉矶慈善家Eli 和Edythe L. Broad建立。博德研究所组成人员来自MIT和哈佛大学的进行生物医学研究的教职工与学生。该研究所与全球40多个国家的100多个私人与公共机构有合作关系。
更多信息请访问网站https://www.broadinstitute.org。
For more information, contact:
Broad Institute of MIT and Harvard
Lee McGuire
617-714-8600
lmcguire@broadinstitute.org
本文译自 broadinstitute.org,由 下弦の月 编辑发布。