我超级稻基因组数据从“云端”向全球共享
2015/9/17 来源:科技日报

 “我们的3000份绿色超级稻基因组原始测序数据,覆盖了全球25万份种质基因全部遗传变异的95%。这份核心数据,将正式通过阿里云平台,向全球免费开放。”9月15日,中国农业科学院、阿里云计算有限公司、华智水稻生物技术有限公司、北京聚道科技有限公司在长沙共同启动“云之稻项目”,中国农科院农作物基因资源与基因改良国家重大科学工程首席科学家黎志康如是告诉科技日报记者。

   3000份水稻核心种质基因组测序数据,是科技部和比尔·梅琳达盖茨基金会“为非洲和亚洲资源贫瘠地区培育绿色超级稻”重大科技专项的重要课题成果,这也是迄今为止全世界最大的植物基因组测序项目。项目旨在培育能够广泛适用于灌溉和雨养地区生态环境,并具氮磷高效利用、抗病、抗虫、高产、优质、抗逆(干旱、盐碱)等特性的水稻新品种,在目标国示范推广,推动杂交稻种子生产能力,并为撒哈拉以南非洲国家、亚洲和中国的西南地区水稻分子育种建立一个高效水稻基因型分析技术平台。

   3000份水稻核心种质基因组测序数据能做什么?

   为水稻核心种质做基因组测序,是一项庞大工程。黎志康领衔的团队,耗费了两年半的时间,才获得这3000份水稻核心种质基因组测序数据。一位超级稻科研工作者接受科技日报记者采访时表示,该基因数据库资源,至少有两方面用途,一是从基因库调取数据,研究目标基因的分布、进化和功能。二是可分析基因组之间的多态性位点,并以之开发分子标记,甚至是基因芯片,用于分子育种。

   黎志康认为,通过对3000份水稻核心种质基因组测序分析,能够回答水稻有多少遗传多样性可以应用,从哪里获取生物育种所需遗传资源的问题,分析得到的数据将为水稻基础认识和生物育种提供基础信息资源。这项研究可揭示全球栽培稻资源的基因组多样性,和每个水稻资源的遗传特点及应用价值。此外,将3000份水稻种质资源带入水稻育种应用中,将为水稻育种创新提供材料和新思路,对数据的分析结果还将填补人们对水稻甚至各个物种在基因组学方面的知识空缺。

   “基因组大数据是水稻分子育种的基础。我们正承担有建设国家水稻分子育种大平台的任务,也希望通过对3000份水稻基因组序列进行深度分析,重点挖掘出水稻种质资源的重要遗传区段,为种业公司提供优质的分子标记开发,全基因组关联分析和优良农艺性状定位等种业高科技服务。”华智水稻生物技术有限公司总经理张健说。

   四方联袂拟打造最全“水稻功能基因组和育种信息数据库”

  3000份水稻基因组测序项目分析得到的数据量将达到几百TB,处理如此大规模的基因组数据,科研机构要具备相应存储和计算能力既不现实,也会造成重复配置资源。为此,四方机构共同启动“云之稻项目”,协议将3000份水稻种质资源基因组测序数据通过阿里云平台,无偿向全球共享数据,项目组还拟建立最全“水稻功能基因组和育种信息数据库”,为基础研究和育种应用提供可供参考的重要信息。这不仅有利于加快规模化发掘水稻优良基因,突破水稻复杂性状分子改良的技术瓶颈,还能加快高产、优质、广适性新品种培育的进程,全面提升我国及全球水稻基因组研究和分子育种水平。

   水稻基因数据公益云平台构建于阿里云的对象存储服务和批量计算服务之上。阿里云对象存储服务(OSS),是阿里云自主研发的分布式存储系统,具海量存储空间和几乎无限的扩容能力,能通过多重数据冗余备份和自动故障恢复机制保证数据安全。通过OSS提供的免费存储和下载服务,云之稻项目的水稻基因组数据可以随时为全球科学家所用。同时,阿里云批量计算服务是专门针对基因数据分析等计算密集型应用设计的分布式云服务,其自动的资源管理、灵活的任务调度和工作流支持,可大大简化在云上搭建水稻基因分析平台的过程。

   基因大数据的分析处理必须面对很多难题,比如海量数据传输,数据安全和权限隔离,数据调度和处理如何简洁高效,以及如何寻找稳定可靠且低成本的存储资源等。聚道科技开发了GeneDock基因数据云服务平台,针对基因数据格式使用独特压缩算法,大大降低数据存储和传输成本,研发了行业一流的分布式调度和执行引擎,大大提高任务运行速度,降低运行成本。用户在云之稻(http://www.RiceCloud.org)下载数据,可直接在云端对3000份水稻核心种质基因组数据进行分析挖掘。

   项目目前已经对用户免费开放,后期还将陆续推出新的分析工具,方便科研工作者深入分析水稻基因组数据。“后基因组时代,这个项目还将结合功能基因组学新的方法和策略进行生物育种,贡献于粮食安全和食品健康的发展。我希望全球水稻研究同行,能充分利用这一平台,也希望国家有关部门能给予关注和扶持,促进生物大数据行业的快速发展。”黎志康说。