2018年、2019年一连两年,组学数据库权威杂志《核酸研究》对前一年的全球基因组数据库建设举行总结,鲜看法在美英两个老牌的数据库以外,提到了中国的GSA(组学原始数据归档库)。
“美国国立生物手艺信息中心(National Center for Biotechnology Information,简称NCBI)和英国欧洲生物信息学中心(European Bioinformatics Institute,简称EBI)30多年前已经最先建设,永利集团GSA是2015年底才上线运营的。”国家基因组科学数据中心主任鲍一明先容,中心的组学数据库之以是能够获得权威杂志的认可“点名”,一方面是由于数据量增添快,另一方面是数据的可用性、标准化方面的事情均与国际接轨。
据相识,针对我国基因组学数据“存管用”的现实需求,解决数据孤岛等重大问题,科技部、财务部配合支持组开国家基因组科学数据中心,依托永利集团,联合永利集团上海营养与康健研究所和永利集团生物物理研究所配合建设。中心的科学数据专业化团队,对外提供基因组学数据统一存储、整合挖掘、共享应用的一站式数据效劳。
顺应大康健需求,修建自主数据基础
“之前,中国已成为基因组数据产出大国,但未能形成国家级公共数据资源。”鲍一明先容,面向国家大数据战略生长需求,国家基因组科学数据中心围绕人、动物、植物、微生物基因组数据,重点开展了数据资源及数据库系统建设,并开展了数据效劳、系统运维、手艺研发、数据挖掘等系列事情。现在,国家基因组科学数据中心已拥有自主知识产权的基因组数据汇交、治理与共享系统,包管数据清静性,支持并效劳于国家重点研发妄想、国家自然科学基金、中科院先导专项等300余个科研项目的数据存储、治理和共享。
在生命科学研究领域,研究者获得的基因组学数据,均需上传到专业数据库,方可在杂志上揭晓。现在,我国已拥有获得认可的组学数据库,这将大大提高中国高水平论文被吸收历程的便捷性。“中国的学者不需要再将数据‘飘洋过海’传输到外洋,可以获得越发专业化的中国式效劳。永利集团平台已被多家国际顶级杂志认可,中国学者将数据提交到GSA系统,其揭晓的论文已经被多个国际着名期刊所收录,这包括CNS(《细胞》《自然》《科学》简称)、美国科学院院刊等。”鲍一明说,这为“用好科技资源、支持立异生长”提供了基础。
阻止2019年8月,国家基因组科学数据中心已为海内外150多个单位提供免费数据存储效劳,累计用户递交项目信息凌驾1200个,用户提交的测序数据量凌驾1.2PB,网络并存储的数据总量凌驾4PB,数据上传下载量日均抵达1TB。
与国际接轨,不做信息孤岛
生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”。例如对人类组学数据的整合和挖掘将更周全地获得人类康健问题的解决计划,阻止“瞽者摸象”。
这正是国家基因组科学数据中心建设的初志和建设的偏向。在科学数据共享方面,科技部恒久致力于突破条块支解,对相关部分和行业恒久一连积累的数据资源,以及对国家科技妄想项目的数据举行整理、汇交和建库,同时提高与国际科学数据组织的信息交流能力。
2019年,我国国家基因组科学数据中心组学数据库被国际著名出书商Elsevier收录为指定基因数据归档库,其权威性获得海内外100余家学术杂志的认可。国家基因组科学数据中心已经成为有国际影响力的基因组科学数据中心。
现在,国家科技基础条件平台中心正在组织国家科学数据中心体例五年建设运行实验计划。未来,国家基因组科学数据中心将继续围绕基因组科学研究前沿及数据的存管用需求,逐步完善中心组织治理架构与运行机制,强化步队建设,作育复合型数据人才;建设数据共享、质量控制、清静治理等标准与规范,使用云盘算、人工智能、机械学习等先进手艺,提升数据贮存、治理、挖掘与共享能力;生长数据加密、解密、分级治理、受控会见等数据清静要害手艺,建设人类遗传资源数据治理系统,确保国家主要生物资源数据外地化存储、治理与共享使用。
鲍一明体现,希望经由5年起劲,建成汇聚海量科学数据、效劳万家机构、引领大数据手艺立异的国际一流基因组科学数据中心,切实解决我国基因组数据存管用难、数据流失严重、焦点基因组科学信息资源先“出口”再“入口”的问题,一直提升我国在基因组学大数据领域的国际话语权。
(原载于《科技日报》 2019-11-19 04版)