返回首页

锘崴科技NovaVita v3.26开启基因数据隐私机密计算新时代

中国证券报·中证网

  锘崴科技升级并发布全国首个基于隐私计算的高性能基因组数据联合共享和分析平台 (NovaVita v3.26)。Nova代表“新”,Vita意寓“生命”,隐私机密计算或将把生命信息带入一个新的纪元。

  1990年,人类基因组计划正式启动,这一具有里程碑意义的事件,象征着人类对于基因这一领域的认知和探索进入了新的、高速发展的阶段。之后,各个国家以及国家直接都陆续建立了自己的基因数据库,其中有些在常用的生物数据类型上已经积累到了PB级的数据量。

  国内在基因相关的数据库搭建上近年来也有不同维度的代表,综合性的有国家基因库,其他例如生命与健康大数据中心,国家组学数据百科全书,以及蛋白质组学整合资源库等则是针对不同类型基因建立的数据库。除此之外,全基因组关联分析、癌症早筛中的液体活检技术、新冠疫情中的核酸检测试剂盒以及各类基因测序平台等等,这一切都与基因研究密不可分。人类对于基因的探索从未停止。

  而随着大数据时代的到来,数据的重要性将不仅仅体现在互联网领域,未来医学发展,尤其是基因检测和基因库建立方面,也将愈发倚重数据共享,最典型的就是全基因组关联分析。全基因组关联分析 (Genome-Wide Association Study, GWAS) 是指从人类全基因组范围内找出存在的序列变异,即单核苷酸多态性 (Single Nucleotide Polymorphisms, SNPs),并筛选出与疾病相关的SNPs,帮助进行疾病诊断或是预防。它常用于复杂疾病研究,包括肿瘤、糖尿病和高血压等。这类疾病往往受多个基因和环境因素共同影响,每个基因的单独作用较弱,且往往存在多基因间和基因环境间的交互作用,因此被称作复杂疾病。利用GWAS对其遗传机制的研究不仅能帮助研究人员探索和理解相关发生和发展机制,更有助于开发新药物、发展新疗法和开展预防工作,提高整体国民健康水平。显然,GWAS研究非常依赖大量基因数据的积累,然而,这一目标往往很难实现,相反,GWAS研究中最常见的问题和难点就是样本量过少。尽管我国已经建立了多样化、多维度的基因数据库,但这些基因库中的基因数据大多单存在,缺少交互和共享,形成了数据孤岛,使他们未能发挥出全部价值。

  造成这一现象的最重要原因,也就是数据安全问题。由于基因数据具有个人识别性、预测疾病风险等一般数据资源没有的特性,一旦泄露,将对数据提供者造成难以预计的损失。同时,这些负面影响还会蔓延至他们的血亲,因为他们拥有相似的基因片段。不仅如此,近几年有不少研究表明,即使经过去识别化处理的数据也仍然有泄露隐私信息的风险。因此,基因数据中蕴含的巨大价值和数据共享过程中的高风险使得大部分基因数据持有方失去了进行数据共享的意愿,只愿意将数据抓在手里。那么,如何妥善保存、利用这些数据,避免它们成为“食之无味,弃之可惜”的无用资源,便成了新的挑战。尽管挑战重重,但在这看似不可逾越的技术难题后,是科研和发展的光明坦途,而想要走过去,就必须克服这个阻碍——使基因数据能被安全地共享。

  锘崴科技的NovaVita 平台则是突破瓶颈,实现这一目标的利器。

  作为数据隐私计算行业的先行者和推动者,锘崴科技推出的这一基于隐私计算的高性能基因组数据联合共享和分析平台是具有革命性创新的医疗生物大数据隐私保护平台。锘崴的隐私机密计算平台采用软硬件加密计算技术(如多方安全计算、同态加密、可信计算环境),主要核心为“安全联邦”学习技术, 区块链溯源技术以及可定制的超融合基础构架技术,形成了自己独有的隐私机密计算技术。

  其中,TEE有相对较高的执行效率。较高的处理能力,通过我们算法优化,能够处理海量数据,满足特定业务场景的需求。多方安全计算能够比较好的处理两方数据问题。同态加密能够有较高的抗量子攻击能力和简单的数据处理能力,密码学技术用于协助进行数据管理身份认证等内容,区块链用于协助实现业务流程管理和审计管理等功能。通过综合利用上述技术使得锘崴的隐私机密计算平台能够作为大数据平台,打破数据孤岛,建立跨行业、跨部门,跨主体,可以实现多行业、多部门、多中心的数据联合计算。同时,可在符合我国网络安全法以及GDPR等严格隐私保护法律法规情况下,进行多中心、多维度实时大数据分析计算,可以满足基因数据这样高通量、大体量、敏感度高的数据类型所需的高标准的隐私保护要求。

  目前,这一平台已经经过具体应用场景的考验,证明了其在保护数据隐私和推动不同疾病的协同基因组研究方面的巨大潜力。2019年底,在NovaVita平台的支持下,进行了一项多中心风湿免疫基因组数据的联合精准分析。这也是全国范围内首次实现多家医院在个体基因数据不需要给出各参与方医院的前提下,进行全基因组关联分析。基因数据的隐私敏感性远远高于其他生物医学数据(如临床数据或医学图像数据),且单纯的数据脱敏和信息去身份化并不能有效阻止病人敏感的基因信息的泄露。有研究表明,只需要几十个统计学上独立的基因位点就可以确定一个个体的身份。因此,通常情况下,隐私安全和跨中心的GWAS研究往往不可兼得,但在NovaVita V3.26的技术支持下,不仅可以同时实现这两个目标,还能保证计算结果与传统方法所获得的结果一致。目前,该研究成果已发表在生物信息学顶级期刊。

  锘崴科技是世界领先的隐私计算服务提供商,创始团队从2011年开始研究隐私计算,并于2013年发表了全球第1篇医疗在线联邦学习的论文。团队拥有300+ 隐私计算领域的著作,深耕于医疗大数据行业,是医疗大数据隐私计算的先行者和推动者,率先落地了十余个跨域多中心医疗大数据隐私计算项目,为医疗大数据的共享分析以及精准医学的发展提供了有力的新基建保障。锘崴科技致力于为我国开发一整套自主、安全、可控的隐私计算基础设施平台,实现数据"可用不可见"和"数据不动价值动"的新型计算范式,使在不暴露原始数据和模型的情况下进行多方的数据协作和计算。公司以锘崴信隐私机密计算架构为核心,覆盖了医疗大数据隐私机密计算平台(NovaVita)、金融科技隐私机密计算平台(NovaEco)、政务大数据隐私机密计算平台(NovaGov)等系列产品。团队曾荣获美国医疗信息年会最高奖项,2014年起创建了全球iDASH隐私计算大赛,并参与了多个国际和国内隐私计算技术标准的制定。

中证网声明:凡本网注明“来源:中国证券报·中证网”的所有作品,版权均属于中国证券报、中证网。中国证券报·中证网与作品作者联合声明,任何组织未经中国证券报、中证网以及作者书面授权不得转载、摘编或利用其它方式使用上述作品。凡本网注明来源非中国证券报·中证网的作品,均转载自其它媒体,转载目的在于更好服务读者、传递信息之需,并不代表本网赞同其观点,本网亦不对其真实性负责,持异议者应与原出处单位主张权利。