3月31日,人类基因组研究迎来重大突破:
国际科学组织“端粒到端粒”联盟公布了首个人类基因组完整序列
自此人类基因组序列遗留近20年的测序结果空白被填补,人类“生命地图”成功拼成!
人类基因组计划被誉为生命科学的“登月计划”,1985年由美国科学家率先提出,1990年正式启动。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,达到破译人类遗传信息的最终目的。
2003年,研究人员首次绘制出了人类基因组的图谱,但受限于当时的技术,尚有约8%的基因序列未完全破译。如今完整的基因组序列为我们提供了首个解读人类DNA的全面视角,并将促进对人类生产发育、疾病的基因研究。
基因检测
解锁生命密码
有这样一个比喻,如果上帝是程序员,人类基因就是一串串代码。几十年来,人类孜孜不倦研究基因探索自身奥秘,基因检测技术随之蓬勃发展。
基因检测指通过特定设备对被检测者细胞中的DNA分子信息作检测,分析其所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法。它不但可以诊断疾病,还能预测疾病风险,受测者可根据检测结果对疾病进行早期干预,从而防止和延缓疾病的发生和发展。
技术进步带来了检测成本的下降。如今,关注遗传隐私的人可以购买DNA检测试剂盒,借此了解其祖源、血统、罹患某种疾病的风险、是否对酒精过敏、是否携带遗传变异等。
此流程相当简单——消费者网上下单后收到样本采集盒,将2ml唾液或使用拭子在牙龈间滚动几次作为样本寄回,之后可到APP等相关渠道查看基因检测结果。
近来在西方发达国家,家庭基因检测已形成新风尚,很多人给家人朋友选择的圣诞礼物就是一支基因测试剂礼盒。不过,家庭基因检测虽然提供了一种新奇的体验,但同时也有可能打开潘多拉魔盒——想想有朝一日多年以父子相称的人,实际上不具有生物学关系是多么可怕的事……
除了消费级基因检测服务,基因检测的应用场景还包括面向科研机构、高等院校和药企的科研级,以及可作为医生诊断、治疗依据的临床级应用。
基因测序
下一代改变世界的技术
目前,普遍用于基因检测的技术大致可以分为四类:
●PCR技术(定性PCR、定量PCR、数字PCR,新冠病毒核酸检测主要用的就是荧光定量RT-PCR技术)
●基因芯片技术
●荧光原位杂交(FISH)技术
●基因测序技术
其中,基因测序技术是最为直观、准确的方法之一,它能对基因序列进行精确、廉价、快速的测定解析,已被广泛应用于基础研究、医疗、工业、法医学等领域。此次科学家首次破译人类完整基因组序列以及上述家庭DNA测试应用的就是基因测序。
具体而言,基因测序即从血液、体液或细胞中分析测定基因全序列,通过序列分析预测罹患多种疾病的可能性,个体的行为特征及行为合理性,如癌症,运动天赋、酒量、先天基因携带等,被誉为下一代改变世界的技术。
从原理上讲,基因测序就是将DNA化学信号转变为计算机可处理的数字信号,对基因测序数据的分析通常分为三个步骤:原始数据清理、数据预处理和变异检测。
基因测序仪产生的数据分析体量是非常庞大的。如果待测序的样本有30亿个碱基,每个碱基用一个字节Byte表示,则这个样本的数据大小为3GB;如果测序深度为30×,则测序仪输出的文件≈3*30*2=180GB。
根据测序深度以及添加的附加信息不同,实际测序仪输出的文件大小从几百GB到几TB不等,当测序仪处于全天候工作的情况下,每天产生的数据量会达到上百TB甚至PB级!
海量基因数据高并发处理的计算需求,海量数据的存储和比对分析需求,以及高度敏感基因数据的长期安全保存,无一不给传统IT带来巨大挑战。
戴尔科技
牢铸基因测序底层架构
为了更好地顺应基因测序行业发展,戴尔科技集团作为全球医疗相关行业主要解决方案提供商之一,专门针对基因测序行业提供整体解决方案:
1.算力:
高性能服务器集群——戴尔科技的HPC Ready Architecture for Genomics是一款经过测试和优化的解决方案,它涵盖了戴尔服务器、软件、网络和存储,包括各种形式的基因组数据分析所需的资源,可提高执行基因组分析的系统的吞吐量,使组织按照可预测的时间表更快得出分析结果。
2.存储:
作为经过广泛验证的数据湖解决方案,PowerScale可处理端到端的生命科学业务系统工作流中普遍存在的各种不同格式、不同大小的非结构化数据,极大提高基因测序数据的处理性能和资源利用率,实现快速精准的基因测序工作。
PowerScale的横向扩展文件系统为应用程序提供了一个高度可用的单卷单文件系统,使生命科学工作流程的每一步都可以访问数据。无论需求如何变化,PowerScale都能线性扩展性能和容量,且易于管理。
PowerScale由英特尔®至强®处理器提供支持,该处理器采用软件定义的基础设施和敏捷云架构,为PowerScale提供了卓越的性能和效率,可加速要求严苛的文件工作负载,使企业发挥数据资本的价值,加速业务的数字转型。
目前,全球已有150多家大型测序客户(包括领先的测序中心、制药公司和学术研究中心)基于PowerScale进行生命科学研究、医学诊断和药物发现,无论现在还是将来,用户的存储需求都将通过PowerScale将得到满足。
3.数据保护:
海量的基因测序数据在分析完成以后面临长期保存的要求。按照当前基因行业的监管要求和通用方式,测序数据的保存时间通常在10年以上。
针对基因行业普遍采用的用于非结构化数据存储的NAS存储方式,戴尔科技提供用于NAS保护的PowerProtect Data Manager纯软件解决方案,可用于NAS资产的集中备份和恢复。
它支持戴尔PowerStore、Unity、PowerScale NAS产品的保护,以及其他供应商(如NetApp、Windows和Linux文件服务器)使用通用NAS的任何NFS或CIFS共享。
随着人类全基因组完整序列公布,人类对自身的认识将上升到一个新高度。戴尔科技集团将继续以完整的端到端的IT解决方案,助力基因测序技术应用,解锁生命密码,增进人类健康福祉。