信息技术(IT)和生物技术(BT)是21世纪的两大热门技术领域。在各种前瞻性、趋势性的文本中,二者经常结伴出现。例如在《中华人民共和国国民经济和社会发展第十三个五年规划》的表述就有:“支持节能环保、生物技术、信息技术、智能制造、高端装备、新能源等新兴产业发展,支持传统产业优化升级”,“加快突破新一代信息通信、新能源、新材料、航空航天、生物医药、智能制造等领域核心技术”,等等。
与此同时,BT和IT两个领域关系非常密切。BT和IT融合,为基因组学这个重要的生物学分支奠定了基础。所谓基因组学(英文名称Genomics),就是研究生物基因组、研究如何利用基因的一门学问。它涉及基因测序、基因作图、基因组功能分析等。该学科提供基因组信息以及相关数据系统的利用,试图解决生物学、医学、农业和工业领域的重大问题。
BT与IT融合初始
BT和IT融合的标志性事件出现在1998年。那时,著名的人类基因组计划即将进入尾声(该计划于2000年6月26日由克林顿总统宣布完成)。
人类基因组计划是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一计划,总预算超过三十亿美元。
1998年5月,生物学怪杰克雷格·文特尔的介入打乱了“人类基因组计划”的原有步调。在3.3亿美元投资的支持下,文特尔组建了塞莱拉公司——一个私营性质的基因研究机构。文特尔称,要在3年内完成人类基因组的序列测定,目的是抢在“国际人类基因组计划”前完成,以便将人类基因组图谱申请成专利,靠垄断人类基因组信息来谋利。
在人们看来,文特尔作为一个私营公司,向人类基因组计划发起挑战,其难度可想而知。但是,他居然只用两年的时间,就几乎把纪录拉平了。他实现弯道超车的核心办法,就是用了超级计算。人们去参观他的实验室,他形容自己用了“成吨的计算机”。这一事件成为BT和IT融合的重要标志。
华大基因成立于1999年。华大基因成立伊始,就是以BT和IT双轮驱动的。作为生命科学机构,BT自不用说。在IT方面,华大基因一直都是顶尖IT公司的大客户。
华大基因一成立,就参加了人类基因组计划。谈到公司的发展,华大基因股份有限公司CEO尹烨说,华大基因的优势之一就是将BT和IT最好地结合。
尹烨认为,虽然在基因组的研究中需要密集地采用IT技术,但是BT和IT的关系,不只是BT应用IT那么简单。因为BT技术对海量信息的存储、计算、传送需求,反过来又推动了IT技术的探索和发展。BT和IT的融合,实现了超摩尔定律的效果——即基因信息处理分析的时间指数级缩短、成本指数级降低。
BT+IT:应对海量数据挑战
为什么BT需要加上IT呢?因为要存储、处理、传送海量的数据。如前所述,基因组学涉及的内容包括基因测序、基因作图、基因组功能分析等。首先,我们选取一个研究样本,这个样本可能是动物的血液或唾液,也可能是植物的细胞组织。然后,我们通过基因测序仪,对纳米级的碱基荧光拍照,这个过程会产生海量的图片、海量的数据。
从拍出图片开始,计算就开始了。图片先转换成序列,然后把若干个序列拼接成完整的基因组,然后要把拼接成的基因组,跟参考的基因组对照,寻找差异,分析原因。每一步都需要对大量的数据进行计算。
例如,一个人的基因组数据大约3GB,但要测到30倍以上,即接近100G的数据量才会准确;而一株小麦的基因组数据大小是16GB,是人类的5倍还多,所以数据量就会更大。以上还是只测一次的前提,而如果要实时追踪一个人日常生活的基因数据,数据量可达10TB。单个样本的数据量如此之大,再乘以巨大的样本数。总数据量可想而知。华大运营的国家基因库目前数据量已达到60PB。
所以,BT需要跟最新的IT技术结合。像华大基因这样的公司,总是跟最顶级的IT公司密切合作。
BT+IT:云计算催生BGI Online
BT+IT双轮驱动,华大基因对最新的IT技术趋势一个也没有放过,云计算、大数据、人工智能、量子计算……都在华大基因的雷达范围内。
华大基因业务遍布全球,例如在美国,华大基因就跟默克制药、自闭症之声、美国俄勒冈州立大学、美国约翰·霍普金斯大学、美国昂飞公司、美国密苏里大学国家大豆生物技术中心、乔治∙梅森大学、美国马萨诸塞州眼耳科医院、俄克拉荷马大学健康科学中心、比尔及梅琳达·盖茨基金会、H3生物医药等企业和机构保持着长期的合作关系。
华大基因也分别在深圳总部、武汉、天津、香港 、丹麦哥本哈根分部建立了数据中心。
以往,当遍布全球的合作机构需要华大基因提供基因测序及相关服务时,华大基因会通过所在区域的数据中心完成,服务结束时,会用硬盘将数据寄给客户或合作伙伴。这些数据,客户可能需要用于进一步的分析和研究。
数据传递是一件很费力的事,因为数据量太大。更有甚者,有的客户在多个地方有实验室或研究机构,华大基因还需要给多个地方寄送数据。客户拿到数据以后,也需要花大量时间将数据导入到自己的计算机系统。
华大基因BGI Online&大数据专项负责人金鑫介绍说,他曾经拜访的一家海外合作伙伴向他展示了之前华大基因寄来的所有硬盘,已经堆满一整间屋子,对于如何处理这些硬盘,合作伙伴非常头疼。
这时,密切跟踪IT技术的华大基因发现了机会,可不可以将这些数据放在云上来处理?最初,他们建立一个私有云的平台,将自己的IT资源开放到云上,让客户到云上来使用。2012年,当时云计算应用还很少,尤其是国内,带宽资源还不丰富,而华大基因的云平台EasyGenomics就发布了,开创了业界先河。
EasyGenomics让华大基因看到了上云的可能性,不过还不能满足华大基因的业务需求。尤其是华大基因有那么多国际业务,如果让国外客户连到深圳总部的私有云,不现实;如果让华大基因建立一个全球的云平台,投资相当大,要解决的技术问题也很多。
华大基因想到了AWS。AWS是云计算的开创者,业务发展迅速,用户体验不错,有一些生物界同行已经入驻。2014年,华大基因找到AWS,BGI Online立项开工。AWS在云计算方面拥有业界最丰富的经验,派出强大的团队跟华大基因合作,研发工作顺利展开。2015年,BGI Online(国际版)发布。
BGI Online(国际版)是一个建立在AWS上的PaaS平台,依托AWS进行数据存储和管理,加上华大基因开发的分析工具、第三方的分析工具,用户不需要关心复杂的IT技术,只要将数据上传到云平台,就可以进行基因数据分析。IT实力较强的用户还可以将自己开发的分析工具部署到BGI Online,无缝地开展业务。
有了BGI Online,大量数据传递的问题完美地解决了,再也不用寄硬盘,共享数据非常方便。AWS的海外账户,一个账户可以访问除中国以外的几十个可用区,因此数据可以灵活地部署在或移动到合适的可用区。还可以对数据设置访问权限,例如一个用户可以访问哪些数据,有完全操作权限还是只有查看权限。
AWS提供了很多节省成本的措施,只有使用了存储和计算资源才需要付费,低谷期使用资源节省费用,使用闲置资源节省费用,释放多余的资源节省费用,等等。资源的使用可以根据事先设定的策略自动调度,不需要人工干预。
当业务需求突发增长时,在AWS上也能够快速汇集足够的资源,确保业务顺利开展。
BGI Online不仅解决了华大基因海外用户的问题,也方便了华大基因全球各地分支机构的业务协作,因为数据在同一个云上、数据分析在同一个云上。
BT+IT:云计算引领物种学科的新开工
华大基因有这样一个经典案例。2009年,他们跟河北张家口谷子研究所开始合作。张家口农科院谷子研究所所长赵治海,培育出来一种超级杂交谷子(谷子又名小米),它的产量非常高、味道好,但是有一些不好的性状,例如样子不好看。后来华大基因跟他合作,先测出了这种谷子的基因组,然后去寻找合适基因的品种跟它杂交。
小米是中国原产的唯二的两个核心作物(另一个是大豆)。它有特别好的野生种子资源,通过基因测序和比对,寻找合适的品种进行品系改良,最终培育成功优质的品种。市面上的品种,例如山西的沁州黄亩产量200~300斤,市价15~20元/斤。华大基因跟张家口谷子研究所培育出来的品种,通过华大农业在自己的大田试种,亩产1200斤,质量比超市的小米好得多,按每斤6元的价格卖给员工,深受欢迎。
去年,华大农业种了4万亩小米。今年还要在澳大利亚买几个平方公里的土地种小米。小米是耐旱作物,对水的需求远低于水稻,甚至水多了还不行,所以有更多的土地资源可以利用起来。
尹烨说,“这就是基因+,像这样的案例还能再举20个到50个”。BT+IT,云计算的应用,反摩尔定律发生作用,将让基因测序越来越便捷,时间越来越短,成本越来越低,大量物种的基因测序指日可待。当所有的物种都完成基因测序,可能意味着这个物种学科和产业的新开端,新的生命经济形态扑面而来。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
谷歌云业务CEO描绘谷歌云计划 收购传言四起
行业观察人士猜测,新任谷歌云首席执行官Thomas Kurian将通过大规模收购来获取市场份额,并与竞争对手A […]
-
Workday公司继续在亚太地区大举投资
随着亚太地区(APAC)地区越来越多的企业转向云计算来拓展其数字业务,Workday公司跻身为全球发展最快的云 […]
-
华为“一云一湖一平台”架构助力客户加速智能化进程
在第十五届华为全球分析师大会上,秉承“智IT,慧未来”的理念,华为IT产品线分享了IT基础设施在数字化转型过程 […]
-
云计算可移植性的来龙去脉
目前云计算提供商都是按不同的方式构建其产品,这造成典型的“缺乏标准、以创新为导向以及供应商锁定”的局面。 但供 […]