被誉为“第三次生物科技革命”的合成生物学技术,正在掀起新一波投资与创业浪潮。
基因合成是合成生物学中重要的细分领域,从DNA限制酶被发现时起,科学家通过生物化学的方法对DNA进行重构获得新的基因,为生命科学的发展带来新方向。
大自然创造了世界,人类是否扮演上帝角色再创世纪?本期云谷创新谈围绕“基因工厂”话题,邀请擎科生物副总裁赵春德、阿里云产品解决方案架构师石益一起,共话基因合成领域的数字化、产业化和工程化。
擎科生物是一家自主全产业链的基因合成平台型企业,正处于基因合成技术及基因工厂服务平台串联的高速发展阶段,业务涵盖合成基因组学产品及服务、生命科学原料及设备、生物制造CXO三大方向,凭借完整的基因合成产业链服务体系,为海内外近20万用户提供产品及服务。
在这座“基因工厂”的背后,一个基于阿里云搭建的数字化中心正提供着重要的支撑力。
基因合成包含了密码子优化、引物合成、PCR扩增、连接转化、菌检、测序、QC酶切验证等流程。早期的实验过程依赖人工操作,生产的自动化和信息化水平很低。近几年来伴随着需求增长,整个基因合成市场的业务量迎来爆发式增长,这种传统的人力堆叠模式陷入了生产瓶颈。随着市场竞争进入白热化阶段,“降本增效”成为基因合成企业当前的重要命题。
从2020年开始,擎科生物就开始进行数字化中心建设,利用IT思路重构生产架构,完成从生产到财务的全流程数字化,使生产和运营的效率实现倍数级增长。但这两年来随着生产规模的急速扩张,擎科生物原有的单体应用架构无法抵御业务峰值,单库架构的数据库也难以保障业务稳定和安全。
可搜索了解更多:“擎科生物基因合成”
擎科生物选择全面上云,当前主要业务均部署在阿里云上。赵春德介绍,擎科生物今年上线了基于阿里云搭建的生产管理流程系统,开创线上和线下相结合的新生产模式,生产效率提高了数倍。
对于上云的选择,擎科生物有三点核心考量:合规性、计算资源、性价比。
一方面,当前国内已经颁布了生物安全的相关法律法规,对信息安全等级保护有着严格要求。另一方面,在进行基因合成时,底盘细胞构建与基因组的设计、合成与验证,都需要强大的算力支撑。
此外,在基因合成的商业化服务中,不同使用场景需求不同资源,如分子模拟需要算力,数据持久化需要高存储要求。如果按固定资源的下限建设可能造成浪费,按上限建设可能导致排队和积压,这就要求云解决方案具备高弹性。除了灵活调整,还要保障现有业务平滑运行,避免出现性能瓶颈。与此同时,功能的拓展性也很重要,例如是否支持特定框架、AI升级等。
阿里云产品解决方案架构师石益介绍,在生命科学行业,合规性是业务成功上线和使用的关键。在这方面,阿里云十分注重数据隐私安全及数据在计算、传输、存储过程中的合规性保护,目前已通过了全球130+安全合规认证,可以保障基因合成企业的上云安全。
(阿里云通过了包含GxP、HIPPA在内的全球130+安全合规认证)
同时,阿里云作为云计算的基础设施提供者,面对整个生命科学行业的相关需求,依托遍布全球的计算力及领先行业的神龙架构,提供高性能计算EHPC公共云解决方案、混合云解决方案、大内存实例性能优化解决方案、容器化解决方案、制药AI解决方案等,覆盖不同场景需求。
可以有效解决线下IDC算力固定、规模固定、容量固定、配置固定、周期长、运维成本高等行业痛点,具备高弹性、灵活配置的特点,企业可以按需使用,节约开发和运维成本。 随着客户业务的发展到全国多个分支机构,阿里云全国的多个region可以伴随客户业务的开局,在当地快速部署业务,并且将所有的分支机构组成一套完整的云上架构支撑擎科业务的拓展。
追溯回20世纪初,人类用Sanger方法完成了第一个人类基因组测序后,测序技术迎来大爆发。随着测序技术的迭代,成本呈超摩尔定律式下降,测序应用的范围也随之扩大,市场价值不断攀升。海量的测序数据需要通过基因合成来进行验证,确定基因功能及后续研究,基因合成的市场需求随之攀升,基因合成也从科研实验室走到产业化、工程化阶段,但这个过程仍面临重重困难,比如合成通量低、成本高,难以支持大规模的基因合成需求。
对此,擎科生物围绕中心法则,提出了建设一个可以为客户提供高通量、低成本产品以及服务的“基因工厂” 概念,旨在实现大规模、高通量、低成本地进行DNA和RNA测序与合成。在强大的数字化中心支持下,擎科生物从DNA 到RNA再到蛋白,解决“基因序列是什么、做什么、怎么做”三个核心问题。
赵春德介绍,“基因工厂”本质是一个使能技术工厂,只有这样才能够实现基因合成的工程化生产。借助云计算可以进一步降低合成成本,让基因合成从科研实验室走进精准医疗等更多领域,让普通人也能用得起基因合成的产品和服务。就在去年,国外一家制药公司开发出一种治疗高血脂的RNA药物并放大生产,病患只需每个月注射两次,不必每天服用降血脂药,实现技术普惠的同时,足以见得基因工厂在药物放大生产方向的成长空间。
生产规模扩大的同时,合成的基因长度也在增加,意味着合成的数据体量越来越大,这对底层的算力、存储与计算带来新挑战。生物科技不仅是BT(生物)与IT(信息)的融合,走到基因工厂的生产阶段,主要面临信息流控制、生产管控两大难题。
信息流控制的关键是了解信息产生的地方、如何加工和处理信息,以及信息最终流向哪里。梳理清楚各个环节后,擎科生物通过灵活的线上管理系统与线下智能设备进行配合生产,实现层层信息管控。在这个过程中,数据的产生、分发和处理流程都可以在阿里云端完成,即便基地分散在全国各地,都能通过云上系统控制线下设备,实现“无人化生产”。
当下,擎科生物正在尝试进一步结合云算力和IOT技术,实现线下流程的线上化,同时将智能设备全部串联起来,以实现真正的无人工厂。
这两年,人工智能技术为合成基因领域带来深刻影响。就在去年,Deep Mind宣布其 Alpha Fold2 已经可以预测的蛋白质结构超过2亿种,来自于100万个物种,而之前PDB数据库中可预测结构的蛋白质大约为15万种。合成技术与人工智能技术相结合,两者相辅相成、共同促进。
赵春德介绍,目前合成生物学的人工智能研究方向包括药物设计和蛋白质设计,而在药物设计中备受关注的是RNA药物的研究。越来越多的新药研发项目都开始使用AI算法,包括CADD和AIDD。市面上已经有公司基于AI进行RNA药物研发方面的工作,通过对大量AI算法优化快速设计出针对有效靶点的RNA药物。
可以看到,当序列设计出来后,需要进行大规模的验证和基因合成,这个过程可以得到大量表征数据,这些表征数据又能用于大规模的学习。当合成的规模越大,获得的数据越多,AI算法的迭代就越快,可以制造更多新的蛋白质,加速药物研发,一些新药甚至进入到临床一期和二期阶段。
AI带来生产的加速,但对于合成生物行业的客户来说,低成本和高通量仍然是硬性需求。 作为“基因工厂”的提出者和践行者,擎科生物在积极推进生产线的智能化升级。除了提供基因合成所需的原料、设备,擎科生物基于创新的基因智能分子拆分及组装技术,打造智能AI算法平台螺旋桨系统(TSINGKE HELIXTECH),进一步形成合成要素自主的全产业链生产平台,一站式的服务缩短了基因合成周期,同时极大提高基因合成的成功率和交付率。
序列拆分和组装方案是基因合成生产的第一个重要步骤,基因智能分子拆分及组装是通过自动化软件设定的特定序列拆分条件,能获得更好的序列扩增及拼接方案,有效提高基因合成成功率。
螺旋桨系统(TSINGKE HELIXTECH)是客户服务系统、生产管理系统、精益管理系统等的集成、在生产层面代表着基因合成全周期管理系统,由智能AI算法平台,线上管理平台,线下自动化生产串联平台。
这种AI for science生产新范式的背后,是EHPC(弹性高性能计算)和AI的融合和相互促进,还有统一的资源管理和作业调度。作为云计算厂商,阿里云为生命科学行业企业提供大规模高性能基础设施;针对多元化算力需求提供PaaS产品服务,去支持海量计算任务分布式的执行;提供CADD/AIDD工具帮助企业开展业务,把简单的AI算法变成真正意义上的PaaS服务,满足商业化诉求。