作者|郝翰 来源|动脉网(ID:vcbeat)
临近2021,北京字节跳动在某招聘网站上挂出了一个新职位——生物信息工程师。月薪20-40K,每年15薪,这样的薪资水平即使在北京也具有竞争力。
在职位描述部分,该职位主要的工作,是NGS数据流程的搭建,肿瘤NGS检测产品的设计、推广、性能验证,和挖掘数据中潜在的产品化价值和研究方向。说得简单点,字节跳动准备进军NGS,并且最终的目的,很可能是想从数据中淘金。
华为在2019年底同样挂出了两个与生物医药相关的岗位,其中之一也是基因组研发算法工程师,岗位核心职责较字节跳动更加聚焦,也直接指向用于基因组数据分析的深度学习算法开发;另一岗位则是药物研发算法工程师,瞄准计算机辅助药物设计(CADD)方法的小分子药物设计工作。
到了2021年伊始,百度创始人李彦宏牵头发起的百图生科也提出了自己的人才计划——“百万领军计划” 及 “百万青年领军” 计划,将分别用 100 万美元年薪及 100 万人民币年薪以及其他技术平台支持,吸引生物技术 + AI 技术跨界融合人才。
至此,字节跳动、华为、百度悉数入场,如果再考虑到已经在云平台和生物医药领域有深度布局的阿里和腾讯以及中科院计算所高性能中心,互联网巨头批量涌入生物医药领域,已经成为了一股大势。但这些科技企业,究竟将如何赋能生物医药这个年迈保守的产业?
谋局:高性能计算(HPC)—将计算注入医药研发
生物医药领域近两年的火热有目共睹,觊觎医疗许久的互联网大厂们自然不会放过这个绝佳的机会。但是以生物技术驱动的生物医药产业,痛点有增无减。从效果来看,研发三高 (资金大,时间长,失败率高),产品三同(试验数据同,适应症同,疗效同)的问题并未因生物技术研发而解决,反之,生物技术指向的领域极为有限,导致行业竞争愈发激烈,需要向信息领域求解,人工智能技术似乎正是医药领域苦寻多年的答案。人工智能在新药研发上的应用已经从概念验证阶段,正式进入了大面积应用层面,赋能药品全生命周期管理。从底层的医药数据库,到数据应用层面的真实世界研究;从最早期的化合物筛选,到临床试验阶段的患者招募,都能看到人工智能技术的身影。
HPC切入生物医药领域的契机,主要是在于生物医药行业多年来积累的大量数据。2020年党的十九届四中全会,将数据作为一种新型生产要素,写入了《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中,从国家层面上认可了数据的价值。并且,《意见》中还明确提出,要“推进政府数据开放和共享”,“提升社会数据资源价值”和“加强数据资源整合和安全保护”。因此围绕着数据的整理和挖掘,将会成为未来一段时间内,泛行业领域的主旋律。
医疗健康行业,由于其诊疗应用的特殊性,积累了大量的用户/患者数据。如果能将这些数据结构化,再通过深度学习算法进行挖掘,有机会为医疗健康行业产生大量有价值的洞见。这也是为什么近几年医疗大数据行业持续火热的原因。
因此,近两年AI辅助新药研发企业的产出逐渐增多,“HPC+AI+医疗大数据”的价值开始得以体现,应用场景也从化合物发现向其他领域扩展。新药研发的流程上,要经过分子发现、临床前研究、临床研究、上市后研究等多个阶段。而AI新药研发的企业,就逐渐从早期分子发现的切入点向下游扩张。
目前,已经有多家AI辅助药物研发公司在各个阶段发力,在这些AI新药研发的细分场景中,应用到HPC的环节并不在少数,其中超过95%的公司在临床前研究的化合物发现的环节中,这类应用AI应用也最为行业熟知:以往的化合物发现要依靠研发人员一个个的画分子模型,效率低下且成本高。而在人工智能新药研发的场景下,依托CADD技术,通过对药物分子数据库的深度学习,人工智能算法能从海量的分子中经过分子机制和成药可能性层层筛选,将传统方法1-2年才能完成的早期分子筛选工作,缩短到一个月左右的时间。
临床前研究的AI化合物发现作为一个已经相对成熟的赛道,国内诸如晶泰科技、深度智耀、冰洲石生物科技等企业都切入这一环节,并且已经有能力向全球级别的跨国药企提供服务。比如晶泰科技早在2018年就与辉瑞宣布了战略合作;深度智耀在2019年与中国医药签署了全面战略合作协议。
实际上,HPC在非药物研发的医疗健康领域已经找到了广泛的应用场景,对医疗机构、药械、保险等不同医疗健康产业角色提供全方位的算力支持。例如2020年大批上市的人工智能影像产品,HPC与AI算法结合,已经陆续有产品产出。其在产品的研发阶段,就需要利用HPC和深度学习算法,对影像数据集进行深度学习。
但在药物研发领域,仍然只有AI化合物发现发展相对成熟。
最近,利用AI计算蛋白质折叠有了新的突破。枚举每一种蛋白质可能存在的结构,花费的时间甚至比宇宙的年龄还要长。在强大的算法与算力的支持下,DeepMind将运算时间从数月缩短至了数小时。AI为生物学带来了极致的效率革命,这对于人类攻克癌症等疑难杂症有着划时代的意义,使得行业看到了新技术带来产业革命的机会,这将大大加速药物发现品类和速度。
要在数据洪流的时代实现重大的科学突破、分析基因组数据,应用于药物研发、疾病检测、个性化治疗,要依靠于更快、更便捷的对大型数据集进行分析处理的新型技术。过去十年间,我们使用的分析计算技术不够强大,无法分析这些关键数据。蛋白质破解的事件是一个标志,在生命科学领域取得突破性进展需要领先的HPC系统,分析和计算复杂的、散点化、非结构化的生物医学大数据。
“大数据不是数据大。大数据是基础,同时还要有挖掘数据的能力,才能最终产出洞见。”图灵-达尔文实验室副主任、哲源科技COO赵宇告诉动脉网。在数据挖掘的过程中,人工智能技术(算法)提供了数据解读的工具,但是算法效率提升的需求愈发严重,因此也牵出了另一关键要素“算力”。HPC就是算力的主要来源之一。
HPC作为一种算力基础设施,在于云计算和超算中心的广泛应用。在具体的应用上,云计算更适应于海量任务并发,但单个计算并不特别复杂的场景;而超算中心则在单一复杂问题的解决上,表现更佳。
在我国超级计算机事业发展这些年居于世界前列,世界第一的超算的地位与美国不断轮换占据,超算事业逐步从研究阶段进入全面应用层。比如中科院计算技术研究所,在二十年前就将“生物医学大数据识别”作为基础战略研究方向,依托于计算所世界级超算技术推动医疗产业变革。
全球面向医药研发的服务平台型公司已经崭露头角
当各家都集中于临床前研究时,突破舒适区并不容易,但是现在已经有头部企业开始做出这方面的尝试。比如全球范围内的知名企业Insilico medicine,如今就已经不再局限在化合物发现这一细分领域上,而是向外拓展到更复杂的药物研发全流程。
2016年Insilico Medicine在Molecular Pharmaceutics上发表论文,展示了自己对深层神经网络的研究与应用,提出可以利用转录反应数据对分子治疗的类别进行预测,也让自己一时间名声大噪。随后在2016-2019年,Insilico Medicine一直保持着自己研究成果的产出,在一级市场的融资也一直顺风顺水。2018年,药明康德领投了Insilico Medicine的战略融资,并与其就靶点鉴定、药物发现、抗衰老研究等方面达成合作。
(图片来自Insilico Medicine官网)
Insilico Medicine如今的业务已经从化合物发现外延到了新药研发全流程。其业务构成分为三大板块,分别是早期靶点发现,药物分子发现和临床试验预测。可以说像Insilico这样已经走到业界第一梯队的企业,已经有能力为医药产业提供全方位的AI新药研发服务。也正是这样的原因,德国巨头默克集团选择了Incilico作为自己的合作伙伴,将Insilico的平台整合到自己的药物发现项目中。
国内IT巨头亲自入局,商业化路径各有策略
传统的新药研发模式正在变得越来越困难。以往积累的大量的研究数据难以被人工全面覆盖;药物靶点研发和适应症选择被有限的人类经验和知识锁死;先导化合物的潜在效应和副作用难以被人工预测;多中心临床试验的人力成本越来越高。
以人类经验主导的新药研发逻辑正在精准化、高效化的研发需求下逐渐瓦解。尤其在创新药领域竞争逐渐激化的当下,这些问题促使新药研发企业必须寻找新的技术突破口,研发人员群体有从生物技术向IT部门转移的趋势,并期望借助社会上IT力量解决自身行业困局。
而IT巨头在切入生物医药行业的细分领域时,其巨头的平台基因自然涌现,主要是通过HPC支撑研发服务平台,进而赋能新药研发,或是基因组数据挖掘。尤其是人工智能新药研发领域的临床前研究,目前的发展已经比较成熟,正是对算力需求旺盛的阶段。
几家积极布局的互联网巨头中,除了字节跳动还没有涉及这一部分的业务,百度、华为、腾讯、阿里,计算所,都基于自己的云计算的建设服务平台,提供服务。切入的场景覆盖了药物分子发现、药物靶点筛选、分子动力学模拟、新抗原预测、基因组解读等多个方面。
在这一点上,百度的策略更加聚焦。医疗健康行业的产业角色之间,需求交叉点很少,因而应对于需求的解决方案也因为针对不同的产业角色而互相孤立。百度的选择是,将针对不同产业角色的提供的服务拆分,从而使自己的赋能能力更加集中。因此百度在2020年下半年推出了百图生科,从生物计算切入,赋能生物医药领域。
百图生科不是百度在推出的第一款重度垂直医疗行业产品,此前的灵医智惠已经在医院场景中找到了自己的定位,尤其在眼底筛查和基层医疗方面核心突破。2020年下半年发布的百图生科,则将自己的目光聚焦到了医药产业,定位于生物计算技术驱动的生命科学平台公司,致力于用高性能生物计算和多组学数据技术加速创新药物和早筛早诊等精准生命科学产品的研发,力图让更多疾病可预警、可控制、可治愈,实现人类百岁健康梦想。
由于AI新药研发发展的成熟度,几大科技巨头都通过自己的云平台为AI新药研发提供支撑。这些云平台一方面向AI新药研发企业开放自己的算力,帮助AI新药研发企业更快的实现自己的研发目标。另一方面,部分科技巨头逐渐不再满足于通过自己的合作伙伴对外输出,走上了自建平台,直接向医药企业提供服务的道路。
腾讯在2020年7月正式发布了自己的首个AI驱动的药物发现平台“云深智药”。脱胎于腾讯AI Lab机器学习中心,云深智药在平台服务的基础上,还为药企提供定制化的服务,满足药企针对特定靶点或数据体系的个性化需求。
有别于其他的AI新药研发平台,云深智药在小分子药物发现的基础上还增加了蛋白质结构预测的服务。2020年谷歌旗下Deepmind的Alpha系统在第14届国际蛋白质结构预测竞赛(CASP)上大放异彩,预测精度几乎接近实验方法。实际上在这一领域中,腾讯AI Lab也已经进行了多年的研究,其联合研究成果还在2020年11月登上了 Nature 子刊《Nature Communications》。腾讯AI Lab将自己的蛋白质结构预测工具定名为tFold,云深智药对外开放的,正是这一工具的公测版本。
华为EIHealth并非只面向新药研发,其覆盖的三个主要方向,基因组分析、药物研发和临床研究都是当下HPC切入的核心场景。这三大应用场景已经发展多年,并且也发展的比较成熟。药物研发自不待言;基因检测方面,Illumina和华大基因都在2018年在国内推出了自己的基因云平台BaseSpace和BGI Online;临床研究方面,影像云早已是各大云平台的标准配置,生物标志物发现也是近两年基因检测行业发展的热点之一。
在几大科技巨头组建的人工智能平台中,最年轻的百图生科却释放出了最宏大的愿景。百图生科将自己的发展设定为两个阶段,第一阶段利用前沿AI技术构建完整的生物计算平台,并与提供新的数据轴和新的数据分析、药物设计工具的初创企业与研究机构携手,构建生物计算生态,为生命科学企业和科研用户提供丰富的工具能力和完整的解决方案,做好服务。第二阶段,还将深度参与或主导发起新型精准药物和精准诊断产品的研发,携手合作伙伴,为社会贡献极具创新性的精准生命科学产品。
乍看起来百图生科的目标似乎与其他云平台切入生物医药的方式并无两样。但是“多组学数据技术”将百图生科与其他互联网巨头区分开来,这其中涉及到数据挖掘中对算力的需求情况。多维度的数据分析,对算力的需求会呈指数型增长,当数据范围最终覆盖到患者诊疗阶段中的全方位数据时,仅使用多CPU并行的HPC可能已经无法满足数据挖掘的需要,要借助“超算”才能实现医学数据的全面挖掘。
中科院计算所布局最早,平台已经初具规模。早在上世纪末,中科院计算所就开始面向生命科学布局,计算所从参与百分之一人类基因组计划开始,持续积累,以国家科研课题(NSFC、863,973,中科院重大课题,重点研发计划)为契机,将信息科学与生物医学深度交叉融合,作出了很多核心技术。在计算所高性能中心主任、中科院计算所西部高等技术研究院院长谭光明教授带领下,以国家队身份首倡“计算医学”,提出以系统论为指导思想 ,采用密集数据驱动为科研范式,以人工智能为方法,以高性能计算为支撑,通过知识模型+数据模型的双轮驱动,为生物医药领域全链条产业贡献全新洞见与解决方案。
靶点、临床、上市后研究——计算所的服务平台进入药物研发人迹罕至领域
哲源科技是由中科院计算所孵化的面向生物医药领域的人工智能企业。其研发的计算医学平台目标是建立药物研发数字试验场。虽然全流程技术均有储备,目前在三个方面展现了价值:1、发现全新的药物靶点;2、基于全新机制性标志物,为临床研究建立入排条件,设计药物联用方案以及挽救失败的临床三期;3、为上市后药物拓展新适应症。
哲源所提到的服务也正是Insilico未能触及的全新药物标志物开发,哲源正在深入医学领域,发现疾病机理机制,研究药物与真实人体的匹配。大多数行业中的企业都还在尝试借助生物计算,直接从特定细分领域的大数据中挖掘洞见。而哲源通过自建的计算医学平台将单个基因或蛋白功能的解释转向从系统生物学、尤其是细胞功能和信号通路的解释,并从中挖掘Pattern级新型机制性标志物。
实现了从生物计算到计算医学的突破,极大提高了从数据中产生新洞见的能力。“经过这些年的基础工作,我们团队已经产出了400多个细胞内确定性事件基础模型,可以组合出无数种不同的肿瘤进化情况,足以为每个疾病构造独特的数字生命方程。”赵宇说。
机制性标志物,顾名思义,不仅是标志物,还反映出机制。以FOLFOX的肝动脉灌注方案为例,该方案在部分肝癌患者中可以显著延长OS,然而临床有效患者只占30%。哲源在该案例中开发出机制性标志物,精确区分人群,明确了耐药机制,进而根据机制提出全新的联合用药方案(为药物提供了新适应症),最终结果将受益人群提高到60-80%。
在免疫治疗方面,哲源也同样展示出计算医学平台多项能力,为药物研发提供了新的思路。例如,如何使EGFR突变阳性的非小细胞肺癌患者也能从使用Pd-1/Pd-L1单抗药物上显著获益?这是当前相关领域的圣杯问题。
在理解机制的基础上,哲源提出了Pd-1/Pd-L1单抗联用不同药物,都可以帮助患者获益。这种基于机制理解设计药物联用方案的能力,为扎堆研发免疫药物的药厂提供解决方案。
在计算医学平台引导下,不同药厂可以面向不同适应症进行更专注的临床试验,不仅提高临床试验的成功率,也能找到专属自己的适应症,更容易招募患者,更能加速完成申报。
总结
面对需求和行业痛点,巨头纷纷通过重投入的基础设施建设自己的服务平台,总结来看,真正可以获得行业突破的服务平台需要符合以下特征:
(1) 深刻洞察医疗健康行业发展的方向,了解痛点的意义;
(2) 有能力了解并数字刻画疾病的本质,以及药物机制,解锁人类经验和知识的限制;
(3) 有能力建立全流程AI算法平台,为药物研发提供从药物靶点、化合物设计、 标志物开发、以及最优适应症筛选的所有工具;
(4) 拥有HPC搭建的能力,将计算构架、平台、应用直接对接到医疗实践中;
知识图谱的扩张是基础。只切入分子发现时,企业的知识图谱,只要覆盖与潜在药物分子相关的研究数据,就足够完成分子发现工作。但当其覆盖面逐步向临床研究扩张时,知识图谱就需要相应的从药学知识图谱,扩大到覆盖面更广的医学知识图谱。
算力的扩张及掌控是必要条件。知识图谱扩大到医学范围后,需要分析的数据量显著上升。因此在数据挖掘的过程中,自然也需要更高的算力支撑以及超算并行优化技术才能实现。
算法的迭代更新是方法。在有了知识图谱和算力的基础之后,企业才能开始从大数据中寻找洞见,并在不断研究的过程中,持续迭代算法。
当下各巨头凭借超高投入的云计算和超算中心,已经为人工智能技术的应用搭建好了算力基础设施。并致力于在基础设施上搭建云服务平台,随着医疗大数据的进一步扩张,药企认知进一步提升,以及对各种在精细场景下应用的需求升级,对于算力的需求也将会几何倍数扩大,对于服务平台的工具属性要求进一步提升,相应的,也需要云计算/超算中心持续提升自己的性能。
总之,无论是科技巨头,抑或是哲源科技这样的“国家队”企业,都将成为在计算医学不同方面探索和发挥的生力军,掘金生物医药产业万亿级的市场。
编者按:本文转载自微信公众号:动脉网(ID:vcbeat),作者:郝翰