“与其把电力用在挖掘比特币上,不如把电力用来挖掘人类的‘知识颗粒’。”中国科学院计算技术研究所—哲源·图灵达尔文实验室主任牛钢语出惊人,人类已发表了三、四千万篇生命科学领域的专业论文,利用算法、程序和高强算力,人类能够对一个疾病进行深度的挖掘。
挖掘“知识颗粒”,与挖比特币相似的是都以算法、程序进行高强运算,形成一个个单元,不同的是,前者形成新药研发的知识单元,后者形成金融支付单元。
近日,这个与寒武纪同根同源,孵化自中科院计算所高性能计算机研究中心的团队,经重庆市经信委牵线与当地上市药企华森结成战略合作,将“知识颗粒”的挖掘应用于创新药的研发实践之中。
人工智能必不可少
不是所有的数据挖掘都是人工智能,走进人工智能时代需要颠覆性的创新实践。
寒武纪发布了全球首个搭载人工神经网络的芯片,哲源团队发挥了同样的优势,在新药创制系统中,“神经元”的训练成为一大亮点。
“瞄准新药创制,我们能够提供极大知识的驱动。”牛钢解释,之所以是“极大知识”,因为基于强大的算力,团队目前已实现可及论文、知识载体的全部挖掘。
数据的“密集恐惧症”在算力充足、算法优化的基础上,已不成问题。中科院计算所高性能中心主任谭光明表示,这是面向生命科学的第五范式的主要平台,应首先向药物研发行业释放技术价值。
例如,针对免疫系统疾病,团队将全面抓取文献,以不同研究方向形成“知识颗粒”,值得一提的是,这些颗粒是“活性颗粒”。“‘知识颗粒’将变成一个神经元。”牛钢解释,训练神经元的是现实世界中药物、基因、患者之间形成的大量事实,至此,新药创制系统中的“神经元”不仅学会了理论也经历了实践。
人工智能的特性决定了每个神经元不是孤立的。
团队已完成上万个神经元的训练。在此基础上,活性神经元之间的“关系网”自发形成,目前已经产出了400多个细胞内确定性事件基础模型,甚至可以组合出不同的肿瘤进化情况。
疾病有了“数字孪生”,创新药成本将大幅下降
“我们计划训练上百万个与疾病相关的神经元,神经元之间的联系也将对现实进行映射。”牛钢表示,当神经元覆盖到人体的全系统,人体内的发病过程将得到数字化的“再造”。
当疾病有了“数字孪生”,那么新药创制将拥有高度仿真的“演习基地”。
当下,各大制药企业也都开启了引入人工智能的手段来提升药物的筛选效率。有统计显示,一款药物从化合物到完成临床前研发已经从2—3年缩短到两个月。
“但现有人工智能的发力点多集中在少数几个肿瘤的致病基因。”牛钢认为,如果只基于肿瘤1%的信息筛选药物,那么很难提高成功率。
“数字孪生”意味着,人类有能力通过超强算力对肿瘤中突变的全部基因进行考量,而不是“抓重点”。
“算力不足时,放弃全面抓重点是没办法的事,而一旦有了人工智能的手段,加上超强算力,AI能够在新药创制时面面俱到。”中科院计算所-哲源·图灵达尔文实验室副主任、哲源科技COO赵宇认为,这也是提高新药创制成功率的关键。而提高成功率正是大大节约研发成本。
团队的目标是建立全新药物数字试验场,将新药创制的研发时间减半、投入减半,成功率提高一倍,到了临床以后有效率提高一倍。
“人类有25000个功能基因,理论上说,对它们的系列研究是可以‘穷举’的。”牛钢表示,在可预见的未来,可以实现将25000个基因的神经元全部建立起来,进行对药物、病症的数字孪生和全息筛选。