安全发现潜在药物的神经网络可以鼓励大规模收集敏感数据。
技术

麻省理工学院的研究人员开发了一种密码系统,可以帮助神经网络识别大量药理学数据集中有前途的候选药物,同时保持数据私有。如此大规模的安全计算可以广泛地汇集敏感的药理学数据,用于预测药物的发现。

药物靶向相互作用数据集对帮助研究人员开发新药物至关重要


药物靶向相互作用数据集(DTI)这表明候选化合物是否作用于靶蛋白,对帮助研究人员开发新药物至关重要。可以训练模型处理已知DTI的数据集,然后,利用这些信息,寻找新的候选药物。

近年来,制药公司,大学,其他实体已经开放,可以将药理数据汇集到更大的数据库中,从而大大改善这些模型的培训。由于知识产权问题和其他隐私问题,然而,这些数据集的范围仍然有限。

保护数据的加密方法计算量很大,无法很好地扩展到数据集之外,说,数万DTI,相对较小。

在《科学》杂志上发表的一篇论文中,麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员描述了一个在100多万dti数据集上安全训练和测试的神经网络。

现代密码工具和优化技术


该网络利用现代加密工具和优化技术来保持输入数据的私密性,在规模上快速高效地运行。

该团队的实验表明,网络比现有的方法执行得更快、更准确;它可以在几天内处理大量数据集,而其他加密框架则需要几个月的时间。

此外,网络识别出一些新的交互作用,包括白血病药物伊马替尼和一种与癌症相关的酶erbb4突变之间的一种酶,这可能具有临床意义。

“人们意识到他们需要收集数据,以大大加快药物发现过程并使我们能够,一起,科学解决重大人类疾病,比如癌症或者糖尿病。

“高效地大规模收集和分析数据”


“但是他们没有很好的方法,“通讯作者邦妮·伯杰说,西蒙斯数学教授和CSAIL的首席研究员。“有了这项工作,我们为这些实体提供了一种方法,可以在非常大的范围内有效地收集和分析其数据。”“

本文中加入Berger的是联合第一作者Brian Hie和Hyunghoon Cho,电气工程和计算机科学的研究生和CSAIL计算和生物学组的研究人员。

“秘密共享”数据


这篇新的论文建立在研究人员在基因组研究中保护患者机密性的先前工作的基础上,这发现了特定的基因变异和疾病发生率之间的联系。基因组数据可能揭示个人信息,因此患者可能不愿意参加研究。

在那项工作中,伯杰Cho一名前斯坦福大学博士生开发了一种基于“秘密共享”的密码体系框架的协议,它安全有效地分析了一百万个基因组的数据集。相反,现有的方案只能处理几千个基因组。

秘密共享用于多方计算,其中敏感数据被划分为多个服务器之间的单独“共享”。在整个计算过程中,每一方将始终只拥有自己的数据份额,这看起来完全是随机的。

共同地,然而,服务器仍然可以对底层私有数据进行通信和执行有用的操作。在计算结束时,当需要结果时,双方结合他们的股份来公布结果。

“我们利用之前的工作作为基础,将秘密分享应用于药理学协作问题,但它在货架上就坏了,“伯杰说。

减少培训和测试所需的计算


一个关键的创新是减少培训和测试所需的计算。现有的预测药物发现模型将DTI的化学和蛋白质结构表示为图形或矩阵。188betsport

这些方法,然而,四次标度,或平方,数据集中的DTI数目。基本上,随着数据集大小的增长,处理这些表示变得非常需要计算。

“虽然这对于处理原始数据可能很好,如果你在安全计算中尝试这个方法,这是不可行的,“Hie说。

研究人员训练了一个依赖线性计算的神经网络,使用数据进行扩展的效率更高。“我们绝对需要可扩展性,因为我们正试图提供一种将数据集中到更大数据集中的方法,“Cho说。

研究人员在缝合数据集上训练了一个神经网络,它有150万dtis,使其成为同类最大的公开数据集。在训练中,网络将每个药物化合物和蛋白质结构编码为一个简单的载体表示。

这基本上将复杂的结构浓缩为计算机可以轻松处理的1和0。从这些向量中,然后,网络学习交互和非交互的模式。喂养新的化合物和蛋白质结构对,然后网络会预测它们是否会相互作用。

为提高效率和安全性而优化的体系结构


该网络还具有一个为效率和安全性而优化的体系结构。神经网络的每一层都需要一些激活函数来决定如何将信息发送到下一层。

在他们的网络中,研究人员使用了一种有效的激活函数,称为整流线性单元(relu)。此函数只需要一个,对交互进行安全的数值比较,以确定是否将(1)数据发送到下一层,同时也从不透露任何关于实际数据的信息。

与更复杂的函数相比,此操作在安全计算中更有效,因此,在确保数据隐私的同时,它减少了计算负担。

“重要的原因是我们希望在秘密共享框架内实现这一点……而且我们不希望增加计算开销,“伯杰说。最后,“没有显示模型参数,所有输入数据-药物,目标,和互动——保密”.

寻找互动


研究人员将他们的网络与几个最先进的技术相抗衡,Drugbank已知DTI的一部分上的明文(未加密)模型,一个流行的数据集,包含大约2个,000个DTIS。除了保持数据的私有化,研究人员的网络在预测精度上优于所有的模型。

只有两个基线模型可以合理地缩放到缝合数据集,研究人员的模型的精确度几乎是这些模型的两倍。

研究人员还测试了针法中没有列出相互作用的药物靶对。并发现了一些临床上确定的药物相互作用,这些药物相互作用并未在数据库中列出,但应该在数据库中列出。

在本文中,研究人员列出了最有力的预测,包括:Droloxifene和雌激素受体,作为乳腺癌的一种治疗方法,它已进入第三阶段临床试验阶段;和seocalcitol和维生素D受体治疗其他癌症。CHO和HIE通过合同研究组织独立验证了得分最高的新互动。

这项工作可能会对预测性药物发现产生革命性的影响,阿耳特弥斯·哈齐吉欧说,希腊塞萨利大学生物信息学教授。

从患者数据中检索前所未有的大数据集


“进入了药物遗传学大数据时代,第一次有可能从患者数据中检索到这种前所未有的大数据集。类似于人脑的学习过程,人工神经网络需要大量的数据来提供自信的决策,“Hatzigeorgou说。

“现在有可能利用数以百万计的数据来训练一个人工神经网络,以识别未知的药物靶相互作用。在这种情况下,这一经过训练的模型在药物发现方面优于所有现有方法,这并不奇怪。”“

下一步,研究人员正与合作伙伴合作,在现实环境中建立合作渠道。“我们有兴趣建立一个安全计算的环境,所以我们可以用真实的数据运行我们的安全协议,“Cho说。

//www.bjgzb.com/wp-content/uploads/2018/10/a-aaacry2.jpg//www.bjgzb.com/wp-content/uploads/2018/10/a-aaacry2-300x300.jpg戴维奥里奥登技术人工智能,癌,数据,MIT
麻省理工学院的研究人员开发了一种密码系统,可以帮助神经网络识别大量药理学数据集中有前途的候选药物,同时保持数据私有。在如此大规模的安全计算可以使敏感的药理学数据广泛地汇集在一起,用于预测药物发现。