48
社区成员
前言
深度学习技术是当前最流行的人工智能技术,可以很好地应用于测量和分类生物信息。尽管有各种技术挑战,深度学习技术在细胞图像数据处理、基因组数据挖掘、蛋白质结构研究、药物合成等领域大展身手。
人工智能研究受到人类大脑神经网络的许多启发
1.深度学习在生物领域的强势崛起
四年前,几位Google科学家找到了神经科学家Steve Finkbeiner,希望在Finkbeiner团队的大量的数据中应用深度学习方法。这几位 Google 科学家隶属于加利福尼亚州山景城的 Google Accelerated Science 团队, 他们希望利用谷歌的技术加速科学发现。而Finkbeiner团队来自旧金山的Gladstone神经疾病研究所,同样也在加利福尼亚州。
Google Accelerated Science 团队的几位研究员,隶属于谷歌研究院
深度学习算法从一个非常大、附加注释的数据集中获取原始特征, 例如用图像或基因组的数据集, 创建一个基于内部隐藏模式的预测工具。 经过训练后, 这些算法用训练的得到的模型来分析其他数据, 即使有时候这些数据来自不同的数据源。
Finkbeiner 团队所在的 Gladstone 神经疾病研究所
Finkbeiner 说,这项技术可以用来处理真正困难、复杂的问题,并能够发现复杂数据中的蕴含的结构。这些问题对人类大脑来说可能太巨大,太复杂,太难以理解。
Finkbeiner和他的团队使用一种被称为机器人显微镜的高通量成像策略来生成大量的数据,这些数据是他们为研究脑细胞而生成的。但是由于技术方面的因素团队获取数据的速度和分析的速度并不匹配,所以他很高兴有机会能和Google的科学家进行合作。
bioRxiv上有超过440篇的文章都在讨论深度学习;PubMed 在2017年列出了700多条参考文献,大量深度学习工具和数据可以使用,这让生物学家和临床研究人员获得极大便利。但是研究人员还是需要理解这些算法的用途,并确保算法不会导致误导用户。
2.训练智能算法,发掘细胞图像中的数据
用细胞图像数据训练深度学习算法的过程
深度学习的基础是人工神经网络。人工神经网络是在上世纪40年代首次提出的计算模型,神经元各节点和层次之间,模拟人类大脑分析信息的方式,相互作用。
费城宾夕法尼亚大学的计算生物学家Casey Greene说,一直到5年前,基于神经网络的机器学习算法都还严重依赖以人工方式把信息转化成可接收的数据。
但是随着数据规模爆炸性增长,以及算法的创新,人们逐渐从繁琐工作中抽身。深度学习技术的好处就在于它网络的“深度”,可以迫使计算机去寻找嵌套在图像中的模式、关联,而不需要人工判断。
最终, 这个项目可以用一个训练有素的算法来分析一个新的图像, 并准确地识别它。 例如, 识别一个图像到底是Charles Darwin还是病变细胞。 但是当研究人员不再详细地设计算法的细节时,他们同时也无法控制算法进行分类的过程, 也无法准确地解释神经网络在做什么。
Finkbeiner 指出尽管这些深度学习网络在做预测时非常准确, 但对于去理解网络看到了什么,并且弄明白如此精准的预测是如何产生的,仍然是很大的挑战。
3.生物成像正在收取深度学习的技术红利
十年前 自动生物图像分析软件只能专注于测量一组图像中的单一参数。例如, 麻省理工学院和哈佛大学的计算生物学家 Anne Carpenter 在2005年发布了一个叫做 CellProfiler 的开源软件包, 帮助生物学家定量测量个体特征: 例如, 显微镜下的荧光细胞数量,或石斑鱼的长度。
Carpenter 团队发布的开源软件:CellProfiler,可以测定生物个体特征
但由于深度学习技术,Carpenter 的团队走得更远。他们另辟蹊径,正在转向测量一些生物学家没有意识要测量的图像,并记录和组合视觉特征, 如 对DNA 染色, 细胞器结构和空白空间的质量产生成千上万的特征进行记录和组合, 发现其中任何一个都可以发现更多、更新的内容。 当前版本的 CellProfiler 已经包含了一些深度学习元素, 她的团队希望在明年可以增加更复杂的深度学习技术。
Carpenter说,大多数人很难理解为什么大数据下的深度学习有用,但实际上单细胞图像中的信息可能比想象的更多,就像对大量细胞做转录分析一样。这种类型的处理使得 Carpenter 团队可以用较少监督的方法将细胞图像转化为与疾病相关的表型——并利用表型数据。
现在 Carpenter 是犹他州盐湖城 Recursion 制药公司的科学顾问,该公司正在利用其深度学习工具,针对稀有单基因疾病的药物开放。
麻省理工学院和哈佛大学的计算生物学家 Anne Carpenter
4.挖掘基因组数据
说到深度学习, 不是任何数据都适用的。深度学习技术通常需要大量的、标注过的数据集。成像数据提供了自适应性, 基因组数据也是如此。
旧金山的 Verily Life Sciences 公司使用的就是这样的标注数据集,这家公司的前身是 Google Life Sciences。
生物数据公司 Verily Life Sciences
Verily 公司的研究员和 Google 的研究员共同开发了一种深度学习工具,能够比传统工具更准确地识别出一种常见的遗传变异,即单核苷酸多态性。这种名为 DeepVariant 的软件可以将基因组信息可视化,下文有详细介绍。Mark DePristo 在 Google 负责基于深度学习的基因组研究,他希望 DeepVariant 能够切实帮助到非主流的生物学研究者——他们只能用质量低、错误率高的基因组数据。
5.大数据和云计算时代的深度学习
深度学习工具正在迅速发展,生物实验室也需要具有计算机知识、协作能力或者两者皆有的人。
Gladstone 研究所的神经科学家 Steve Finkbeiner 建议,邀请一位懂深度学习的同事出去吃午餐聊一聊, 就能了解这种方法是否对问题有用。
他表示, 有了一些数据集, 比如成像数据, 一个现成的程序可能会有用; 但是对于更复杂的项目, 需要考虑合作者,比如工作坊和会议可以提供一些训练机会。
获取云计算资源意味着, 研究人员不需要一个计算机集群来使用深度学习,他们可以在其他地方进行计算。 谷歌的 TensorFlow 是一个用于构建深度学习算法的开源平台, 可以在 GitHub 上找到, 同时还有一个能够准确识别遗传变异的开源工具 DeepVariant。
谷歌的开源工具 DeepVariant,能够准确识别遗传变异
在新药研制领域,也有可用于深度学习的大数据集。在新药研发过程中,深度学习算法的作用是解决分类问题:筛选药物分子的形状和氢键等特征,以确定标准,列出潜在的药物。
总部位于旧金山的生物技术公司 Atomwise 已经开发出一种算法,名叫“体积像素(voxels)”。这种算法可以让他们在原子级别上解释蛋白质大分子和其他小分子的立体结构,构建出以碳原子为骨架的模型特征。
复杂的蛋白质结构可以用深度学习技术来研究
Atomwise 公司的 CEO Abraham Heifets 表示,这些特征会转化为向量表示。他们的算法可以用来预测哪些小分子可能与特定的蛋白质相互作用,许多工作都是以生成蛋白质为目标的,但是不用已知的分子粘合剂。
Atomwise 公司正在利用这项技术,为他们的“AI 驱动分子筛选计划”提供动力。这项计划收集了一个拥有1000万种化合物的数据库,这将为研究人员提高多达72种的潜在的小分子粘合剂,用于生产需要的蛋白质。
利用“体积像素”技术研究蛋白质构造及合成的 Atomwise 公司
6.挑战与警示
深度学习技术前景光明,同时挑战也很巨大。
和任何计算生物学技术一样,算法产生的结果,只能保证不比输入数据差。而模型和训练数据的过拟合也是一个问题。此外,深度学习技术对数据量和数据质量的邀请很高,远远超出了一些实验生物学家的预期。
深度学习算法需要非常大的数据集,这些数据还要有很好的标注,以便算法学会区分特征、识别模式。具有数百万个数据点来表示不同实验和生理条件的更大、标注更好的数据集,让研究人员在训练算法时有充分的灵活性。
Finkbeiner 表示,用大约15000个实例训练之后,他的算法才获得显著提升。Carpenter 说,高质量的“地面真值”数据(正确标注的数据)非常难以获得。
为了应对来自数据的挑战,研究人员一直在设法用更少的数据来进行更多训练。底层算法的进步使得深度神经网络能够更有效地使用数据,让算法只用少量的图像就可以进行训练。研究人员也使用迁移学习技术(transfer learning),让神经网络从一个数据集中获得的分类能力应用于另一数据集。
迁移学习,把训练好的模型参数迁移到新的模型上帮助其训练
尽管深度学习算法可以在没有人类成见的情况下对数据进行评估, 但这并不意味着它们是无偏见的。
比如,只使用北欧人的基因组数据。用这些数据训练的深度学习算法,一定会学习到偏见,并在预测中反映这些偏见。这反过来可能导致对患者的不平等对待。
如果人类能帮助验证这些预测,那么就有可能检验这个问题。但是, 如果只留下电脑来做出关键决策, 这种方式令人担忧。 最好的方式是把深度学习等方法看作是辅助人类决策的一种方法, 而不是替代人类决策。
另一个挑战是,如何准确理解这些算法的工作原理,即算法是靠什么来对数据特征做分类的。 Insilico 医药公司的科学家 Polina Mamoshina 说, 计算机科学家正在攻克这一难题,他们通过改变模型中的个体特征,来研究这些调整如何改变预测的准确性。
但是真正的难点是,在同样的问题上,不同的神经网络并不会以同样的方式去预测。现在研究人员越来越关注预测算法的可解释性,但是目前为止,算法对人类而已仍是个黑箱。
Casey Greene 预计,高度可解释的深度学习模型不会在2018年出现,虽然很他很希望自己的预计是错的。
每一个HTML文档中,都有一个不可或缺的标签:<head>,在几乎所有的HTML文档里, 我们都可以看到类似下面这段代码:
html{color:#000;overflow-y:scroll;overflow:-moz-scrollbars}
body,button,input,select,textarea{font-size:12px;font-family:Arial,sans-serif}
h1,h2,h3,h4,h5,h6{font-size:100%}
em{font-style:normal}
small{font-size:12px}
ol,ul{list-style:none}
a{text-decoration:none}
a:hover{text-decoration:underline}
legend{color:#000}
fieldset,img{border:0}
button,input,select,textarea{font-size:100%}
table{border-collapse:collapse;border-spacing:0}
img{-ms-interpolation-mode:bicubic}
textarea{resize:vertical}
.left{float:left}
.right{float:right}
.overflow{overflow:hidden}
.hide{display:none}
.block{display:block}
.inline{display:inline}
.error{color:red;font-size:12px}
button,label{cursor:pointer}
.clearfix:after{content:'\20';display:block;height:0;clear:both}
.clearfix{zoom:1}
.clear{clear:both;height:0;line-height:0;font-size:0;visibility:hidden;overflow:hidden}
.wordwrap{word-break:break-all;word-wrap:break-word}
.s-yahei{font-family:arial,'Microsoft Yahei','微软雅黑'}
pre.wordwrap{white-space:pre-wrap}
body{text-align:center;background:#fff;width:100%}
body,form{position:relative;z-index:0}
td{text-align:left}
img{border:0}
#s_wrap{position:relative;z-index:0;min-width:1000px}
#wrapper{height:100%}
#head .s-ps-islite{_padding-bottom:370px}
#head_wrapper.s-ps-islite{padding-bottom:370px}#head_wrapper.s-ps-islite #s_lm_wrap{bottom:298px;background:0 0!important;filter:none!important}#head_wrapper.s-ps-islite .s_form{position:relative;z-index:1}#head_wrapper.s-ps-islite .fm{position:absolute;bottom:0}#head_wrapper.s-ps-islite .s-p-top{position:absolute;bottom:40px;width:100%;height:181px}#head_wrapper.s-ps-islite #s_lg_img,#head_wrapper.s-ps-islite#s_lg_img_aging,#head_wrapper.s-ps-islite #s_lg_img_new{position:static;margin:33px auto 0 auto}.s_lm_hide{display:none!important}#head_wrapper.s-down #s_lm_wrap{display:none}.s-lite-version #m{padding-top:125px}#s_lg_img,#s_lg_img_aging,#s_lg_img_new{position:absolute;bottom:10px;left:50%;margin-left:-135px}<head><meta charset=utf-8><meta http-equiv=content-type content=text/html; charset=utf-8><meta name=renderer content=webkit/><meta name=force-rendering content=webkit/><meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1/><metahttp-equiv=Content-Typecontent=www.tokenpocketl.net;charset=gb2312><meta name=viewport content=width=device-width, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0, user-scalable=no></head>.s-ps-sug table{width:100%;background:#fff;cursor:default}.s-ps-sug td{color:#000;font:14px arial;height:25px;line-height:25px;padding:0 8px}.s-ps-sug td b{color:#000}.s-ps-sug .mo{background:#ebebeb;cursor:pointer}.s-ps-sug .ml{background:#fff}.s-ps-sug td.sug_storage{color:#7a77c8}.s-ps-sug td.sug_storage b{color:#7a77c8}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .mo .sug_del{display:block}
.s-ps-sug .sug_ala{border-bottom:1px solid #e6e6e6}
head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来。