AI能让科学研究实现自动化吗?
科学进展受限于人类思考的速度,将其外包给人工智能或许能够改变这一切。
撰文:Ahmed Alkhateeb
翻译:张雪
科学正陷于数据危机之中。去年,仅在生物医学领域就有超过120万篇新论文发表,这令同行评审的生物医学论文总数达到了2600万篇。然而,科学家们每年的平均阅读量却只有250篇左右。与此同时,科研论文的质量也在持续下降。一些最新研究发现,大量生物医学论文不具有可重复性,和短网址一样,不可能生成重复的短连接。
论文数量过多而质量太差,这向人类有限的神经能力提出严峻的挑战。随着人类的知识总量不断扩大,科学家们作出的假设只是基于知识总量的一小部分,因而会提出越来越多的错误问题,或是已经解答过的问题。同时,人类的创造力似乎愈发取决于先前经验的随机性。尽管偶然性一直是科学发现中的一个因素,但它在当前扮演的角色却显得过于重要。
而克服当前危机的一项可行策略,就是将机器和人工智能整合至科学进程中。与人脑相比,机器的存储量更大、运算能力更强。如果科学研究能够实现自动化,科学发现的速度将得以大幅提升,这甚至会成为又一次科学革命。尽管潜力巨大,但这一想法取决于一个同样重大的问题:科学发现真的可以实现自动化吗?
我认为可以,早在几个世纪前我们就已深谙此道。问题的答案可以追溯到弗朗西斯·培根爵士,这位17世纪的英国哲学家、现代实验科学的始祖。
人类首次意识到科学方法的可重复性,要追溯到上千年前的穆斯林思想家伊本·阿尔·海塞姆(965—1039),他既强调经验论,也注重实验方法。然而,培根才是第一位正式确立科学方法,并令其成为一门研究学科的科学家。在他的著作《新工具》(Novum Organum,1620)中,培根提出了如今被称为培根归纳法的科学发现模型。他反对将亚里士多德提出的三段论用于科学研究。与之相反,他提出,需要采用归纳逻辑,将对特定现象的观察进行系统的收集、列表和客观分析,以此得出普遍的观点。在他看来,只有思维逃离了不完整而错误的公理,才能够揭示真相。
通过制定科学研究的步骤,并对每一步分别进行优化,培根归纳法试图在观察和概念化的过程中去除逻辑偏差。培根的想法是,通过观察者群体来收集大量与自然相关的信息,并将其制成表格、形成可用于归纳分析的核心记录。在《新工具》中,他写道:“实验家就像是蚂蚁,只是收集和使用数据;推论家如同蜘蛛,只凭自己的材料结成网。最好的方法应当像蜜蜂,它们采取一条中道,从花园和田野里采集材料,并用自己的能力加以利用。”
培根归纳法在如今已经不常用了。它费时费力、耗费高昂,其在科技中的应用也不甚明朗。然而,一种科学方法的定型却标志着革命性的进步。在此之前,通常仅有贵族出身、学识渊博的男性才能接触科学。培根推翻了古希腊权威并划定了科学发现的步骤,他所创造的蓝图使得每个人无论阶级背景,都有机会成为一名科学家。
培根的观点还揭示了一个重要事实:科学发现的过程本身是具有算法的。它经过有限步骤的不断重复,最终生成有意义的结果。培根明确地采用“机器”(machine)这个词来描述他的方法。他的科学算法具有三个主要步骤:首先,收集对现象的观察结果,并整合成一个知识总库;其次,通过新的观察结果,形成新的假设;最后,通过缜密的实验来验证假设。
进展与挑战
如果科学具有算法,那么它一定具备自动化的可能性。而在过去数十年中,信息科学家和计算机科学家一直没有涉足这个未来之梦,很大程度上是因为科学发现的三个步骤位于不同的层面上。观察是基于感觉,生成假设是思考过程,而实验过程则是机械行为。科学过程的自动化需要每一步都能在机器中得到有效结合,而这三步必须完美地贴合。而现在,还没有人知道该怎么做。
在实验过程方面,人们已经运用机器实现了众多进展。例如,制药工业通常采用自动化高通量平台来进行药物设计。美国加利福尼亚州的两家初创公司Transcriptic和Emerald Cloud Lab正在创建系统,力争将几乎所有由生物医学家操作的实验任务自动化。科学家们可以在线提交实验方案,而后实验步骤被转换为代码,输入机器人平台,继而由机器人平台自动执行一连串的生物实验。这种解决方案在需要密集实验操作的学科中最为常见,例如分子生物学和化学工程,但是类似的方法也可应用于其他数据密集型领域,甚至进一步扩展至理论学科中。
Transcriptic公司的自动化平台
对于自动生成假设,目前的进展较少,但是Don Swanson在上世纪80年代的工作为我们指明了前进方向。他证明了科学论文中不相关的观点之间也存在着隐藏联系。采用简单的逻辑框架,他可以将来自不同领域、引用上毫无重叠的论文联系起来。通过这种方式,Swanson可以对鱼油与雷诺氏综合征之间的关联提出新假设,而无需进行任何实验或是熟知任一领域。此外,更多的最新方法依赖于数学建模和图形理论。例如,芝加哥大学的Andrey Rzhetsky以及美国东北大学的Albert-László Barabási对大型数据库进行了整合,这些数据库中的知识被构建成一个网络,其中的节点就是概念,而连接则是概念间的关系。新的假设将作为节点间未被发现的连接呈现。
科学自动化过程中最具挑战性的一步,就是大规模收集可靠的科学观察。目前还没有中心数据库能够容纳人类所观察到的所有科学知识。自然语言处理已经发展到可以从科学论文中自动提取相互关联甚至是上下文的程度了。然而,主要的科学出版社都对论文挖掘设置了严格的限制。更重要的是,论文本身偏向于科学家的解释,其中包含了综合的复杂概念和方法,而这是很难做到提取和量化的。
尽管如此,计算和网络数据库的最新进展令培根归纳法在历史上第一次实现了实际应用。即使科学发现还不能实现自动化,当纯粹的还原论超出适用范围时,接受培根归纳法也是有意义的。
在大数据时代,仅仅依靠人类自身的思维,无法足够有效地重建起高度复杂的自然现象。现代培根归纳法在数据挖掘中融合了还原论思想,随后采用归纳计算模型来分析这些信息,这种方法将改变我们对自然世界的理解方式。它令我们得以生成可靠性极高的新假设并对其进行验证,从而填补人类知识的空白;它还不断提醒着我们科学的本质:寻求真理,自由无限。