沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

神经符号回归:从数据中提取科学

2022-08-15 10:05:054636

宇宙嘈杂而混乱,复杂到让预测变得困难。人类的智慧和直觉有助于对我们周围世界的一些活动有基本的了解。他们做得很好,足以在个人和小团体的有限视角的宏观空间和时间尺度上对事件有基本的认识。

人类史前史和早期历史的自然哲学家大多局限于常识合理化和猜测检验。这些方法的局限性,特别是对于太大或太复杂的事情,在迷信和神奇思维的流行和影响中显而易见。

不是贬低猜测和检查(这是现代科学方法的基础),而是要看到人类调查和理解能力的变化是由将物理现象提炼成数学表达式的愿望和工具所激发的。

这在牛顿和其他人导致启蒙运动之后尤其明显,尽管古代也有分析还原论的痕迹。从观察到数学方程(以及这些方程做出的预测)的能力是科学探索和进步的一个组成部分。

神经符号回归:从数据中提取科学

深度学习从根本上讲也是关于学习与输入输出观察相关的转换,就像人类科学家试图以数学表达式的形式学习输入和输出之间的函数关系一样。

当然,不同之处在于深度神经网络学习的输入-输出关系(通用逼近定理的结果)由一个不可解释的数值参数“黑匣子”组成,主要是权重、偏差和节点他们连接。

通用逼近定理指出,满足非常宽松标准的神经网络应该能够非常接近任何表现良好的函数。在实践中,当表示由简单而精确的基础方程产生的输入-输出关系时,神经网络是一种脆弱且易泄漏的抽象。

除非特别注意训练模型(或模型集合)以预测不确定性,否则神经网络在对其训练的分布之外进行预测时往往表现很差。

深度学习预测也不能很好地做出可证伪的预测,即开箱即用的构成科学方法基础的假设。因此,虽然深度学习是一种经过充分验证的工具,擅长拟合数据,但它在可以说是人类最追求的追求之一——通过科学方法探索我们周围的宇宙——中的效用却受到了限制。

尽管深度学习在人类科学事业中存在各种缺点,但如果忽视深度学习在科学学科中的巨大拟合能力和众多成功,我们将是愚蠢的。

现代科学产生了大量数据,个人(甚至一小群人)无法查看输出并直观地从嘈杂的数据跃迁到清晰的数学方程。

为此,我们求助于符号回归,这是一种将数据简化为方程的自动化或半自动化方法。

当前的黄金标准:进化方法

在我们将现代深度学习应用于符号回归进行一些令人兴奋的近期研究之前,我们必须首先了解将数据集转化为方程的进化方法的当前状态。最常提到的符号回归软件包是基于遗传算法的Eureqa。

Eureqa最初是作为HodLipson小组的康奈尔大学的一个研究项目开发的,并作为Nutonian的专有软件提供,后来被DataRobot收购。Eureqa已集成到Datarobot平台中,由Eureqa的合著者兼Datarobot Michael Schmidt的首席技术官负责。

Eureqa和类似的符号回归工具使用遗传算法同时优化一组方程,以实现准确性和简单性。

TuringBot是基于模拟退火的替代符号回归包。模拟退火是一种优化算法,类似于用于改变金属物理性质的冶金退火。

在模拟退火中,选择优化问题的候选解决方案时“温度”会降低,其中较高的温度对应于接受较差的解决方案,并用于促进早期探索,从而能够搜索全局最优值并提供能量以逃避局部最佳。

TuringBot作为免费版本提供,但数据集大小和复杂性有很大限制,并且代码不开放修改。

虽然商业符号回归软件(尤其是Eureqa)在开发符号回归的新工具时提供了重要的比较基准,但闭源程序的效用是有限的。

一种名为PySR的开源替代方案,在Apache2.0许可下发布,由普林斯顿大学博士领导。学生MilesCranmer分享了准确性和简约性(简单性)的优化目标以及Eureqa和TuringBot使用的组合方法。

除了提供用于执行符号回归的免费且可自由修改的软件库外,PySR从软件的角度来看也很有趣:它是用Python编写的,但使用Julia编程语言作为快速后端。

虽然遗传算法通常被认为是符号回归的当前最先进技术,但在过去几年中,新的符号回归策略出现了令人兴奋的爆炸式增长。

这些新发展中的许多都利用了现代深度学习模型,或者作为多步过程中的函数逼近组件,或者以基于大型变压器模型的端到端方式,最初是为自然语言处理而开发的,以及介于两者之间的任何东西。

除了基于深度学习的新符号回归工具之外,概率和统计方法也出现了复兴,尤其是贝叶斯统计。

结合现代计算能力,新的符号回归软件不仅本身就是有趣的研究,而且为包含大数据集和综合实验的科学学科提供了真正的实用性和贡献。

以深度神经网络作为函数逼近器的符号回归

由于Cybenko和Hornik在1980年代末/1990年代初描述和研究的通用逼近定理,我们可以预期具有至少一个非线性激活隐藏层的神经网络能够逼近任何表现良好的数学函数。

在实践中,我们倾向于在更复杂或更复杂的问题上使用更深层次的神经网络获得更好的性能。然而,原则上,你只需要一个隐藏层来逼近各种函数。

受物理启发的AIFeynman算法将通用逼近定理作为一个更复杂难题的一部分。

AIFeynman(及其继任者AIFeynman2.0)由物理学家Silviu-Marian Udrescu和MaxTegmark(以及一些同事)开发。AIFeynman反映了作者的背景,利用了许多物理方程中的函数特性,例如平滑度、对称性和组合性以及其他一些特性。

神经网络作为函数逼近器发挥作用,学习数据集中表示的输入-输出变换对(或他们所说的“神秘”),并通过在相同的函数变换下生成合成数据来促进对这些属性的研究。

AIFeynman用来解决问题的函数特性在物理学方程中很常见,但并未任意应用于所有可能的数学函数的空间。但是,它们仍然是在与现实世界相对应的各种函数中寻找的合理假设。

与前面描述的遗传算法和模拟退火方法一样,AIFeynman从头开始​​拟合每个新数据集。不涉及泛化或预训练,深度神经网络仅构成一个更大的、物理信息丰富的系统中精心编排的一部分。

AIFeynman符号回归在破译The Feynman Lectureson Physics中的一组100个方程(或奥秘)方面表现出色,但缺乏泛化意味着每个新数据集(对应于一个新方程)都需要大量的计算预算。

用于符号回归的一组新的深度学习策略利用了非常成功的Transformer模型系列,最初由Vaswani等人作为自然语言模型引入。这些新方法并不完美,但使用预训练可以在推理时节省大量计算。

基于自然语言模型的第一代符号回归

鉴于基于注意力的超大型Transformer模型在计算机视觉、音频、强化学习、推荐系统和许多其他领域(除了基于文本的自然语言处理的原始角色)的各种任务上取得了巨大成功,这并不奇怪变压器模型最终也将应用于符号回归。

虽然数字输入-输出对到符号序列的领域需要一些仔细的工程,但数学表达式基于序列的性质自然适用于变换器方法。

至关重要的是,使用转换器生成数学表达式使他们能够利用对数百万个自动生成的方程的结构和数值含义进行预训练。

这也为通过扩大规模来改进模型奠定了基础。缩放是深度学习的主要优势之一,其中更大的模型和更多的数据继续提高模型性能,远远超出过拟合的经典统计学习限制。

缩放是Biggio等人的论文的主要优势。标题为“可缩放的神经符号回归”,我们将其称为NSRTS。NSRTS转换器模型使用专门的编码器将输入输出对的每个数据集转换为潜在空间。编码的潜在空间具有固定的大小,与编码器的输入大小无关。

NSRTS解码器然后构建一个令牌序列来表示一个方程,条件是编码的潜在空间和到目前为止生成的符号。至关重要的是,解码器仅输出数字常量的占位符,但在其他方面使用与预训练方程数据集相同的词汇表。

NSRTS使用PyTorch和PyTorchLightning,可在宽松的开源MIT许可证下使用。

在生成无常数方程(称为方程骨架)之后,NSRTS使用梯度下降来优化常数。这种方法在序列生成之上分层了一个通用优化算法,由Valipour等人同时开发的所谓的“SymbolicGPT”共享。

Valipour等人没有像NSRTS方法中那样使用基于注意力的编码器。使用了一个基于斯坦福点云模型PointNet的松散模型,为变压器解码器生成一组固定维度的特征,用于生成方程。与NSRT一样,SymbolicGPT使用BFGS来查找转换器解码器生成的方程骨架的数值常数。

基于自然语言模型的第二代符号回归

虽然最近的出版物描述了使用NLP转换器来实现符号回归的泛化和可扩展性,但上述模型并不是真正的端到端,因为它们不估计数值常数。

这可能是一个严重的缺陷:想象一个模型可以生成具有1000个不同频率的正弦基的方程。使用BFGS优化每个项的系数可能会非常适合大多数输入数据集,但实际上,它只是执行傅里叶分析的一种缓慢而迂回的方式。

就在2022年春季,第二代基于变压器的符号回归模型已在ArXiv上由Vastl等人在SymFormer上发布,而另一个端到端变压器由Kamienny及其同事发表。

这些和以前基于转换器的符号回归模型之间的重要区别在于它们预测数字常数以及符号数学序列。

SymFormer利用双头变压器解码器来完成端到端的符号回归。一个头产生数学符号,第二个头学习数值回归任务,即估计出现在方程中的数值常数。

Kamienny和Vastl的端到端模型在细节上有所不同,例如数值估计的精度,但两组的解决方案仍然依赖于后续的优化步骤进行细化。

即便如此,根据作者的说法,它们比以前的方法具有更快的推理时间并产生更准确的结果,产生更好的方程骨架,并为细化优化步骤提供了良好的起点和估计的常数。

象征性回归的时代来临

在大多数情况下,符号回归一直是一种挑剔且计算密集型的机器学习方法,在过去十年左右的时间里,它比一般的深度学习受到的关注要少得多。

这在一定程度上是由于遗传或概率方法的“即用即失”方法,对于每个新数据集,它们必须从头开始,这一特征与深度学习到符号回归(如AIFeynman)的中间应用共享.

在符号回归中使用转换器作为整体组件,使得最近的模型能够利用大规模的预训练,从而减少推理时的能量、时间和计算硬件需求。

新模型进一步扩展了这一趋势,这些模型可以估计数值常数并预测数学符号,从而实现更快的推理和据说更高的准确性。

生成可反过来用于生成可检验假设的符号表达式的任务是一项非常人性化的任务,并且是科学的核心。在过去的二十年里,符号回归的自动化方法继续取得令人感兴趣的技术进步,但真正的考验是它们是否对从事真正科学研究的研究人员有用。

符号回归开始在技术演示之外产生越来越多的可发表的科学结果。符号回归的贝叶斯方法生成了用于预测细胞分裂的新数学模型。

另一个研究小组使用稀疏回归模型生成了海洋湍流的合理方程,为改进多尺度气候模型铺平了道路。

一个将图神经网络和符号回归与Eureqa的遗传算法相结合的项目概括了描述多体引力的表达式,并从传统模拟器中推导出了一个描述暗物质分布的新方程。

符号回归算法的未来

符号回归正在成为科学家工具箱中的强大工具。基于变压器的方法的泛化、可扩展能力仍然是热门话题,还没有时间渗透到一般的科学实践中。然而,随着越来越多的研究人员适应和改进模型,它有望进一步增强科学发现的能力。

其中许多项目是在许可的开源许可下提供的,因此我们可以预期它们将在几年内产生影响,而不是几十年,而且它们的采用可能比Eureqa和TuringBot等专有软件更广泛。

符号回归是对深度学习模型通常神秘且臭名昭著的难以解释的输出的自然补充,而数学语言中更易于理解的输出有助于产生新的可检验假设并推动直观的飞跃。

这些特征和最新一代符号回归算法的直接能力有望为尤里卡时刻提供相当多的机会。