人工智能
扩散模型与进化算法的深层关联
本文探讨扩散模型和进化算法的相似性及潜在联系,提出了“扩散进化”算法。
Michael Levin一直专注于生物电、人工生命等领域,曾在NeurIPS 2018发表了名为《身体在思考什么:神经系统之外的生物电计算》的精彩演讲,也在ALife 2020进行了题为《机器人癌症:胚胎发生与再生的生物电如何影响非常规计算、认知与生命软件》的主题演讲。
Levin还合作发表了一篇关于细胞自动机和可微形态发生的出色论文。这篇论文认为,扩散模型就是一种进化算法。为什么这么说?我们来深入看看。
在生物圈中,至少有两种过程能够实现广义的创新:进化(通过自然选择在多代生物中进行缓慢的环境适应)和学习(个体在生存期内快速获得知识并总结经验)。近年来,关于进化和学习之间联系的研究不断涌现:从Hinton的经典著作《学习如何引导进化》(1987年)到Vanchurin、Wolf、Katsnelson、Koonin的《迈向多层次学习的进化理论》(2022年),再到Watson和Levin的《进化和发育的集体智能》(2023年)。当前的研究认为,一类特定的扩散模型(生成模型通过逐步去噪来实现)可以被理解为一种进化过程,模拟自然选择、变异和生殖隔离。
回顾基本概念:
- 扩散模型,简单来说,就是一个“前向扩散”过程,将图像(或其他信号)作为输入,逐步加入噪声直到完全混杂,而“反向扩散”则是去噪的过程,从噪声中还原图像(或创造隐藏在其中的图像)。
- 进化算法,可以类比为寻找某种最优解决方案,比如找到最佳机翼形状。最初生成一批随机解决方案(类似自然中的“生物群体”),通过某些标准筛选出较优方案(比如飞行表现),再进行“杂交”和“变异”以产生下一代,循环这一过程,以逐步优化至可用的解决方案。
从中可以看到,两者都涉及迭代的数据更新和从复杂分布中采样的新对象,结合了定向更新和随机扰动。进化中是选择+变异,扩散中是随机噪声+去噪学习。于是就产生了一个问题:这两个过程的机制是否有根本上的联系?它们之间是否存在数学上的深层对偶?
扩散模型的生物学类比:
论文从生成模型的角度分析进化,将生物圈中的种群进化过程理解为分布的转换:基因型和表型的分布,通过变异和选择不断变化。这与生成模型中的分布转换相似,许多生成模型(如VAE、GAN和扩散模型)都通过学习将简单分布(通常为标准高斯分布)转化为复杂分布,使样本变得有意义(如图像、声音、文本)。
同时,也可以从进化的角度来看扩散模型。在训练时,数据点被加噪,模型通过预测噪声来反向过程;采样时,模型从高斯分布中的点出发,逐步通过去噪更新,理想情况下得到无噪声的样本。在这里,定向去噪相当于定向选择,每一步的微小噪声类似变异。这种过程与进化类似,将基因组视为一种多尺度生成形态发生过程的潜在空间,而非生物的蓝图。假设将进化过程反转,那么高适应性群体将逐步“溶解”,类似前向扩散。
类似于统计物理中的能量和概率,进化任务可以通过将适应度映射到概率密度来与生成任务关联:高适应度对应高概率密度。最终,作者在数学上提出了一个新算法:扩散进化——一种基于迭代误差修正的进化优化过程,与扩散模型类似,但不依赖神经网络。
关键特征:
- 从随机解决方案(如扩散模型中的噪声)开始;
- 每步:
- 每个方案通过适应度函数评估;
- 每个方案通过与邻近的更成功方案加权平均得出“去噪”版本;
- 方案向“去噪”版本靠近,同时增加微小的随机变异;
- 随着进展:
- 邻近搜索半径逐步减小(类似扩散模型中的降噪),先全局探索,再局部优化。
这一算法的主要优势是能够同时找到并保持多个优解,不像传统进化算法通常收敛到单一解。
实验结果:
在第一项实验中,使用了五个不同的二维适应度图景,分别是单峰的Rosenbrock和Beale,以及多峰的Himmelblau、Ackley和Rastrigin,将之与CMA-ES、OpenES和PEPG进行了对比。每种方法运行100次,每次512个个体,迭代25次(OpenES需1000步才能收敛)。结果显示,扩散进化算法在多峰图景上表现优异,而其他方法往往只收敛到单一解。
由于适应度评估是进化算法中计算开销最大的步骤,作者借用扩散模型中的余弦调度以减少迭代次数,显著降低了适应度评估次数。
第二项实验中,作者提出了潜在空间扩散进化,灵感来自潜在空间扩散模型。该方法应用于RL任务,通过两层网络学习控制经典的摆杆系统。直接使用扩散进化表现较差,但在降维后表现良好。这种转换通过随机投影矩阵进行,仅用于计算方案间距离,而方案更新仍在原空间进行。结果显示,这种方法可扩展至更大网络(在三层网络中同样有效)。
总体来说,取得了成功。类似Tri Dao和Albert Gu在SSM中融合线性变压器的方法,研究将其他领域的工作方案(如潜在扩散模型的概念)转移到这里。