模式从哪里来



草原上,一头狮子盯上了一只羚羊,它渐渐地靠近。然而,羚羊已经注意到狮子,它看似若无其事地继续低头觅食,却将身子侧向狮子,用警觉的眼神注视着。狮子一步步靠近,羚羊则继续啃草。直到它们的距离达到一个阈值,羚羊突然从觅食模式切换到奔逃模式,转身狂奔,狮子也跟着猛冲。然而这个距离留得恰到好处,使得狮子在体力透支之前无法捕捉到羚羊。

这种灵活的模式切换,也见于其它有机体:社会群体、生物体内的组织、朊病毒等等。当某个参数超过一个阈值,系统就从一个模式切换到另一个看上去完全不同的模式。甚至在无机化学中,我们也能看到这种现象。问题是,如何构造这样一种动力学?考虑带参数的动力系统

\[\dot{x}(t) = f(x(t), \theta),\]

其中相点 $x \in \mathbb{R}^d$,参数 $\theta \in \mathbb{R}^m$。它要满足什么条件,才能实现模式切换?

我们在铁磁相变的 Ginzburg-Landau 理论中看到过模式切换的一种可能性:当参数跨过一个阈值时,方程的主导项切换了,从而产生了相变。现在让我们对上面的动力系统,给出类似的构造。

我们先任意给定一个 $\theta$,考虑扰动 $\theta \to \theta + \delta \theta$。其中 $\delta \theta$ 就是待调整的参数。是否存在一个特殊的 $\theta$ 的值,可以让动力系统对 $\delta \theta$ 充分敏感,并实现模式切换?为此,我们将 $f$ 改写成如下形式:

\[f(x, \theta + \delta \theta) = g_0(x, \theta) + \sum_{i=1}^m \delta \theta^i g_i(x, \theta) + o(\Vert\delta \theta\Vert^2).\]

其中,$g_0(x, \theta) := f(x, \theta)$,$g_i(x, \theta) = (\partial f)(\partial \theta^i)(x, \theta)$。如果对每一个 $g_i$(准确地说,是 $\pm g_i$),动力系统 $\dot{x}(t) = g_i(x(t))$ 都具有吸引子(稳定固定点、极限环等等,也包括奇怪吸引子),并且所有 $g_i$ 的吸引子都各不相同,那么我们就可以将其视作不同的模式。进一步,如果“默认模式” $g_0$ 可忽略,并且对所有 $i \in {1, \ldots, m}$,$g_i$ 的大小都处在同一量级,那么当 $\delta \theta^i$ 大于其它 $\delta \theta$ 的其它分量时,$g_i$ 就主导了整个动力系统,使相轨迹进入该模式的吸引子。这样就实现了模式切换。与其说是模式的切换,毋宁说是模式之间的“竞争”:谁压过了其它项,系统就跟从谁的模式。

然而,这些 $g$ 不是数值,而是一些带有自变量 $x$ 的函数,因此不能直接比较。要讨论函数的大小,需要把自变量积掉。在这个过程中,并不是所有的 $x$ 都是平权的。由于模式具有吸引子,从而将相轨迹限定在一个有界区域内,这意味着 $x$ 大概率出现在吸引子所在的 $\mathbb{R}^d$ 的有界子集里。所以我们应当考虑:

\[\bar{g}_i(\theta) := \lim_{t \to \infty} \mathrm{E}_{x \sim P(\theta)} \left[ \frac{1}{t} \int_0^t \mathrm{d}s \Vert g_i(x(s), \theta) \Vert^2 \right],\]

其中 $P(\theta)$ 为相轨迹 $x(t)$ 的分布,它也依赖于动力系统的参数 $\theta$。这里既需要对相轨道进行平均(相轨道的期望),也需要对一个相轨道上所有相点进行平均(时间的平均)。可以想见,采样的大部分相点都分布在默认模式 $g_0$ 的吸引子上(我们会在后面详论其合理性或自洽性)。代入 $g_i$ 的定义,我们发现 $\bar{g_i}$ 正好就是 Langevin 过程的(时间平均的)Fisher 矩阵的对角元:

\[\bar{g}_i(\theta) = \lim_{t \to \infty} \frac{1}{t} \mathrm{E}_{x \sim P(\theta)} \left[ \int_0^t \mathrm{d}s \sum_{\alpha=1}^d \left( \frac{\partial f^{\alpha}}{\partial \theta^i}(x(s), \theta) \right)^2 \right] = \bar{F}_{i i}(\theta).\]

同样地,对于默认模式 $g_0$,我们有:

\[\bar{g}_0(\theta) := \lim_{t \to \infty} \mathrm{E}_{x \sim P(\theta)} \left[ \frac{1}{t} \int_0^t \mathrm{d}s \sum_{\alpha=1}^d \left( f^{\alpha}(x(s), \theta) \right)^2 \right].\]

因此,要实现模式切换,就需要让 $\bar{g}_0(\theta)$ 充分小。有两种可能:或者 $f(x, \theta)$ 一致地很小,它对应于充分弥散的相点分布(因为 $\dot{x}(t) \approx 0$,所以系统会长时间保持在初始的弥散状态);或者 $f(x, \theta)$ 存在稳定固定点,并且在该固定点周围很大,这样就使得所有的相轨迹都迅速收敛到 $f(x, \theta) = 0$ 处了。为了分析的自洽性,我们必须采用第一种可能,而舍弃第二种。因为充分弥散的相点使分布 $P(\theta)$ 能够覆盖所有其它模式的吸引子。如此一来,使用 $P(\theta)$ 进行采样计算期望值,就能对 $g_i$ 的大小做出合理的估计。反之,如果 $P(\theta)$ 只能覆盖相空间中很小的一片区域,且没有覆盖到 $g_2$ 的吸引子,那么当系统处于第 $2$ 个模式时,大量的相轨迹离开 $P(\theta)$ 的覆盖区,$\bar{g}_2$ 就不能代表 $g_2$ 的大小了(因为 $\bar{g}_2$ 是在 $P(\theta)$ 上取的期望值)。所以,如果存在 $\theta \in \mathbb{R}^m$ 使得 $f(x, \theta)$ 一致地很小,就能产生模式切换。

这时,如果没有外界刺激(即 $\delta \theta = 0$),系统将处在广泛的弥散状态。例如,蚁群的默认模式是四处搜索,看上去像是漫无目的的游走,虽然不会远离蚁穴,并且时不时地折返,但蚁群的弥散范围很大,说明蚁穴的“吸引力”不强。这有助于蚁群快速响应,切换模式。对于羚羊来说,它不能像人类那样做白日梦,否则被狮子吃掉就是迟早的事了。

因此,这个构造似乎不适用于人类的大脑。人类大脑具有强大的默认模式,这从我们在公交车上做白日梦,回过神来发现坐过站了就可以看出。在缺少外界刺激的情况下,大脑的默认模式网络被激活,并主导大脑的动力学。这时,我们做起了白日梦,周围的事物隐退不见了。需要非常强的外界刺激(即 $\delta \theta$ 不再是微扰),才能使我们从梦中惊醒。不过,正如《我们为什么要睡觉?》一书中提到的,做白日梦是人类的天赋。只有能够建造安全居所的动物,不用整日对周遭环境保持警觉,才具有做白日梦的能力(或权利)。而正是由于这个能力,人类得以发明创造新的东西。

乍看上去,这个一般性的构造仅适用于 $\delta \theta$ 充分小的情况(微扰)1。随着 $\delta \theta$(或其中的某些分量)不断增大,残差 $o(\Vert\delta \theta\Vert^2)$ 将变得不可忽略。然而,对于我们的问题来说,微扰处理就足够了。我们关心的是系统如何具有模式切换的能力,要确认这种能力,只需微小的扰动即可。例如,只要在桌面撒上一点糖,就能看到蚂蚁集结成队搬运食物。

再回到铁磁相变的 Ginzburg-Landau 理论。在这个理论中,势能函数形如

\[V(x, \theta) = - \frac{1}{2} \theta x^2 + \frac{1}{4} x^4,\]

当 $\theta > 0$ 时呈墨西哥帽状。它的动力学由方程 $\dot{x}(t) = -(\partial V / \partial x)(x(t), \theta) = \theta x(t) - x(t)^3$ 描述。相变发生时 $\theta = 0$,这时势能函数的底部变平,并且在远离原点的地方迅速变得陡峭。远离原点的相轨迹沿着陡峭的势能函数迅速滑向平坦的底部,然后迅速减速,以极其缓慢的速度向原点移动。结果就是,大量的相点分布在平坦的底部,其它地方则几乎没有相点。如此一来,$\Vert f(x, \theta) \Vert$ 在很大的范围内一致地接近于零,从而具有模式切换的能力。而不论 $\theta$ 大于还是小于零,相点都集中在稳定固定点附近,不能满足产生模式切换的条件。所以模式切换的能力确实与相变有关。应用到上面的分析中,我们有 $g_0(x) = -x^3$ 和 $g_1(x) = x$。值得注意的是,$g_1(x)$ 本身只有一个平凡固定点,即 $x = 0$,但当 $\delta \theta > 0$ 时,非平凡的稳定固定点出现在 $x = \pm \sqrt{\delta \theta}$ 处,这是 $g_0$ 和 $g_1$ 连合导致的。这启发我们:模式之间是否存在协作?也就是说,当系统同时处于两个或多个模式(也包括默认模式)时,是否会形成新的模式?正如 $g_0$ 和 $g_1$ 的某种组合产生了新的模式。


  1. 这个分析思路很像图灵研究形态生成的思路,即在某个特殊的值附近做线性展开。图灵的特殊值是相空间中的(固定点),这里的特殊值则在参数空间中。