（2024，稀疏 MoE，大量小专家，参数高效专家检索 PEER，product key 检索）混合百万专家

Mixture of A Million Experts

公和众与号：EDPJ（进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群）

0. 摘要

1. 简介

2. 方法

3. 实验

0. 摘要

标准 Transformer 架构中的前馈（feedforward，FFW）层随着隐藏层宽度的增加，计算成本和激活内存呈线性增长。稀疏混合专家（Sparse mixture-of-experts，MoE）架构通过将模型大小与计算成本解耦，已经成为解决这个问题的可行方法，。最近发现的细粒度 MoE 缩放法则表明，更高的粒度会带来更好的性能。然而，由于计算和优化方面的挑战，现有的 MoE 模型仅限于少量的专家。本文介绍了参数高效专家检索（parameter efficient expert retrieval，PEER），一种新颖的层设计，利用乘积 key（product key）技术从大量小专家（超过一百万）中进行稀疏检索。在语言建模任务上的实验表明，PEER 层在性能与计算的权衡方面优于密集的 FFW 和粗粒度的 MoE。通过高效利用大量专家，PEER 在保持计算效率的同时，释放了 Transformer 模型进一步扩展的潜力。

1. 简介

为了打破计算成本和参数数量之间的耦合，许多近期的研究（Shazeer等，2017；Lepikhin等，2020；Fedus等，2022；Zhou等，2022）采用了 MoE 架构，该架构使用一组稀疏激活的（sparsely activated）专家模块（通常是 FFW）来替代单个密集的 FFW。Clark 等（2022）研究了 MoE 语言模型的缩放法则，表明增加专家数量是提高性能的有效方法，而不会增加推理成本。然而，他们的实验表明，MoE 提供的效率增益在达到某一模型大小后会趋于平稳。最近，Krajewski 等（2024）发现这种平稳是由于使用了固定数量的训练样本引起的。当训练样本数量达到计算最优时，MoE 在 FLOP 效率方面始终优于密集模型。此外，他们引入了粒度（活动专家的数量）作为新的缩放轴，并通过实验证明，使用更高的粒度可以提高性能。对这种细粒度 MoE 缩放法则的外推表明，模型容量的持续改进最终将导致一个具有高粒度的大模型，对应于拥有大量小专家的架构。

除了高效缩放之外，拥有大量专家的另一个原因是终身学习（lifelong learning），其中 MoE 作为一种有前途的方法（Aljundi等，2017；Chen等，2023；Yu等，2024；Li等，2024）出现。例如，Chen等（2023）表明，通过简单地添加新专家并适当地正则化它们，MoE 模型可以适应连续的数据流。冻结旧专家并只更新新专家可以防止灾难性遗忘，并通过设计保持可塑性。在终身学习环境中，数据流可以无限长或永无止境（Mitchell等，2018），这需要一个不断扩展的专家池。

尽管高效缩放和终身学习都需要能够处理大量专家的 MoE 设计，但据我们所知，唯一支持超过一万个专家的架构是词专家混合（Mixture of Word Experts，MoWE）（dos Santos等，2023）。然而，MoWE 是特定于语言的，并使用固定的路由方案。理论和实验证据（Clark等，2022；Dikkala等，2023）强调了学到的路由器（router）相对于非可训练路由器的优势。因此，具有学到的路由器且可扩展到超过一百万专家的 MoE 设计仍然是一个值得探索的领域。

2. 方法

在本节中，我们介绍参数高效专家检索（PEER）层，这是一种使用乘积 key（product keys）（Lample等，2019）作为路由器并将单神经元 MLP 作为专家的混合专家架构。图 2 展示了 PEER 层的计算过程。

PEER 概述。形式上，一个 PEER 层是一个函数 f: R^n→R^m，它由三部分组成：

一个包含 N 个专家的池 E := {e_i}^N_(i=1)，每个专家 e_i: R^n→R^m 具有与 f 相同的签名，
一个对应的 N 个乘积 key 集合 K := {k_i}^N_(i=1)
一个将输入向量 x∈R^n 映射到 query 向量 q(x) 的网络 q: R^n→R^d

令 T_k 表示前 k 个操作符。给定输入 x，我们首先检索 query q(x) 与对应的乘积 key 内积最高的 k 个专家的子集。

然后我们对这些前 k 个专家的 query-key 内积应用非线性激活（如 softmax 或 sigmoid），以获得路由器得分。

最后，我们通过以路由器得分为权重线性组合专家输出来计算输出。

乘积 key 检索。由于我们打算使用非常大量的专家（N ≥ 10^6），直接计算公式（1）中的前 k 个索引会非常昂贵。因此，我们在这里应用乘积 key 检索技术。我们不使用 N 个独立的 d 维向量作为 key k_i，而是通过连接来自两个独立的 d/2 维子 key 集合 C,C′ ⊆ R^(d/2) 的向量来创建它们：

注意这里的 C,C′ 的基数（cardinality）为 √N，而 c,c′ 的维度为 d/2。所以在实践中，我们选择 N 为一个完全平方数， d 为一个偶数。

这种笛卡尔积结构的 K 使我们能够高效地找到前 k 个专家。我们不再将 q(x) 与 K 中的所有 N 个 key 进行比较并选择前 k 个匹配项，而是将向量 q(x) 分成两个子 query q_1 和 q_2，并分别将前 k 操作应用于子 query 和子 key 之间的内积：

这产生了一组 k^2 个候选 key

并且数学上保证了 K 中与 q(x) 最相似的前 k 个 key 在这个候选集中。此外，候选 key 与 q(x) 之间的内积只是子 key 和子 query 之间内积的和：

因此，我们可以再次将前 k 操作符应用于这 k^2 个内积，以从原始的乘积 key 集合 K 中获得前 k 个匹配 key。正如 Lample 等（2019）所解释的那样，这将公式（1）中前 k 个专家检索的复杂度从通过穷尽搜索的 O(Nd) 降低到 O((√N + k^2)d)。

参数高效专家和多头检索。与其他 MoE 架构不同，这些架构通常将每个专家的隐藏层设置为与其他 FFW 层相同的大小，而在 PEER 中，每个专家 e_i 是一个单独的 MLP，换句话说，它只有一个带有单个神经元的隐藏层：

其中 v_i, u_i 不是矩阵，而是与 x 具有相同维度的向量，σ 是非线性激活函数，如 ReLU 或 GELU。为了简洁起见，我们省略了偏置项。

我们不改变单个专家的大小，而是通过使用多头检索来调整 PEER 层的表达能力，类似于 Transformer 中的多头注意机制和 PKM 中的多头内存。具体来说，我们使用 h 个独立的网络，而不是一个，每个网络计算其自己的 query 并检索一个单独的专家集。然而，不同的头共享相同的专家池和相同的乘积 key 集合。h 个头的输出简单地相加：

可以验证，当每个头仅检索一个专家时（k=1），使用具有 h 个头的 PEER 层与使用具有 h 个隐藏神经元的一个专家是相同的：

其中 W=[u1,⋯ ,uh]，V=[v1,⋯ ,vh]。换句话说，PEER 通过聚合从共享库中检索到的 h 个单独的 MLP 动态组装一个具有 h 个神经元的 MLP。相比于使用具有多个隐藏神经元的 MLP 作为专家的现有 MoE 方法，这种设计允许专家之间共享隐藏神经元，从而增强知识传递和参数效率。

算法 1 展示了 PEER 前向传递的简化实现，将参数高效专家权重存储在嵌入层中，并将它们与 einsum 操作相结合。通过添加额外的线性门控权重，可以轻松扩展此实现以支持 GLU 变体的专家（Shazeer，2020）。在实践中，高效实现可能需要专用硬件内核来加速嵌入查找和与 einsum 操作的融合。

为什么需要大量的小专家？给定一个 MoE 层，我们可以通过三个超参数来表征它：总参数数量 P、每个 token 的活跃的参数数量 P_active 和单个专家的大小 P_expert。Krajewski 等（2024）表明，MoE 模型的缩放法则具有以下形式：

其中，L 是最终测试损失，a,b,g,γ,α,β 是常数，D 是训练样本的总数，粒度 G 是活跃专家的数量：

为了提高模型性能，我们需要扩大 P,D,G。另一方面，必须限制 P_active，因为计算和内存成本主要由训练和推理期间的活跃参数决定。特别是，与 P_active 相关的内存占用必须乘以 batch 中的样本数量，而 P 的内存成本与 batch 大小和序列长度无关，因为只需要存储模型的一份副本。

因此，我们希望增加 P 和 G，但不增加 P_active。由于专家大小 P_expert = P_active / G 和专家数量 N = P / P_expert = P⋅G / P_active，这意味着我们应该减小每个专家的大小 P_expert 并增加专家的数量 N。因此，我们需要大量的小专家。

通常，对于具有单隐藏层的 MLP 专家，P_expert = (2·d_model + 1)·d_expert 和 P_active = (2·d_model + 1)·d_active，其中 d_model, d_expert 和 d_active 分别是 Transformer 的隐藏维度、一个专家使用的隐藏神经元数量以及每个 token 激活的总隐藏神经元数量。

在 PEER 的情况下，我们通过设置 d_expert = 1 来使用最小的专家大小，且激活的（activated）神经元数量是检索头的数量乘以每个头检索的专家数量：d_active = hk。因此，PEER 的粒度总是 G = P_active / P_expert = d_active / d_expert = hk。

3. 实验

结果表明，在所考虑的值范围内，更高的 hk 通常会带来更好的性能。值得注意的是，随着 hk 的增加，最佳的 h 也会增加。然而，性能逐渐趋于饱和，并且增加活跃专家的数量也会增加设备的内存消耗，并可能需要额外的加速器设备。因此，在实际应用中，应根据性能、设备数量和计算资源需求之间的权衡来选择合适的 hk 值。