ONE SENTENCE SUMMARY:
大规模语言模型(LLMs)的扩展法则推动了AI研究的进展,但当前面临瓶颈,未来需探索新路径。
MAIN POINTS:
- 扩展法则表明,增加模型参数和数据量可提高LLM性能。
- 近期研究显示,LLM扩展可能遇到瓶颈,需寻找新方法。
- 大规模预训练的成本高昂,需有效预测模型性能以降低风险。
TAKEAWAYS:
- 扩展法则是LLM研究的核心,影响模型性能。
- 未来AI研究需关注合成数据和推理模型。
- 复杂任务可通过LLM系统和代理进行分解和解决。

最近在人工智能研究领域,尤其是大语言模型(LLMs)方面的多数进展,都是由规模驱动的。如果我们在更多的数据上训练更大的模型,就能获得更好的结果。这种关系可以通过一个更严格的缩放定律来定义,这只是一个描述LLM的测试损失如何随着我们增加某个感兴趣的量(例如训练计算量)而减少的方程。缩放定律帮助我们预测更大和更昂贵的训练运行的结果,给予我们继续投资于规模的必要信心。
“如果你有一个大型数据集并训练一个非常大的神经网络,那么成功是有保证的!” - Ilya Sutskever
多年来,缩放定律一直是人工智能研究的可预测的北极星。事实上,像OpenAI这样的早期前沿实验室的成功甚至被归功于他们对缩放定律的 宗教般的信仰 。然而,最近有报告 1 称顶级研究实验室在创造下一代更好的LLM方面遇到了困难,这让人们开始质疑缩放的持续性。这些说法可能会让我们想知道: 缩放是否会遇到瓶颈,如果是这样,还有其他前进的道路吗?
本概述将从基础开始回答这些问题,首先深入解释LLM缩放定律及其相关研究。缩放定律的概念很简单,但围绕缩放存在各种公众误解— 这项研究背后的科学实际上非常具体 。通过对缩放的详细理解,我们将讨论LLM研究的最新趋势以及导致缩放定律“停滞”的因素。最后,我们将利用这些信息更清晰地描绘人工智能研究的未来,重点关注几个关键理念— 包括缩放 —可能继续推动进步。
LLM的基本缩放概念
要理解LLM的缩放状态,我们首先需要建立对缩放定律的一般理解。我们将从基础开始建立这种理解,从幂律的概念开始。然后,我们将探讨幂律如何在LLM研究中应用,以推导出我们今天使用的缩放定律。
什么是幂律?
幂律 是LLM缩放的基本概念。简单来说,幂律只是描述两个量之间的关系。对于LLM,第一个量是LLM的测试损失— 或其他相关性能指标(例如下游任务准确性 [7]) —另一个是我们试图缩放的某个设置,例如模型参数的数量。例如,在研究LLM的缩放特性时,我们可能会看到如下陈述。
“在足够的训练数据下,验证损失的缩放应大致为模型大小的平滑幂律。” - 来自 [4]
这样的陈述告诉我们,模型的测试损失和模型参数总数之间存在可测量的关系。对其中一个量的改变将导致另一个量的相对 尺度不变 变化。换句话说,我们从这种关系中知道,在满足其他条件(例如有足够的训练数据)的情况下,增加模型参数总数将导致测试损失以可预测的因子减少。
幂律公式。 基本幂律通过下面的方程表达。

这里研究的两个量是
x
和
y
,而
a
和
p
是描述这些量之间关系的常数。如果我们绘制这个幂律函数
2
,我们会得到下面显示的图。我们提供了普通尺度和对数尺度的图,因为大多数研究LLM(大型语言模型)扩展的论文使用对数尺度。

然而,提供的LLM扩展图并不像上面显示的图—— 它们通常是上下颠倒的 ;请参见下面的示例。

这只是一个 反 幂律,可以用下面的公式表示。

反幂律的方程几乎与标准幂律相同,但我们对
p
使用负指数。将幂律的指数设为负数会使图形上下颠倒;请参见下图示例。

这种反幂律关系在使用对数刻度绘制时,会呈现出线性关系的特征,这也是大多数大型语言模型(LLM)扩展规律的典型特征。几乎每一篇涉及LLM扩展的论文都会绘制这样的图表,以研究扩展不同因素(如规模、计算、数据等)如何影响LLM的性能。现在,让我们通过学习第一批研究LLM扩展规律的论文之一,来更实际地了解幂律关系 [1]。
神经语言模型的扩展规律 [1]
在语言模型发展的早期,我们尚未理解规模对性能的影响。语言模型是一个有前景的研究领域,但当时的模型(例如 原始GPT )能力有限。我们尚未发现更大模型的威力,创造更好语言模型的路径也不明确。 模型的结构(即层数和层大小)重要吗?增大模型是否有助于提高性能?需要多少数据来训练这些更大的模型?
“损失随着模型大小、数据集大小和用于训练的计算量呈幂律缩放,某些趋势跨越了七个数量级。” - 来自 [1]
在 [1] 中,作者通过分析几个因素—— 如模型大小、模型结构、数据集大小、训练计算量和批量大小 ——对模型性能的影响来回答这些问题。从这项分析中,我们了解到LLM的性能随着以下因素的增加而平稳提升:
-
模型参数的数量。
-
数据集的大小。
-
用于训练的计算量。
更具体地说, 当性能不受其他两个因素限制时,每个因素与LLM的测试损失之间观察到幂律关系。
实验设置。 为了拟合他们的幂律关系,作者在WebText2语料库的子集上预训练了大小达15亿参数的LLM,数据集包含从2200万到230亿个标记。所有模型都使用固定的1024个标记的上下文长度和标准的 下一个标记预测 ( 交叉熵 )损失进行训练。在保留的测试集上测量相同的损失,并将其用作我们的主要性能指标。 这种设置与大多数LLM的标准预训练设置相匹配。

LLM扩展的幂律法则。
在[1]中训练的LLM的性能——
以其在WebText2上的测试损失为准
——随着参数、数据和计算量的增加而稳步提高
3
。这些趋势跨越了计算量的八个数量级、模型大小的六个数量级和数据集大小的两个数量级。上图中提供了精确的幂律关系和拟合到每个关系的方程。这里的每个方程都与我们之前看到的反幂律方程非常相似。然而,我们设置
a = 1
并在括号内添加了一个额外的乘法常数
4
。
在[1]中,作者指出了一个小细节,这对于正确拟合这些幂律是必要的。我们在计算模型参数总数时不包括 位置或标记嵌入 ,这使得扩展趋势更加清晰;见下文。

这些幂律法则仅在训练不受其他因素限制时适用。因此, 模型大小、数据和计算 这三个组件应同时扩展以获得最佳性能。如果我们单独扩展其中任何一个组件,我们将达到收益递减的临界点。
幂律法则告诉我们什么? 尽管[1]中提供的幂律图看起来相当有前景,但我们应该注意到这些图是使用对数刻度生成的。如果我们生成普通图(即不使用对数刻度),我们会得到下图,其中我们看到幂律的形状类似于指数衰减。

这样的发现可能与很多关于扩展和AGI的在线言论相悖。在许多情况下,我们被灌输的直觉是,LLM的质量随着计算量的对数增加而呈指数级提高,但事实并非如此。实际上, 随着规模的扩大,提高LLM的质量变得更加困难 。

其他有用的发现。 除了在[1]中观察到的幂律之外,我们还发现其他因素,如模型形状或架构设置,对模型性能的影响很小;见上图。规模无疑是创造更好LLM的最大贡献因素—— 更多的数据、计算和模型参数可以平滑地提高LLM的性能 。
“更大的模型在样本效率上显著更高,因此最优的计算效率训练涉及在相对适中的数据量上训练非常大的模型,并在收敛前显著停止。” - 来自 [1]
有趣的是,[1]中的实证分析表明,较大的LLM往往在样本效率上更高,这意味着它们在相对于较小模型的数据量下达到相同的测试损失水平。因此, 将LLM预训练到收敛(可以说)是次优的 。相反,我们可以在较少的数据上训练一个更大的模型,并在收敛前很早就停止训练。这种方法在训练计算量方面是最优的,但不考虑推理成本。实际上,我们通常在更多数据上训练较小的模型,因为较小的模型更便宜。
作者还广泛分析了模型大小与用于预训练的数据量之间的关系,发现数据集的大小不需要随着模型大小的增加而快速增加。 模型大小增加约8倍需要训练数据量增加约5倍以避免过拟合 。

在[1]中发现的缩放定律也在其他几个数据集上得到了验证,我们看到在测试损失上加上一个固定偏移量后,相同的缩放定律依然成立(即考虑到数据集的不同);见上图。这些结果为大规模语言模型(LLM)的缩放提供了有力的证据。通过在更多数据上训练更大的模型更长时间,我们获得了非常清晰且可测量的收益,这激发了在更大规模上预训练LLM的兴趣。
“这些结果表明,随着我们适当地扩大模型规模、数据和计算能力,语言建模性能会平稳且可预测地提高。我们预计更大的语言模型将比当前模型表现更好且更高效。” - 来自 [1]
缩放定律的实际应用
大规模预训练如此有益,这给我们带来了一个小小的困境。最佳结果是通过在大量数据上训练庞大的模型来实现的。然而,这些训练过程 成本极高 , 这意味着它们也带来了很大的风险 。如果我们花费1000万美元训练一个未能达到预期的模型怎么办?鉴于预训练的高昂费用,我们无法进行任何特定于模型的调优,我们必须确保我们训练的模型表现良好。我们需要制定一个策略来调优这些模型并预测它们的性能,而不需要花费太多资金。

这就是缩放定律的用武之地。到目前为止,我们已经看到了一些实证分析,证明了缩放定律的存在, 但这些缩放定律在AI研究中也有非常实际的应用 。特别是,我们可以:
-
使用各种训练设置训练一批较小的模型。
-
根据较小模型的性能拟合缩放定律。
-
利用缩放定律推测更大模型的性能。
当然,这种方法有其局限性。从较小模型预测较大模型的性能是困难的,可能不准确。模型可能会因规模不同而表现不同。然而, 各种方法 已被提出以使这一过程更可行,缩放定律现在常用于此目的。利用缩放定律预测较大模型的性能使我们作为研究人员更有信心(和安心)。此外,缩放定律为投资AI研究提供了一种简单的理由。
缩放与预训练时代
“这就是我们今天所见进步的驱动力——在庞大数据集上训练的超大规模神经网络。” - Ilya Sutskever
缩放定律的发现催化了最近在大型语言模型(LLM)研究中的许多进展。为了获得更好的结果,我们只需在更大(且 更好 !)的数据集上训练越来越大的模型。这一策略被用于创建多个GPT系列的模型,以及其他组织的许多著名模型。在这里,我们将深入探讨这一缩放研究的进程—— 最近被Ilya Sutskever描述为“预训练的时代” 5 。
GPT系列: GPT [2], GPT-2 [3], GPT-3 [4], 和 GPT-4 [5]
LLM缩放定律最广为人知和可见的应用是在OpenAI的GPT系列模型的创建中。我们将主要关注该系列的早期模型—— 直到GPT-3 ——因为:
-
这些模型的细节被更公开地分享。
-
后来的模型除了在预训练过程中进行扩展外,还大大受益于 后训练研究 的进步。
我们还将介绍一些来自GPT-4等模型的已知缩放结果。

原始的GPT模型 [2] 实际上相当小—— 总共12层和1.17亿个参数 。该模型首先在 BooksCorpus 上进行预训练,该数据集包含约7,000本书的原始文本。然后,我们通过使用监督训练目标并为每个任务创建一个单独的分类头来微调模型以解决各种下游任务;见上图。这篇论文是最早进行大规模 自监督预训练 的 仅解码器的Transformer 之一,这导致了一些有趣的发现:
-
在平面文本上进行自监督预训练非常有效。
-
使用长的、连续的文本片段进行预训练很重要。
-
以这种方式预训练后,单个模型可以微调以解决各种不同的任务,并达到最先进的准确性 6 。
总体而言,GPT并不是一个特别值得注意的模型,但它为后来的工作奠定了一些重要的基础(即,仅解码器的Transformer和自监督预训练),这些工作在更大规模上探索了类似的模型。

GPT-2 [3] 在GPT之后不久被提出,包括多个模型,参数规模最大可达15亿;见上文。这些模型与GPT模型共享相同的架构,并使用相同的自监督语言建模目标进行预训练。然而,GPT-2在预训练过程中相较于GPT做出了两个重大改变:
-
这些模型在 WebText 上进行预训练,该数据集 i) 比BooksCorpus大得多, ii) 是通过从互联网上抓取数据创建的。
GPT-2模型在大多数基准测试中未能达到最先进的性能 8 ,但其性能随着模型规模的增大而不断提高— 增加模型参数的数量带来了明显的好处 ;见下文。

[3]中的作者还揭示了GPT-2模型— 尽管其结果令人印象深刻 —似乎仍然未能充分利用WebText语料库。从这一发现中,我们可以推断出继续扩大LLM预训练规模— 无论是模型还是数据规模 —应该是有益的。尽管GPT-2模型并不特别强大,但这些模型的分析为我们提供了继续扩展的信心,并最终在AI研究中达到了一个拐点。
“一个具有足够容量的语言模型将开始学习推断和执行自然语言序列中展示的任务,以便更好地预测它们,无论其获取方法如何。” - 来自 [3]
GPT-3 [4] 是AI研究中的一个分水岭,明确证实了大规模预训练对LLM的好处。该模型拥有超过1750亿个参数,比最大的GPT-2模型大100多倍;见下文。

同样,GPT-3 使用的也是一种仅解码器的模型架构,这与之前的模型非常相似,但我们在一个更大的数据集上对模型进行了预训练,这个数据集基于 CommonCrawl 。这个数据集的规模大约是之前 WebText 数据集的 10 倍,[4] 中的作者将更大的预训练数据集与其他几个预训练数据源结合,创建了一个不同语料库的混合体;见下文。

在 [4] 中,GPT-3 主要通过使用 少样本学习 方法进行评估。下图展示了少样本提示(GPT-3 使用)、零样本提示(GPT-2 使用)和微调(GPT 使用)之间的区别。

少样本学习是一种新范式,其中大型语言模型(LLM)通过在其上下文窗口中放置的示例来学习如何执行任务。[4] 中的作者将这一概念称为“上下文学习”。在这种情况下,LLM 实际上并没有“学习”—— 模型的权重根本没有更新 。相反,模型输入中的示例被用作生成更准确输出的上下文。[4] 中我们看到,GPT-3 是一个高度有能力的少样本学习者,这似乎表明上下文学习是较大模型的一种涌现 9 能力;见下文。

当对GPT-3进行各种语言理解任务的评估时,我们发现使用更大的模型显著提升了少样本学习的性能,如下图所示。相较于较小的模型,较大的模型能够更好且更高效地利用其上下文窗口中的信息。GPT-3能够通过少样本学习在多个任务上超越最先进的性能,并且模型的性能随着规模的增大而平稳提升。

当时,一个单一模型能够在如此多的任务上表现出色是非常令人印象深刻的。解决这些任务不需要对基础模型进行任何微调或更改—— 我们只需调整模型的提示 。GPT-3是首批真正的 基础模型 之一。这个模型开启了AI研究的下一个时代,并引入了一种全新且直观的与大型语言模型(LLM)交互的范式(即提示)。
超越GPT-3。 GPT-3的出色表现引发了对LLM研究的极大兴趣,主要集中在大规模预训练上。OpenAI接下来发布的几个模型—— InstructGPT [8]、 ChatGPT 和GPT-4 [5] ——结合了大规模预训练和新的后训练技术(即 监督微调 和 来自人类反馈的强化学习 )来大幅提升LLM的质量。这些模型如此出色,以至于它们甚至引发了公众对AI研究的极大兴趣。
“GPT-4是一个基于Transformer的模型,预训练用于预测文档中的下一个标记。后训练的对齐过程提高了在事实性和符合期望行为方面的表现。” - 来自[5]
此时,OpenAI开始减少对其研究的详细披露。相反,新模型仅通过 其API 发布,这使得公众无法了解这些模型是如何创建的。幸运的是,从OpenAI发布的材料中可以获取一些有用的信息。例如,InstructGPT [8]—— ChatGPT的前身 ——有一篇相关论文详细记录了模型的后训练策略;见下文。鉴于这篇论文还指出GPT-3是InstructGPT的基础模型,我们可以合理推测该模型性能的提升与扩大预训练过程无关。

与 ChatGPT 相比,GPT-4 的能力有了显著提升。然而,研究人员选择分享的 GPT-4 技术细节却很少。GPT-4 的技术报告 [5] 仅仅告诉我们:
-
GPT-4 基于 transformer 架构。
-
该模型通过预测下一个词进行预训练。
-
使用了公共和授权的第三方数据。
-
模型通过人类反馈的强化学习进行微调。
尽管如此,这份技术报告中清楚地表明了扩展的重要性。作者指出,这项工作中的一个关键挑战是开发一个可扩展的训练架构,该架构在不同规模上表现可预测,从而允许小规模运行的结果被外推,以对大规模(且显著更昂贵!)的训练工作提供信心。
“经过适当训练的大型语言模型的最终损失……可以通过用于训练模型的计算量的幂律来近似。” - 来自 [5]
大规模预训练非常昂贵,因此我们通常只有一次机会做到正确—— 没有针对特定模型的调优空间 。扩展定律在这个过程中起着关键作用。我们可以使用少 1,000-10,000 倍的计算量来训练模型,并利用这些训练运行的结果来拟合幂律。然后,这些幂律可以用来预测更大模型的性能。特别是在 [8] 中,我们看到 GPT-4 的性能是通过测量计算量与测试损失之间关系的幂律来预测的;见下文。

这个表达式看起来几乎与我们之前看到的相同,但它增加了一个不可减少的损失项,以解释 LLM 的测试损失可能永远无法达到零的事实。一旦拟合,扩展定律就被用来以非常高的准确性预测 GPT-4 的最终性能;见下文的描述。在这里,我们应该注意到,图表不是使用对数刻度生成的,我们看到随着计算量的增加,损失的改善显然开始减缓!

文献[5]中的作者还指出,测试损失并不是一个容易解释的指标,因此他们尝试预测多种其他性能指标。例如,他们拟合了一条缩放定律来预测大型语言模型(LLM)在 HumanEval 编码基准测试中的通过率。首先,将HumanEval中的问题根据难度分成不同的桶。然后,拟合一条缩放定律来预测LLM的通过率。我们在[5]中看到,使用这种方法可以准确预测GPT-4在HumanEval上的通过率,而所需的计算量仅为原来的1,000倍;见下图。

正如我们所见,扩大预训练过程是有价值的。然而,大规模的预训练也非常昂贵。 缩放定律使这一过程更加可预测 ,从而帮助我们避免不必要或过度的计算成本。
Chinchilla: 训练计算最优的大型语言模型 [5]

在[1]中,作者建议在扩展大型语言模型(LLM)预训练时,模型的规模应比数据集的规模增长得更快。然而,GPT-3之后的大多数预训练研究表明,我们应该反其道而行之。我们训练了比GPT-3大得多的模型—— 例如5300亿参数的MT-NLG [9]模型 ——但用于训练这些模型的数据集规模与GPT-3相似;见上图。这些模型并没有在性能上超越GPT-3,而那些结合了更多参数和更多数据的模型(例如Gopher [10])表现得更好;见下图。

计算优化的扩展法则。 受这些观察结果的启发,[6]中的作者完全重新考虑了最初在[1]中提出的扩展法则的最佳实践。[6]中的扩展法则分析是通过更大规模的模型进行的,得出的结果与之前略有不同。更具体地说,大小从70M到170亿参数的LLM在超过一万亿个标记的数据集上进行了训练;见下图。

通过训练大型语言模型(LLM)时使用不同的模型和数据规模组合,我们可以发现一种幂律关系,该关系可以预测LLM的测试损失与这些因素的关系。通过这些幂律关系,我们可以确定在给定计算预算下哪些训练设置效果最佳。[6]中的作者认为,计算最优的训练 10 应该使模型和数据规模成比例地扩展。这样的发现揭示了大多数LLM相对于其规模而言训练不足—— 我们将从对现有LLM进行更多数据训练中受益 。例如,[6]中拟合的缩放定律预测Gopher应该在一个大20倍的数据集上进行训练!
“预计所需的训练数据量远远超过目前用于训练大型模型的数据量。” - 来自 [6]
Chinchilla。 [6]中的分析强调了数据规模的重要性。 大型模型需要在更多数据上进行训练以达到最佳性能 。为了验证这一发现,作者训练了一个名为Chinchilla的700亿参数LLM。与之前的模型相比,Chinchilla较小但预训练数据集更大—— 总共有1.4万亿个训练标记 。Chinchilla使用与Gopher相同的数据和评估策略[10]。尽管比Gopher小4倍,Chinchilla始终表现优于较大的模型;见下文。

Chinchilla [6]提出的缩放定律在之后的几年中成为AI研究的标准。“Chinchilla-optimal”现在是一个常用术语。即使在今天,在大量额外的缩放研究发表之后,Chinchilla及其相关的缩放定律仍然被不断引用。
缩放定律的“终结”
缩放定律最近成为AI研究中一个热门(且有争议)的话题。正如我们在本概述中所见,缩放推动了预训练时代AI的大多数进步。然而,随着2024年下半年模型发布和改进的步伐放缓,我们开始看到对模型缩放的广泛质疑,似乎表明AI研究—— 尤其是缩放定律 ——可能正面临瓶颈。
-
路透社 称,由于当前方法的扩展遇到了瓶颈,OpenAI 正在调整其产品策略。
-
The Information 指出,GPT 模型的改进速度开始放缓。
-
彭博社 强调,多个前沿实验室在构建更先进的 AI 时面临困难。
-
TechCrunch 称,扩展开始显示出收益递减的趋势。
-
时代杂志 发表了一篇深刻的文章,指出 AI 研究放缓的各种因素。
-
Ilya Sutskever 在 NeurIPS’24 的 终身成就奖演讲 中表示, “我们所知的预训练将终结” 。
与此同时,许多专家持相反观点。例如, Dario Amodei (Anthropic CEO)表示,扩展 “可能……会继续” ,而 Sam Altman 则继续推动 “没有墙” 的说法。在本节中,我们将通过提供对当前扩展状态的深入解释以及可能存在的各种问题,为这一讨论增添更多色彩。
扩展放缓:这意味着什么?为什么会发生?
“两种说法都可能成立:从技术层面看,扩展仍在进行。但用户体验的改进速度在放缓。” - Nathan Lambert
那么…… 扩展真的在放缓吗? 答案很复杂,极大地取决于我们对“放缓”的确切定义。到目前为止,我见过的对此问题最合理的回答是,两种答案都是正确的。因此,我们不会试图回答这个问题。相反,我们将深入研究研究告诉我们的内容,以便对 LLM 扩展的当前(和未来)状态建立更细致的理解。
扩展定律告诉我们什么? 首先,我们需要回顾扩展定律的技术定义。扩展定律基于幂律定义了训练计算(或模型/数据集大小)与 LLM 测试损失之间的关系。然而, 这种关系的性质常常被误解 。从对数级增加计算中获得指数级性能提升的想法是一个神话。扩展定律更像是指数衰减,这意味着我们需要随着时间的推移更加努力地获得进一步的性能提升;见下图。

换句话说, 扩展定律会随着时间自然趋于平稳 。因此,我们目前经历的“放缓”可以说是 LLM 扩展定律的预期部分。
“从业者通常使用下游基准准确性作为模型质量的代理,而不是困惑度评估集上的损失。” - 来自 [7]
定义性能。 我们如何衡量 LLM 是否在改进? 从扩展定律的角度来看,LLM 的性能通常通过预训练期间的测试损失来衡量,但较低的测试损失对 LLM 能力的影响尚不明确。 较低的损失是否会导致下游任务的更高准确性?较低的损失是否会使 LLM 获得新的能力? 在扩展定律告诉我们的内容和我们实际关心的内容之间存在脱节:
-
扩展定律告诉我们,增加预训练的规模将平滑地降低 LLM 的测试损失。
-
我们关心的是获得一个“更好”的 LLM。
根据你的身份,你对新 AI 系统的期望—— 以及你用来评估这些新系统的方法 ——会有很大不同。普通 AI 用户往往关注一般的聊天应用,而从业者通常关心 LLM 在下游任务上的表现。相比之下,顶尖前沿实验室的研究人员似乎对 AI 系统有很高(且非常具体)的期望;例如, 撰写博士论文 或解决 高级数学推理问题 。鉴于 LLM 具有如此广泛的能力,评估是困难的,我们可以从许多角度来看待 LLM 的性能;见下文。

鉴于模型期望的巨大差异,提供明确的证据证明扩展“有效”将始终是一项挑战。我们需要对扩展法则的成功有一个更具体的定义。如果科学告诉我们更大的模型将实现更低的损失,这并不意味着新模型将满足每个人的期望。未能实现AGI或超越获奖人类数学家的能力并不能证明扩展在技术层面上不起作用!换句话说,可以说扩展的“放缓”是一个感知和期望问题,而不是扩展法则的技术问题。
数据枯竭。 为了扩大LLM的预训练,我们必须同时增加模型和数据集的规模。早期的研究[1]似乎表明数据量不如模型大小重要,但我们在Chinchilla[6]中看到数据集大小同样重要。此外,最近的研究表明,大多数研究人员更倾向于“过度训练”他们的模型—— 或在超出Chinchilla最优规模的数据集上进行预训练 ——以节省推理成本[7]。
“扩展研究通常关注计算最优的训练模式……由于更大的模型在推理时更昂贵,现在常见的做法是过度训练较小的模型。” - 来自[7]
所有这些研究得出一个简单的结论—— 扩大LLM预训练将需要我们创建更大的预训练数据集 。这一事实构成了对LLM扩展法则的关键批评之一。许多研究人员认为,可能没有足够的数据可用于继续扩展预训练过程。作为背景,目前用于LLM的大部分预训练数据是通过网络抓取获得的;见下图。鉴于我们只有一个互联网,找到全新的大规模、高质量的预训练数据源可能很困难。

即使是Ilya Sutskever也 最近提出了这个观点 ,声称 i) 计算能力正在快速增长,但 ii) 由于依赖网络抓取,数据并没有增长。因此,他认为我们不能永远继续扩大预训练过程。我们所知的预训练将结束,我们必须为AI研究找到新的进步途径。换句话说, “我们已经达到了数据的顶峰” 。
预训练的下一代扩展
扩展最终将导致收益递减,反对继续扩展的数据中心论点既合理又有说服力。然而,仍然有几个研究方向可以改进预训练过程。

合成数据。 为了将预训练过程扩大几个数量级,我们可能需要依赖合成生成的数据。尽管人们担心过度依赖合成数据会导致多样性问题 [14],但我们看到合成数据在大型语言模型(LLM)中的使用越来越多—— 而且 似乎很成功 [12]。此外,课程学习 [13] 和 持续预训练 策略通过调整预训练数据(例如,改变数据组合或在预训练结束时添加指令数据)带来了各种有意义的改进。

实用的缩放法则。 最近的研究试图解决基于测试损失的缩放法则的局限性。例如,[7] 中的作者定义了可以用来预测LLM在下游基准测试中表现的缩放法则;见上图。对于人类来说,解释这些指标要容易得多。我们可能不知道测试损失减少5%意味着什么,但在我们感兴趣的基准测试中从85%跳到90%的准确率通常很容易理解。其他一些研究也探索了使用缩放法则来提供更实用和有意义的LLM性能估计的想法;例如,在后训练和量化之后 [16] 或在预训练过程中 [17]。
DeepSeek-v3。 尽管最近有争论,但通过扩展LLM预训练过程,我们仍然看到半频繁的进展。例如,DeepSeek-v3 [18]—— 一个671B参数 12 专家混合 (MoE)模型 ——最近发布。除了开源之外,该模型在14.8T文本标记上进行了预训练,并超越了GPT-4o和Claude-3.5-Sonnet的性能;请参见下文了解该模型的性能,并 此处 了解许可证。作为参考,LLaMA-3模型在超过15T的原始文本数据上进行训练;详情请见 此处 。

在开放权重的大型语言模型(LLM)中,能够超越像GPT-4o这样的模型是一个显著的进步—— 即使是 最大的LLaMA模型 也未能达到这一目标 。DeepSeek-v3采用了多种有趣的技巧:
-
从 DeepSeek-v2 优化的MoE架构。
-
一种新的无辅助损失的 负载平衡 MoE策略。
-
一种 多标记预测 训练目标。
-
从长链思维模型中提炼推理能力(即类似于 OpenAI的o1 )。
该模型还经过后期训练,包括监督微调和来自人类反馈的强化学习,以使其符合人类偏好。
“我们在14.8T高质量和多样化的标记上训练DeepSeek-V3。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或需要回滚的情况。” - 来自 [8]
然而,DeepSeek-v3令人印象深刻的性能的最大关键在于预训练规模—— 这是一个在同样庞大的数据集上训练的巨大模型 !训练如此大的模型由于多种原因(例如GPU故障和损失峰值)而变得困难。DeepSeek-v3的预训练过程出奇地稳定,并且按LLM标准以合理的成本进行训练;见下文。 这些结果表明,较大规模的预训练任务正变得越来越可控和高效 。

按数量级增加规模。 为了继续测试我们的缩放定律,我们必须训练比当前模型大几个数量级的LLM。撇开我们对缩放效用的看法不谈,仍然有各种限制阻碍着训练这种规模的模型。我们将需要:
训练下一代模型不仅仅是为更多GPU筹集资金的问题,它是一项多学科的工程壮举。这种复杂的工作需要时间。作为参考,GPT-4于2023年3月发布,距离GPT-3发布近三年—— 特别是33个月 。可以合理地预期,解锁另一个10-100倍的规模增长需要类似的时间表(如果不是更长的话)。
AI研究的未来
现在我们对预训练的扩展状态有了更深入的了解,假设(仅为讨论目的)预训练研究将突然遇到瓶颈。即使模型能力在短期内没有任何提升,AI研究仍然可以通过多种方式迅速进步。我们已经讨论过其中的一些主题(例如,合成数据)。在本节中,我们将重点关注当前流行的两个主题:
-
LLM系统/代理。
-
推理模型。
构建有用的LLM系统
目前大多数基于LLM的应用程序都在单一模型范式下运行。换句话说,我们通过将任务传递给单个LLM并直接使用模型的输出作为该任务的答案来解决任务;见下图。

如果我们想要改进这样的系统(即以更高的准确性解决更难的任务),我们可以简单地提高底层模型的能力,但这种方法依赖于创建更强大的模型。相反,我们可以超越单一模型范式,构建一个结合多个LLM或其他组件的LLM系统来解决复杂任务。

LLM系统基础。 LLM系统的目标是将复杂任务分解成更容易解决的小部分。我们可以使用两种主要策略来实现这一目标(如上图所示):
-
任务分解 :将任务本身分解成可以单独解决的小子任务,然后 14 聚合这些子任务以形成最终答案。
-
链式处理 :通过多次连续调用LLM来解决任务或子任务,而不是一次性调用。
这些策略可以单独使用或结合使用。例如,假设我们想要构建一个系统来总结书籍。为此,我们可以通过首先总结每一章来分解任务。从这里,我们可以:
-
进一步将任务分解为更小的文本块进行总结(即,类似于 递归/分层分解 )。
-
将多个LLM调用串联在一起;例如,让一个LLM提取章节中的所有重要事实或信息,然后让另一个LLM根据这些关键事实生成章节总结。
然后,我们可以通过让LLM总结连接的章节总结来聚合这些结果,从而形成整本小说的总结。大多数复杂任务都可以分解成易于解决的简单部分,这使得这样的LLM系统非常强大。随着我们进行更广泛的分解和链式处理,这些系统可以变得非常复杂,使其成为应用AI研究中一个有趣且有影响力的领域。
构建基于LLM的产品。 尽管LLM(大型语言模型)取得了成功并广受欢迎,但LLM的实际(且被广泛采用的)用例数量仍然很少。目前,LLM最大的用例是代码生成和聊天,这两者都是LLM相对显而易见的应用 15 ;见下文。

鉴于LLM有许多成熟的应用领域, 简单地构建更多真正有用的基于LLM的产品是应用AI研究的一个重要领域 。我们已经可以使用非常强大的模型,但使用这些模型构建一个值得使用的产品是一个完全不同的问题。解决这个问题需要学习如何构建可靠且有能力的LLM系统。

代理。 LLM系统和代理之间的界限模糊,因为“代理”这个术语已经被AI社区 过度使用 。然而,我们需要理解的关键概念是 LLM系统可以通过多种有趣且有意义的方式进行扩展 。例如,我们可以通过教会LLM如何在解决问题时使用工具(如计算器、搜索引擎等)来增强LLM;见上文。此外,我们可以允许LLM执行自己的程序,甚至为我们执行操作;例如,预订酒店或发送电子邮件。可以与LLM集成的众多模块和工具为构建更强大和有用的LLM系统提供了无限可能。
鲁棒性 是构建更强大LLM/代理系统的最大障碍之一。假设我们有一个LLM系统,它对LLM进行十次不同的调用。此外,假设每次LLM调用的成功率为95%,并且所有调用都需要成功才能生成正确的最终输出。尽管该系统的各个组件都相当准确, 但整个系统的成功率只有60% !

随着我们添加更多的组件,这个问题会呈指数级恶化,这限制了我们可以构建的LLM/代理系统的复杂性。构建更复杂的系统需要我们大幅提高每个系统组件的稳健性。 最近的研究 表明,通过扩展可以提高稳健性。然而,我们也可以通过更好的元生成算法来提高稳健性;见上文。这些算法不是从LLM生成单一输出,而是使用并行解码、(步骤级)验证、批判等方法来从LLM获得更精细和准确的输出。

这一研究领域正在快速进展,并可能成为AI研究进步的关键驱动力;详见[20]的深入调查。随着元生成算法的改进,LLM将变得更加稳健,我们将能够构建越来越复杂的LLM/代理系统。
推理模型和新的扩展范式
早期LLM的一个常见批评是它们只是简单地记忆数据,几乎没有推理能力。然而,近年来,LLM无法推理的说法已被大大驳斥。我们从最近的研究中了解到,这些模型可能一直具有推理能力,但我们需要使用正确的提示或训练方法来引出这种能力。
链式思维(CoT)提示 [22] 是最早展示LLM推理能力的技术之一。这种方法简单且基于提示。我们只需在生成实际响应之前要求LLM为其响应提供解释;详情请见 这里 。当LLM生成一个概述到达响应的 逐步 过程的理由时,其推理能力显著提高。此外,这种解释是人类可读的,可以使模型的输出更具可解释性!

思维链的概念既通用又强大。事实上,思维链已经成为提升大型语言模型(LLM)推理能力的关键概念,我们已经看到这种技术被多种方式重新利用:
-
LLM-as-a-Judge风格的评估模型通常在生成最终评估结果之前提供评分理由 [23, 24]。
-
已经提出了监督微调和指令微调策略,用于教导较小/开放的LLM编写更好的思维链 [25, 26]。
-
通常要求LLM反思并批判或验证其自身输出,然后根据这些信息修正其输出 [12, 27]。
复杂推理是一个快速发展的活跃研究课题。新的训练算法教导LLM在其推理过程中结合(步骤级别的)验证 [28, 29],已显示出有希望的结果,随着新的和更好的训练策略的出现,我们可能会继续看到改进。
OpenAI的o1推理模型 [21] 标志着LLM推理能力的显著提升。o1使用的推理策略主要基于思维链。类似于人类在回答问题前会先思考,o1在提供回答前会花时间“思考”。实际上,o1生成的“思考”只是长长的思维链,模型用它来思考问题,将问题分解为更简单的步骤,尝试多种解决问题的方法,甚至纠正自己的错误 16 。
“OpenAI o1 [是] 一种新的大型语言模型,通过RL训练以执行复杂推理。o1在回答之前会思考——它可以在响应用户之前产生长长的内部思维链。” - 来自 [21]
o1的确切训练策略的细节尚未公开。然而,我们知道o1被教导使用一种“大型强化学习”算法进行推理,该算法“数据效率极高”,并专注于提高模型生成有用思维链的能力。根据OpenAI研究人员的 公开评论 和 最近关于o1的言论 ,该模型似乎是通过纯强化学习训练的,这与早期认为o1可能在推理时使用某种形式的树搜索的观点相矛盾。

如前所述,o1在复杂推理任务中的表现令人印象深刻。o1在几乎所有重推理任务上都优于GPT-4o;见上图。作为o1推理能力的一个例子,该模型:
-
在 Codeforces 的竞赛编程问题中,成绩位于第89百分位。
-
在美国数学奥林匹克( AIME )的预选赛中,进入美国前500名学生。
-
在研究生水平的物理、生物和化学问题上,准确性超过人类博士生( GPQA )。

从 o1 到 o3。 o1 的一个最有趣的方面是模型的推理能力可以通过在推理时使用更多的计算资源来提高。为了解决越来越复杂的问题,模型可以简单地生成更长的思维链;参见 这里 的例子。使用更多的推理时间计算来生成这些更长的思维链,可以平滑地提高模型的推理性能;见下文。
“我们发现,o1 的性能随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而不断提高。” - 来自 [22]
同样,我们在上图中看到,随着我们通过强化学习在训练中投入更多的计算资源,o1 的性能平稳提高。这正是创建 o3 推理模型所遵循的方法。OpenAI 在2024年底 预览 了该模型的评估结果,关于 o3 的公开细节非常少。然而,鉴于该模型在 o1 发布后仅三个月就迅速推出,o3 很可能是一个 “放大版” o1 ,在强化学习中投入了更多的计算资源。

截至撰写本文时,o3 模型尚未发布,但通过扩展 o1 所取得的成果令人印象深刻(甚至在某些情况下令人震惊)。o3 的最显著成就如下所列:
-
在 ARC-AGI 基准测试 中取得了 87.5% 的得分,而 GPT-4o 仅达到 5% 的准确率。o3 是第一个在 ARC-AGI 上超过人类水平(85%)的模型。这个基准测试被描述为通向 AGI 的“北极星”,并且在过去五年中一直无人能超越 17 。
-
在 SWE-Bench Verified 上的准确率为 71.7%,在 Codeforces 上的 Elo 评分 为 2727,这使得 o3 位列全球前 200 名人类竞争程序员之中。
-
在 EpochAI 的 FrontierMath 基准测试 中取得了 25.2% 的准确率, 相比之前的最先进水平 2.0% 有了显著提升 。这个基准测试被 Terence Tao 描述为“极其困难”,并且可能在“至少几年内”无法被 AI 系统解决。
o3 的一个精简版本,称为 o3-mini,也进行了预览,表现非常出色,并在计算效率上有显著提升。

新的扩展范式。 在阅读了这篇概述后,许多由 o1 和 o3 提出的图表(见上图)可能看起来很熟悉—— 这些是对数刻度图,我们看到随着计算量的增加,性能呈现出平滑的线性增长 !换句话说,我们看到这些推理模型的性能与两个不同量之间存在明显的幂律关系:
-
训练时间(强化学习)计算。
-
推理时间计算。
扩展 o1 风格的模型与传统的扩展定律不同。我们不是扩大预训练过程,而是增加后训练和推理中投入的计算量。 这是一种全新的扩展范式 ,通过扩展推理模型所取得的成果迄今为止非常出色。这一发现向我们展示了其他扩展途径—— 超越预训练 ——显然是存在的。随着推理模型的出现,我们发现了下一个需要攀登的高峰。尽管它可能以不同的形式出现, 扩展仍将继续推动 AI 研究的进步 。
结语
我们现在对扩展定律、它们对大型语言模型(LLM)的影响以及 AI 研究未来的进展方向有了更清晰的认识。正如我们所了解到的,最近对扩展定律的批评有许多因素:
-
扩展定律的自然衰减。
-
对 LLM 能力期望的高度差异。
-
大规模跨学科工程努力的延迟。
这些问题是合理的, 但 没有一个表明扩展不再按预期工作 。对大规模预训练的投资将(并且应该)继续,但随着时间的推移,改进将变得越来越困难。因此,其他进展方向(例如,代理和推理)将变得更加重要。然而,当我们投资于这些新研究领域时,扩展的基本理念将继续发挥重要作用。扩展是否会继续不是问题。 真正的问题是我们接下来要扩展什么 。
新订阅者?
你好!我是 Cameron R. Wolfe ,Netflix 的深度学习博士和机器学习科学家。这是 Deep (Learning) Focus 通讯,我帮助读者更好地理解 AI 研究中的重要主题。如果你喜欢这份通讯,请订阅、分享或在 X 和 LinkedIn 上关注我!
参考文献
[1] Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
[2] Radford, Alec. "Improving language understanding by generative pre-training." (2018).
[3] Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
[4] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
[5] Achiam, Josh, et al. "Gpt-4 technical report." arXiv preprint arXiv:2303.08774 (2023).
[6] Hoffmann, Jordan, et al. "Training compute-optimal large language models." arXiv preprint arXiv:2203.15556 (2022).
[7] Gadre, Samir Yitzhak, et al. "Language models scale reliably with over-training and on downstream tasks." arXiv preprint arXiv:2403.08540 (2024).
[8] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in neural information processing systems 35 (2022): 27730-27744.
[9] Smith, Shaden, et al. "Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model." arXiv preprint arXiv:2201.11990 (2022).
[10] Rae, Jack W., et al. "Scaling language models: Methods, analysis & insights from training gopher." arXiv preprint arXiv:2112.11446 (2021).
[11] Bhagia, Akshita, et al. "Establishing Task Scaling Laws via Compute-Efficient Model Ladders." arXiv preprint arXiv:2412.04403 (2024).
[12] Bai, Yuntao, et al. "Constitutional ai: Harmlessness from ai feedback." arXiv preprint arXiv:2212.08073 (2022).
[13] Blakeney, Cody, et al. "Does your data spark joy? Performance gains from domain upsampling at the end of training." arXiv preprint arXiv:2406.03476 (2024).
[14] Chen, Hao, et al. "On the Diversity of Synthetic Data and its Impact on Training Large Language Models." arXiv preprint arXiv:2410.15226 (2024).
[15] Guo, Zishan, et al. "Evaluating large language models: A comprehensive survey." arXiv preprint arXiv:2310.19736 (2023).
[16] Xu, Zifei, et al. "Scaling laws for post-training quantized large language models." arXiv preprint arXiv:2410.12119 (2024).
[17] Xiong, Yizhe, et al. "Temporal scaling law for large language models." arXiv preprint arXiv:2404.17785 (2024).
[18] DeepSeek-AI 等人. "DeepSeek-v3 技术报告." https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf (2024).
[19] Schick, Timo 等人. "Toolformer: 语言模型可以自学使用工具." arXiv 预印本 arXiv:2302.04761 (2023).
[20] Welleck, Sean 等人. "从解码到元生成:大型语言模型的推理时间算法." arXiv 预印本 arXiv:2406.16838 (2024).
[21] OpenAI 等人. “学习使用 LLMs 推理.” https://openai.com/index/learning-to-reason-with-llms/ (2024).
[22] Wei, Jason 等人. "链式思维提示在大型语言模型中引发推理." 神经信息处理系统进展 35 (2022): 24824-24837.
[23] Liu, Yang 等人. "G-eval: 使用 GPT-4 进行更好的人类对齐的自然语言生成评估." arXiv 预印本 arXiv:2303.16634 (2023).
[24] Kim, Seungone 等人. "Prometheus: 在语言模型中引入细粒度评估能力." 第十二届国际学习表征会议 . 2023.
[25] Ho, Namgyu, Laura Schmid 和 Se-Young Yun. "大型语言模型是推理教师." arXiv 预印本 arXiv:2212.10071 (2022).
[26] Kim, Seungone 等人. "COT 集合:通过链式思维微调改进语言模型的零样本和少样本学习." arXiv 预印本 arXiv:2305.14045 (2023).
[27] Weng, Yixuan 等人. "大型语言模型通过自我验证成为更好的推理者." arXiv 预印本 arXiv:2212.09561 (2022).
[28] Lightman, Hunter 等人. "让我们逐步验证." arXiv 预印本 arXiv:2305.20050 (2023).
[29] Zhang, Lunjun 等人. "生成验证器:作为下一个令牌预测的奖励建模." arXiv 预印本 arXiv:2408.15240 (2024).
两个主要报告来自 The Information 和 路透社 .
我们使用以下设置生成图表:
a = 1
,
p = 0.5
, 和
0 < x < 1
.
计算在 [1] 中定义为
6NBS
, 其中
N
是模型参数的数量,
B
是训练期间使用的批量大小,
S
是训练步骤的总数.
这个额外的乘法常数不会改变幂律的行为。要理解为什么会这样,我们必须理解 尺度不变性 的定义。因为幂律是尺度不变的,所以即使我们按某个因子放大或缩小,幂律的基本特征也是相同的。在任何尺度下观察到的行为都是相同的!
这个描述来自 Ilya 在 NeurIPS’24 上为 这篇论文 获得的时间考验奖。
虽然这现在可能显而易见,但我们应该记住,当时大多数 NLP 任务(例如,摘要和问答)都有专门的研究领域!每个任务都有与之相关的特定任务架构,这些架构专门用于执行该任务,而 GPT 是一个通用模型,可以在多个不同任务中超越大多数这些架构。
这意味着我们只需在 LLM 的提示中描述每个任务,并使用相同的模型来解决不同的任务— 只有提示在任务之间变化 。
这是可以预期的,因为这些模型使用零样本推理,并且在任何下游任务上都没有进行微调。
通过“突现”能力,我们指的是 LLM 在达到一定规模后才会出现的技能(例如,足够大的模型)。
在这里,我们将“计算最优”定义为在固定训练计算成本下, 在测试损失方面 获得最佳性能的训练设置。
在固定计算成本下的最佳性能
例如,Anthropic 一直推迟发布 Claude 3.5 Opus ,Google 仅发布了 Gemini-2 的闪存版本 ,而 OpenAI 仅在 2024 年发布了 GPT-4o (直到 12 月发布了 o1 和 o3),这可以说并没有比 GPT-4 更强大。
在单个令牌推理期间,只有 370 亿个参数是活跃的。
例如,xAI 最近在孟菲斯建造了一个拥有 100,000 个 NVIDIA GPU 的 新数据中心 ,而 Anthropic 的领导层则 表达了 在未来几年内将计算支出增加至 100 倍的愿望。
聚合步骤可以通过多种方式实现。例如,我们可以手动聚合响应(例如,通过连接),使用 LLM,或几乎介于两者之间的任何方式!
这并不是因为这些任务简单。代码生成和聊天都很难解决,但它们(可以说)是 LLM 的相当明显的应用。
OpenAI 选择对 o1 的用户隐藏这些长链思维。做出这一选择的理由是,这些推理提供了对模型思维过程的洞察,可以用来调试或监控模型。然而,模型应该被允许表达其纯粹的想法,而不需要用户面对的模型输出所需的任何安全过滤。
目前,ARC-AGI 技术上仍然未被击败,因为 o3 超出了基准的计算要求。然而,该模型在较低的计算设置下仍然达到了 75.7% 的准确率。
文章来源:Scaling Laws for LLMs: From GPT-3 to o3
关键问题与行动计划
关键问题 1: 在当前的AI研究环境中,如何评估和预测大语言模型(LLMs)在未来的性能和应用潜力?
行动计划:
- 开展文献综述:研究团队将对现有的关于LLMs的文献进行系统性综述,特别关注最新的研究成果和趋势,以识别影响模型性能的关键因素和潜在的技术瓶颈。
- 建立预测模型:数据团队将利用历史数据和现有的Scaling Laws,构建预测模型,以评估不同规模和配置的LLMs在特定任务上的表现,从而为投资决策提供数据支持。
关键问题 2: 如何识别和评估新兴的AI应用领域,特别是在LLMs的基础上构建的系统和代理?
行动计划:
- 市场需求分析:研究团队将进行市场需求分析,识别当前和未来可能的应用领域,特别是那些尚未被充分开发的领域,如教育、医疗和法律等行业的AI应用。
- 案例研究收集:数据团队将收集和分析成功的LLM应用案例,评估其商业模式和市场反馈,以识别最佳实践和潜在的投资机会。
关键问题 3: 在LLMs的训练和推理过程中,如何优化计算资源的使用,以降低成本并提高效率?
行动计划:
- 资源优化研究:研究团队将研究当前的计算资源使用情况,分析不同模型和数据集规模对计算效率的影响,提出优化建议。
- 实验设计:数据团队将设计实验,测试不同的训练策略(如分布式训练、混合精度训练等)对计算资源使用的影响,以寻找最佳的资源配置方案。
请告诉我们你对此篇总结的改进建议,如存在内容不相关、低质、重复或评分不准确,我们会对其进行分析修正