ONE SENTENCE SUMMARY:
AI行业对模型扩展的信心动摇,推测推理扩展将成为未来发展的关键,但进展和影响仍不确定。
MAIN POINTS:
- 模型扩展的死亡宣告为时尚早,仍需更多证据。
- 推理扩展可能带来短期能力提升,但不均匀且不可预测。
- AI能力提升与社会经济影响之间的联系极其薄弱。
TAKEAWAYS:
- 行业内人士的预测往往受商业利益影响,需谨慎对待。
- 推理扩展的成功依赖于问题类型和计算量。
- 产品开发滞后于AI能力提升,需关注实际应用。
作者:Arvind Narayanan、Benedikt Ströbl 和 Sayash Kapoor 。
自2023年3月GPT-4发布后,科技界的 主流观点 认为,继续扩大模型规模将导致人工通用智能,进而达到超级智能。虽然这些极端预测逐渐消退,但直到一个月前,AI行业普遍认为模型规模化将在可预见的未来继续下去。
随后,《 The Information 》、《 路透社 》和《 彭博社 》接连报道了三大AI开发商——OpenAI、Anthropic和Google Gemini——在下一代模型上遇到了问题。包括Ilya Sutskever在内的许多行业内部人士,现在的说法大相径庭:
“2010年代是规模化的时代,现在我们又回到了奇迹和发现的时代。每个人都在寻找下一个突破点,”Sutskever说。“现在比以往任何时候都更重要的是扩大正确的东西。”(路透社)
新的主流观点似乎是模型规模化已死,而“推理规模化”,也称为“测试时计算规模化”,是提高AI能力的未来方向。其理念是在使用模型执行任务时投入更多的计算资源,例如让模型在响应前“思考”。
这让AI观察者对AI能力的进展是否放缓感到困惑。在这篇文章中,我们将探讨这一问题的证据,并提出四个主要观点:
-
宣布模型规模化的终结为时过早。
-
无论模型规模化是否会继续,行业领导者在这一问题上的反复无常显示了信任他们预测的愚蠢。他们并不比我们其他人更了解情况,他们的叙述很大程度上受到既得利益的影响。
-
推理规模化是真实存在的,并且有很多低垂的果实,这可能在短期内带来快速的能力提升。但总体而言,推理规模化带来的能力提升可能是不可预测的,并且在不同领域之间分布不均。
-
能力提升与AI的社会或经济影响之间的联系极其微弱。影响的瓶颈在于产品开发的速度和采用的速度,而不是AI的能力。
模型规模化已死吗?
导致这一突然转变的新的信息非常少。我们在这个 新闻通讯 中早已指出,模型规模化面临重要的阻力。正如我们当时对规模化炒作的警告一样,我们现在也必须警惕对模型规模化过度悲观。
“常规规模化”在GPT-4级别的模型中结束,因为这些模型已经在大多数现成的数据源上进行了训练。我们早已知道需要新的想法来保持模型规模化的进展。因此,除非有证据表明许多这样的想法已经尝试过并失败,否则我们不能断定模型规模化没有更多的潜力。
举个例子,将YouTube视频——实际的视频,而不是转录的文本——纳入多模态模型的训练中可能会解锁新的能力。或者这可能没有帮助;我们只有在有人尝试后才会知道,而且我们不知道是否已经有人尝试过。请注意,这可能需要Google来进行,因为该公司不太可能将YouTube训练数据授权给竞争对手。 1
如果关于模型规模化的情况仍然如此不确定,为什么叙述会发生变化?好吧,自GPT-4完成训练以来已经超过两年,因此下一代模型只是比预期花费更长时间的想法变得越来越不可信。一旦一家公司承认存在问题,其他公司也更容易这样做。一旦大坝出现裂缝,它很快就会崩溃。最后,现在OpenAI的推理模型o1已经发布,这让公司在承认模型规模化遇到问题时有了一个台阶,因为他们可以通过声称将转向推理规模化来挽回面子。
需要明确的是,没有理由怀疑那些报告称许多AI实验室进行了更大规模的训练但尚未发布结果模型的报道。但从中得出什么结论还不太清楚。更大模型尚未发布的一些可能原因包括:
-
技术困难,例如收敛失败或在多数据中心训练中实现容错的复杂性。
-
模型并不比GPT-4级别的模型好多少,因此发布会显得过于平淡。
-
模型并不比GPT-4级别的模型好多少,因此开发者花了很长时间试图通过微调来提高性能。
总之,模型规模化可能确实达到了极限,但也可能这些问题只是暂时的,最终某家公司会找到克服这些问题的方法,例如解决任何技术困难和/或找到新的数据源。
让我们停止依赖内部人士
不仅新叙述出现得如此之快令人感到奇怪,旧叙述尽管模型规模化的潜在局限性显而易见,却持续了如此之久也很有趣。其持续的主要原因是行业领导者保证规模化将在未来几年继续。 2 一般来说,记者(以及大多数其他人)倾向于 依赖行业内部人士 而非外部人士。但这种依赖是否合理?
行业领导者在预测AI发展方面的记录并不好。一个很好的例子是过去十年对自动驾驶汽车的过度乐观。(自动驾驶终于成为现实,尽管第五级——完全自动化——尚不存在。)顺便说一句,为了更好地了解内部人士预测的记录,进行一项系统分析,研究过去10年中知名行业内部人士对AI的所有预测将是很有趣的。
我们可能想要更重视内部人士的说法有一些原因,但也有重要的理由要 减少 对他们的重视。让我们逐一分析这些原因。确实,行业内部人士拥有专有信息(例如尚未发布的模型的性能),这可能使他们对未来的预测更准确。但考虑到有许多AI公司接近最前沿,包括一些 公开发布 模型权重并分享 科学见解、数据集和其他成果 的公司,我们谈论的优势最多也只有几个月,这在例如3年预测的背景下是微不足道的。
此外,我们往往高估了公司内部有多少额外信息——无论是在能力方面还是(尤其)在安全方面。内部人士长期以来警告说 “如果你知道我们知道的...” ,但当举报者最终站出来时,事实证明他们主要依赖于与其他人相同的推测。 3
另一个可能更重视内部人士的原因是他们的技术专长。我们不认为这是一个强有力的理由:学术界与行业中同样拥有大量AI专长。更重要的是,深厚的技术专长对于支持AI预测中涉及的粗略趋势外推并不那么重要。技术专长也不够—— 商业和社会因素 在决定AI的发展方向上起着至少同等重要的作用。在自动驾驶汽车的案例中,一个这样的因素是社会对公共道路用于实验的容忍程度。在大型AI模型的案例中,我们之前曾论证过,最重要的因素是规模化是否具有 商业意义 ,而不是技术上是否可行。因此,技术人员不仅没有太多优势,他们倾向于过度强调技术维度,往往导致过于自信的预测。
简而言之,可能更重视内部人士观点的原因并不重要。另一方面,我们应该可能减少对他们观点重视的一个巨大而明显的原因是,他们有动机说出符合其商业利益的话,并且有这样做的记录。
例如,Sutskever在OpenAI时有 动机 去宣传规模化,因为公司需要筹集资金。但现在他领导初创公司Safe Superintelligence,他需要说服投资者它可以与OpenAI、Anthropic、Google等竞争,尽管其资本远不及这些公司。也许这就是为什么他现在谈论 预训练数据耗尽 ,仿佛这是某种顿悟,而不是一个被反复提及的观点。
重申一下,我们不知道模型规模化是否已经结束。但行业的突然转变如此明显,以至于毫无疑问,内部人士没有任何水晶球,他们和其他人一样在做类似的猜测,并且由于身处泡沫中,容易消费他们向世界推销的炒作。
鉴于此,我们的建议——对所有人,尤其是记者、政策制定者和AI社区——是停止对内部人士在预测技术未来,尤其是其社会影响时的观点的依赖。这需要努力,因为在美国存在一种普遍的无意识偏见,即“将极端财富及其带来的权力与美德和智慧等同起来。”(摘自Bryan Gardiner对Marietje Schake的 《The Tech Coup》 的 评论 。)
通过推理规模化,能力进步会继续吗?
当然,模型规模化并不是提高AI能力的唯一途径。 推理规模化 是一个最近取得了很多进展的领域。例如, OpenAI的o1 和开放权重的竞争对手 DeepSeek R1 是 推理模型 :它们经过微调以在提供答案前“推理”。其他方法则保持 模型本身不变 ,但采用生成多个解决方案并按质量排序等技巧。
关于推理规模化有两个主要的开放性问题,这将决定它将成为多大程度的趋势。
-
这类问题在哪些情况下表现良好?
-
对于那些表现良好的问题,通过在推理过程中进行更多计算可以带来多大的改进?
由于硬件和算法的改进,语言模型的每个词元输出成本正在迅速下降,因此如果推理扩展在多个数量级上带来改进——例如,在某个任务上生成一百万个词元比生成十万个词元显著提高性能——那将是一个重大突破。 4
对于第一个问题,直接而直观的答案是,推理扩展对那些有明确正确答案的问题有用,比如编程或数学问题解决。在这些任务中,通常至少有两件相关的事情是正确的。首先,符号推理可以提高准确性。由于其统计性质,LLM在这方面表现不佳,但可以通过使用输出词元进行推理来克服这一点,就像人们用笔和纸解决数学问题一样。其次,验证正确的解决方案比生成它们更容易(有时借助外部验证器,如编程的单元测试或数学定理证明的 证明检查器 )。
相比之下,对于写作或语言翻译等任务,很难看到推理扩展能带来多大差异,尤其是如果限制是由于训练数据。例如,如果一个模型在翻译低资源语言时表现不佳,因为它不了解该语言中的惯用语,该模型无法通过推理解决这个问题。
到目前为止,我们掌握的早期证据虽然零散,但与这种直觉一致。专注于OpenAI o1,它在编程、数学、 网络安全 、 玩具世界中的规划 和各种 考试 方面相比于最先进的语言模型如GPT-4o有所改进。考试成绩的改进似乎与推理在回答问题中的重要性强烈相关,而不是知识或创造力:数学、物理和LSATs有很大改进,生物学和计量经济学等学科的改进较小,而英语几乎没有改进。
o1似乎没有带来改进的任务包括 写作 、某些 网络安全 任务(我们将在下文解释)、 避免毒性 ,以及一组有趣的 任务 ,在这些任务中,思考已知会使人类表现更差。
我们创建了一个 网页 ,汇编了关于推理模型与语言模型比较的可用证据。我们计划在一段时间内保持更新,尽管我们预计大量的发现很快会难以跟上。
现在让我们考虑第二个问题:假设我们有无限的推理计算预算,通过推理扩展可以获得多大的改进。
OpenAI展示o1能力的旗舰例子是AIME,一个数学基准。他们的图表让这个问题充满悬念。性能是否即将饱和,还是可以接近100%?还要注意,图表方便地省略了x轴标签。
外部研究人员试图 重建 这个图表,显示(1)x轴的截止点可能在2,000个词元左右,(2)当o1被要求思考超过这个长度时,它并没有这样做。因此,这个问题仍未得到解答,我们需要等待使用开源模型的实验以获得更多的清晰度。很高兴看到有积极的努力来 公开重现 o1背后的技术。
在最近的一篇名为 推理扩展fLaws (标题是对推理扩展定律的双关)的论文中,我们研究了一种不同的推理扩展方法——反复生成解决方案,直到其中一个被外部验证器判断为正确。虽然这种方法与希望通过多个数量级有用地增加扩展相关(包括我们 在我们自己的过去工作中 ),但我们发现这对验证器的质量极为敏感。如果验证器稍有不完美,在许多现实的编程任务设置中,性能会达到最大值,实际上在大约10次尝试后开始 下降 。
一般来说,推理扩展“定律”的证据并不令人信服,仍需观察是否存在生成(例如)数百万个词元在推理时实际有帮助的现实问题。
推理扩展是下一个前沿吗?
推理扩展有很多低垂的果实,短期内的进展可能会很快。值得注意的是,推理模型的一个当前限制是它们在代理系统中表现不佳。我们在自己的基准测试 CORE-Bench 中观察到了这一点,该测试要求代理重现研究论文中提供的代码——表现最好的代理在Claude 3.5 Sonnet中得分38%,而在o1-mini中仅得分24%。 5 这也解释了为什么推理模型在一个网络安全评估中有所改进而在另一个中没有——其中一个涉及代理。
我们认为代理似乎没有从推理模型中受益的原因有两个。这些模型需要与常规模型不同的提示风格,而当前的代理系统是为提示常规模型而优化的。其次,据我们所知,推理模型迄今为止 没有 在接收环境反馈的设置中使用强化学习进行训练——无论是代码执行、shell交互还是网络搜索。换句话说,它们的工具使用能力并不比学习推理前的基础模型更好。 6
这些似乎是相对简单的问题。解决它们可能会启用显著的新AI代理能力——例如,从提示生成复杂的、完全功能的应用程序。(已经有工具尝试这样做,但效果不佳。)
但从长远来看呢?推理扩展会带来我们在过去7年中看到的那种进步吗?模型扩展之所以令人兴奋,是因为你“仅仅”需要使数据、模型规模和计算变得更大;不需要算法突破。
推理扩展(到目前为止)并非如此——推理扩展技术有很长的清单,什么有效或无效取决于问题,甚至它们在一起也仅在有限的领域中有效。AI开发者正在努力克服这一限制。例如,OpenAI的强化微调服务被认为是公司从许多不同领域收集客户数据以微调未来模型的一种方式。
html大约十年前,强化学习(RL)在许多游戏中取得了突破性进展,如Atari。这引发了大量的关注,许多AI研究人员希望我们可以通过RL实现通用人工智能(AGI)。事实上,正是对RL的高度期望促成了专注于AGI的实验室的诞生,尤其是OpenAI。然而,这些技术并没有超越游戏等狭窄领域进行泛化。现在,关于RL的类似炒作再次出现。显然,这是一种非常强大的技术,但到目前为止,我们看到的限制与之前炒作消退时的情况类似。
无法预测AI能力的进步是否会放缓。事实上,忘掉预测吧——理性的人们可以对AI进步是否已经放缓持有非常不同的看法,因为他们可以对证据进行非常不同的解读。这是因为“能力”是一个 构造 ,对其测量方式非常敏感。
我们可以更有信心地说,能力进步的 性质 在推理扩展与模型扩展中会有所不同。在过去的几年中,更新的模型每年在广泛的领域中带来了可预测的能力提升。许多大实验室之外的AI研究人员感到悲观,认为除了坐等下一个最先进的大型语言模型(LLM)发布之外,几乎无事可做。
随着推理扩展,能力提升可能会更加不均衡和难以预测,更多地由算法进步而非硬件基础设施投资驱动。许多在LLM统治时期被弃用的想法,如旧的规划文献中的那些,现在又重新进入视野,场景似乎比过去几年更加充满活力。
产品开发滞后于能力提升
关于是否存在能力放缓的激烈辩论是具有讽刺意味的,因为能力提升与AI在现实世界中的实用性之间的联系极其微弱。基于AI的 应用 开发远远落后于AI能力的提升,因此即使是现有的AI能力也仍然被极大地低估。一个原因是 能力-可靠性差距 ——即使某种能力存在,它可能也不够可靠,无法将人类从流程中移除并真正实现任务自动化(想象一个仅80%时间有效的食品配送应用)。而提高可靠性的方法通常依赖于具体应用,与提高能力的方法不同。尽管如此,推理模型似乎也表现出 可靠性提升 ,这令人兴奋。
以下是几个类比,帮助说明为什么可能需要十年或更长时间才能构建充分利用当前AI能力的产品。互联网和网络背后的技术大多在 90年代中期 得以巩固。但实现网络应用的潜力又花了1-2个十年。或者考虑这篇发人深省的 文章 ,它认为我们需要为大型语言模型构建图形用户界面(GUI),这将允许以比文本更高的带宽与它们交互。从这个角度看,当前基于AI的产品状态类似于图形用户界面出现之前的个人电脑。
产品开发的滞后还因为AI公司没有足够关注 产品方面 ,认为AI的通用性质某种程度上免除了软件工程中的难题。幸运的是,这种情况最近开始 改变 。
现在,随着他们专注于产品,AI公司及其用户重新发现软件开发,尤其是用户体验方面的难度,并且需要比AI模型开发更广泛的技能。一个很好的例子是,现在有两种不同的方法可以在ChatGPT中运行Python代码(这是对高级用户最重要的功能之一),并且有一套复杂的未记录规则需要记住每种方法的能力和限制。 Simon Willison 说:
你觉得这一切都令人困惑吗?我不怪你。我是一名专业的网络开发人员和拥有20多年经验的Python工程师,我几乎可以理解和内化上述规则。
尽管如此,这比一周前有了很大改进,当时这些模型具有强大的编码能力,但没有运行可以使用互联网的代码的能力!即使现在,o1既不能访问互联网也不能运行代码。从AI影响的角度来看,比起能力提升,更重要的是构建产品,让人们能够利用现有能力做有用的事情。
最后,虽然产品开发滞后于能力,但基于AI的产品的采用 进一步滞后 于产品开发,原因包括各种行为、组织和社会因素。那些对AI的影响(无论是积极的还是消极的)感兴趣的人应该更多关注这些下游方面,而不是当前或预测的能力。
结论
也许模型扩展已经结束;也许没有。但它不会永远持续下去,模型扩展的结束带来了许多积极因素:AI进步再次依赖于新想法而不仅仅是计算;大公司、初创企业和学术研究人员都可以在相对公平的竞争环境中竞争;基于 任意 训练计算阈值的监管变得更加 难以捍卫 ;并且明确认识到模型本身只是一种技术,而不是产品。
至于AI的未来,很明显,技术内部人士也在努力弄清楚,就像我们其他人一样,是时候停止相信他们过于自信、自私、变化无常和方便模糊的预测了。而当我们超越技术预测,转向关于AI对世界影响的主张时,就更没有理由相信行业领导者了。
致谢。 我们感谢Zachary S. Siegel对草稿的反馈。
虽然OpenAI过去曾 抓取 过YouTube,但那只是YouTube的一小部分;不可能在Google不注意的情况下抓取整个YouTube。
Epoch AI的一项 分析 显示,扩展可以持续到2030年。但这篇文章发表得太晚(2024年8月),无法成为扩展叙事的锚点。
我们指的是关于AI模型和系统安全的 实质性 知识;举报者确实带来了关于OpenAI安全相关 流程 的新知识。
尽管如此,我们不能想当然地认为未来的成本会下降;我们也在遇到推理成本节省技术如量化的基本限制。
我们为所有模型设定了4美元的成本限制。在一个小样本中,o1-preview在10美元的成本限制下表现非常差(10%的准确率)。鉴于成本限制,我们没有在整个数据上评估更高成本限制的模型。
o1在ChatGPT界面中甚至没有在推理期间使用工具的权限!Gemini Flash 2.0有,但尚不清楚这是否是一个经过推理微调的模型,更不用说经过工具使用微调的模型。
文章来源:Is AI progress slowing down?
关键问题与行动计划
关键问题 1: 在当前AI技术发展阶段,如何识别和评估推理扩展(inference scaling)的潜在投资机会?
行动计划:
- 市场分析:研究团队将对推理扩展相关的初创企业和技术进行深入分析,识别出在编程、数学问题解决和网络安全等领域表现突出的公司,评估其市场需求和增长潜力。
- 技术评估:数据团队将收集和分析推理扩展技术的最新研究成果,评估其在不同应用场景中的有效性和可行性,以确定哪些技术可能会带来显著的投资回报。
关键问题 2: 如何应对AI行业内对模型扩展(model scaling)未来的不同看法,以制定更有效的投资策略?
行动计划:
- 行业专家访谈:研究团队将与AI领域的专家进行访谈,收集对模型扩展未来发展的不同观点,分析其背后的逻辑和数据支持,以形成对行业趋势的全面理解。
- 预测模型构建:数据团队将基于收集到的行业数据和专家意见,构建预测模型,评估模型扩展和推理扩展对未来AI市场的影响,以指导投资决策。
关键问题 3: 在AI产品开发滞后于能力提升的背景下,如何识别和投资于具有高潜力的AI应用?
行动计划:
- 产品开发调研:研究团队将对当前市场上AI产品的开发进度进行调研,识别出那些在能力提升后仍未充分利用的应用领域,评估其未来的市场潜力。
- 用户需求分析:数据团队将通过用户反馈和市场趋势分析,识别出用户对AI产品的实际需求和痛点,以指导投资方向,确保投资于能够解决实际问题的产品。
请告诉我们你对此篇总结的改进建议,如存在内容不相关、低质、重复或评分不准确,我们会对其进行分析修正