8.1 The 2025 AI Engineering Reading List

这篇文章提供了一个全面的AI工程阅读清单,涵盖了多个前沿领域的研究和实践,尤其是在大语言模型(LLMs)、基准测试、检索增强生成(RAG)等方面。这些领域的快速发展为投资者提供了新的视角,尤其是在评估潜在投资项目时,理解这些技术的基础和应用场景至关重要。文章中提到的具体模型和研究成果为投资者指明了未来可能的投资方向,尤其是在AI应用的实际工程化方面。

ONE SENTENCE SUMMARY:

本文推荐了2025年AI工程师必读的50篇论文、模型和博客,涵盖10个领域,适合初学者和从业者。

MAIN POINTS:

TAKEAWAYS:

我们在 2024年最佳系列 中所有演讲者的推荐让你为2024年做好准备,但自从我们撰写了关于如何运行 论文俱乐部 的文章以来,我们多次被要求为那些在工作或与朋友一起从头开始的人推荐阅读清单。我们从 2023年a16z经典 开始,但它需要2025年的更新和实用的重点。

在这里,我们为AI工程师策划了“必读”论文。我们的设计目标是:

分享Latent Space

我们最终为每个部分选择了5篇“论文”:

部分1:前沿LLM

  1. GPT1 GPT2 GPT3 Codex InstructGPT GPT4 论文 。不言自明。 GPT3.5 4o o1 ,和 o3 往往有发布活动和系统卡片。

  2. Claude 3 Gemini 1 论文 以了解竞争。最新版本是 Claude 3.5 Sonnet Gemini 2.0 Flash / Flash Thinking 。还有 Gemma 2

  3. LLaMA 1 Llama 2 Llama 3 论文 以了解领先的开放模型。你还可以将 Mistral 7B Mixtral Pixtral 视为Llama家族树上的一个分支。

  4. DeepSeek V1 Coder MoE V2 V3 论文 。领先的(相对)开放模型实验室。

  5. Apple Intelligence 论文 。它存在于每台Mac和iPhone上。

荣誉提名:AI2( Olmo Molmo OlmOE Tülu 3, Olmo 2 ), Grok Amazon Nova Yi Reka Jamba Cohere Nemotron Microsoft Phi HuggingFace SmolLM - 大多排名较低或缺乏论文。 Alpaca Vicuna 具有历史意义,而 Mamba 1/2和RWKV是潜在的未来兴趣 。如果时间允许,我们推荐扩展法则文献: Kaplan Chinchilla Emergence / Mirage 后Chinchilla法则

部分2:基准和评估

  1. MMLU 论文 - 主要的 知识 基准测试,与 GPQA BIG-Bench 并列。到2025年,前沿实验室使用 MMLU Pro GPQA Diamond BIG-Bench Hard

  2. MuSR 论文 - 评估 长上下文 ,与 LongBench BABILong RULER 并列。通过 Lost in The Middle 和其他问题解决 Needle in a Haystack

  3. MATH 论文 - 数学竞赛问题的汇编。前沿实验室关注 MATH 的子集:MATH level 5、 AIME FrontierMath AMC10/AMC12

  4. IFEval 论文 - 领先的 指令跟随 评估,也是唯一被 Apple 采用 的外部基准。你也可以将 MT-Bench 视为一种 IF。

  5. ARC AGI 挑战 - 著名的 抽象推理 “智商测试”基准,持续时间远超过许多快速饱和的基准。

我们在 Benchmarks 101 Benchmarks 201 中涵盖了许多这些内容,而我们的 Carlini LMArena Braintrust 章节则涵盖了私有、竞技场和产品评估(阅读 Hamel 关于 LLM-as-Judge 的文章)。基准测试与 数据集 密切相关。

第3节:提示、ICL 和思维链

注意 :GPT3 论文(“语言模型是少样本学习者”)应该已经介绍了上下文学习(ICL)——这是提示的近亲。我们还认为 提示注入 是必备知识—— Lilian Weng Simon W

  1. 提示报告 论文 - 提示论文的综述( 播客 )。

  2. 思维链 论文 - 是多个声称普及 思维链 的论文之一,还有 Scratchpads 让我们一步一步思考

  3. 思维树 论文 - 引入了 前瞻 回溯 播客 )。

  4. 提示调优 论文 - 如果你能进行 前缀调优 调整解码 (比如 通过熵 )或 表示工程 ,你可能不需要提示。

  5. 自动提示工程 论文 - 越来越明显的是, 人类在零样本提示方面表现不佳 ,而 提示本身 可以通过 LLMs 得到增强。最显著的实现是在 DSPy 论文 /框架中。

第3节是一个阅读不同论文可能不如拥有更多实用指南有用的领域——我们推荐 Lilian Weng Eugene Yan Anthropic 的提示工程教程 以及 AI 工程师工作坊

第4节:检索增强生成

  1. 信息检索导论 - 推荐一本书可能有些不公平,但我们试图说明 RAG 是一个 IR 问题,而 IR 有60年的历史 ,包括 TF-IDF BM25 FAISS HNSW 和其他“无聊”的技术。

  2. 2020 Meta RAG 论文 - 该术语的创造者。原作者已创立 Contextual 并 创造了 RAG 2.0 。现代 RAG 的“基本要求”—— HyDE 分块 重排序器 多模态数据 在其他地方有更好的 展示

  3. MTEB: 大规模文本嵌入基准 论文 - 实际上的领导者, 已知问题 。许多嵌入都有论文——选择你的毒药—— OpenAI Nomic Embed、Jina v3、cde-small-v1 - Matryoshka 嵌入 越来越成为标准。

  4. GraphRAG 论文 - Microsoft 对将知识图谱添加到 RAG 的看法, 现已开源 。2024年 RAG 中最受欢迎的趋势之一,还有 ColBERT /ColPali/ColQwen(更多内容在视觉部分)。

  5. RAGAS 论文 - 简单的 RAG 评估 由 OpenAI 推荐 。另见 Nvidia FACTS 框架 LLMs 中的外在幻觉 - Lilian Weng 对幻觉的原因/评估的调查。

RAG 是2024年 AI 工程工作的基础,因此有大量的行业资源和实践经验是你需要具备的。 LlamaIndex 课程 )和 LangChain 视频 )可能在教育资源上投入最多。你还应该熟悉长期存在的 RAG 与长上下文 辩论。

第5节:代理

html
  1. SWE-Bench 论文 我们的播客 )- 在被 Anthropic 采用 后,Devin 和 OpenAI 也参与其中,可能是目前最受关注的代理基准(与 WebArena SWE-Gym 相比)。技术上是一个编码基准,但更多是对代理的测试而非原始 LLMs。另见 SWE-Agent SWE-Bench Multimodal Konwinski Prize

  2. ReAct 论文 我们的播客 )- ReAct 开启了一系列关于 工具使用和函数调用 LLMs 的研究,包括 Gorilla BFCL Leaderboard 。具有历史意义的还有 Toolformer HuggingGPT

  3. MemGPT 论文 - 这是众多模拟长时间运行代理记忆的显著方法之一,被 ChatGPT LangGraph 采用。这些方法在从 MetaGPT AutoGen Smallville 的每个代理系统中都被重新发明。

  4. Voyager 论文 - Nvidia 对 3 个 认知架构 组件( 课程、技能库、沙盒 )的看法,以提高性能。更抽象地说,技能库/课程可以被抽象为一种 代理工作流记忆

  5. Anthropic 关于 构建有效代理 - 这是一个很好的 2024 年底总结,重点关注 链式、路由、并行化、编排、评估和优化 的重要性。另见 OpenAI Swarm

我们在 NeurIPS 上涵盖了许多 2024 年的 SOTA 代理设计 。请注意,我们跳过了对代理定义的争论,但如果你真的需要一个定义,你可以 使用我的

第六节:代码生成

  1. The Stack 论文 - 这是 The Pile 的原始开放数据集双胞胎,专注于代码,开启了一系列从 The Stack v2 StarCoder 的开放代码生成工作。

  2. 开放代码模型论文 - 可选择 DeepSeek-Coder Qwen2.5-Coder ,或 CodeLlama 。许多人认为 3.5 Sonnet 是最好的代码模型 ,但它没有论文。

  3. HumanEval/Codex 论文 - 这是一个饱和的基准,但对于代码领域是必备知识。SWE-Bench 现在在编码方面更有名,但它昂贵/评估代理而非模型。现代替代品包括 Aider Codeforces BigCodeBench LiveCodeBench SciCode

  4. AlphaCodeium 论文 - Google 发布了 AlphaCode AlphaCode2 ,在编程问题上表现出色,但这里是 流工程 可以为任何给定基础模型增加更多性能的一种方式。

  5. CriticGPT 论文 - LLMs 已知 会生成可能存在安全问题的代码。OpenAI 训练了 CriticGPT 来发现这些问题,而 Anthropic 使用 SAEs 来识别 LLM 特征 ,这些特征会导致此类问题,但这是一个你应该注意的问题。

代码生成是另一个领域,其前沿已从研究转向工业, 关于代码生成的实用工程建议 像 Devin 这样的代码代理 仅在行业博客和演讲中找到,而非研究论文。

第七节:视觉

如今,许多前沿的 VLM 工作不再发表(我们最后真正得到的是 GPT4V 系统卡 衍生论文 )。我们建议拥有 4o 的视觉能力的实际工作经验(包括 微调 4o 视觉 ),Claude 3.5 Sonnet/Haiku,Gemini 2.0 Flash 和 o1。其他: Pixtral Llama 3.2 Moondream QVQ

第八节:语音

我们建议暂时从大实验室中多样化尝试 - 试试 Daily、Livekit、Vapi、Assembly、Deepgram、Fireworks、Cartesia、Elevenlabs 等。参见 2024 年语音 AI 状态 。虽然 NotebookLM 的语音模型不是公开的, 我们得到了我们所知的最深入的建模过程描述

随着 Gemini 2.0 也成为原生语音和视觉多模态,语音和视觉模态在 2025 年及以后正走向融合的明确路径。

第九节:图像/视频扩散

我们还强烈推荐熟悉 ComfyUI(即将推出的剧集)。 文本扩散 音乐扩散 自回归图像生成 是小众但正在崛起的领域。

第十节:微调

我们建议通过 Unsloth 笔记本 来微调开放模型。这显然是一个无底洞,在极端情况下,与研究科学家轨道重叠。

我们是否遗漏了什么明显的东西?这很有可能。请在下方评论,我们将更新并给予社区帮助的信用。

阅读愉快!

感谢 Eugene Yan Vibhu Sapra 对此列表的精彩建议。

Latent Space 是一个读者支持的出版物。要接收新帖子并支持我的工作,请考虑成为免费或付费订阅者。

文章来源:The 2025 AI Engineering Reading List

关键问题与行动计划

关键问题 1: 在生成式人工智能领域,如何识别和评估具有潜力的初创公司和项目?

行动计划:

  1. 行业分析:研究团队将对当前生成式人工智能领域的初创公司进行深入分析,识别出在技术、市场需求和商业模式上具有创新性和竞争力的项目,特别关注那些在前沿技术(如LLMs、RAG等)上有突破的公司。
  2. 投资组合评估:数据团队将利用公开数据和市场趋势,评估这些初创公司的融资历史、用户增长、市场份额等关键指标,以判断其未来的投资潜力。

关键问题 2: 如何评估AI工程师在不同领域的技能需求和市场趋势?

行动计划:

  1. 技能需求调研:研究团队将针对AI工程师在各个领域(如视觉、语音、代码生成等)的技能需求进行调研,分析不同领域对AI技术的具体应用和人才需求,以识别未来的投资机会。
  2. 市场趋势分析:数据团队将通过分析招聘网站、行业报告和社交媒体,收集关于AI工程师技能需求的趋势数据,识别出哪些技能在未来几年内将变得更加重要,从而指导投资方向。

关键问题 3: 在AI生成内容的合规性和伦理问题上,如何识别潜在的投资风险?

行动计划:

  1. 合规性研究:研究团队将对当前AI生成内容的法律法规和伦理标准进行深入研究,识别出在合规性方面存在风险的领域和项目,特别关注那些可能面临法律挑战的技术。
  2. 风险评估模型:数据团队将建立一个风险评估模型,结合市场反馈和法律动态,定期更新潜在投资项目的合规性风险评估,以便在投资决策中进行有效的风险管理。

请告诉我们你对此篇总结的改进建议,如存在内容不相关、低质、重复或评分不准确,我们会对其进行分析修正