ONE SENTENCE SUMMARY:

本文推荐了2025年AI工程师必读的50篇论文、模型和博客，涵盖10个领域，适合初学者和从业者。

MAIN POINTS:

精选50篇论文，涵盖前沿LLMs、基准评估、提示、检索增强生成等领域。
每个领域提供5篇重要论文，强调实用性和背景信息。
适合初学者，帮助快速了解AI工程的核心知识。

TAKEAWAYS:

了解AI工程的最新研究和实践，提升专业技能。
通过阅读推荐文献，掌握AI领域的基础和前沿动态。
适合团队学习和个人进修，促进知识共享。

我们在 2024年最佳系列中所有演讲者的推荐让你为2024年做好准备，但自从我们撰写了关于如何运行论文俱乐部的文章以来，我们多次被要求为那些在工作或与朋友一起从头开始的人推荐阅读清单。我们从 2023年a16z经典开始，但它需要2025年的更新和实用的重点。

在这里，我们为AI工程师策划了“必读”论文。我们的设计目标是：

选择约50篇论文 （大约每周一篇，一年），可选的额外内容。任意限制。
告诉你 为什么 这篇论文很重要 ，而不是仅仅列出名字而没有有用的背景
对AI工程师非常实用；不浪费时间在 Attention is All You Need 上，因为1）每个人都已经从那里开始，2）大多数人在工作中并不真正需要它

分享Latent Space

我们最终为每个部分选择了5篇“论文”：

部分1：前沿LLM

GPT1 ， GPT2 ， GPT3 ， Codex ， InstructGPT ， GPT4 论文。不言自明。 GPT3.5 ， 4o ， o1 ，和 o3 往往有发布活动和系统卡片。
Claude 3 和 Gemini 1 论文 以了解竞争。最新版本是 Claude 3.5 Sonnet 和 Gemini 2.0 Flash / Flash Thinking 。还有 Gemma 2 。
LLaMA 1 ， Llama 2 ， Llama 3 论文以了解领先的开放模型。你还可以将 Mistral 7B ， Mixtral 和 Pixtral 视为Llama家族树上的一个分支。
DeepSeek V1 ， Coder ， MoE ， V2 ， V3 论文 。领先的（相对）开放模型实验室。
Apple Intelligence 论文 。它存在于每台Mac和iPhone上。

荣誉提名：AI2（ Olmo ， Molmo ， OlmOE ， Tülu 3， Olmo 2 ）， Grok ， Amazon Nova ， Yi ， Reka ， Jamba ， Cohere ， Nemotron ， Microsoft Phi ， HuggingFace SmolLM - 大多排名较低或缺乏论文。 Alpaca 和 Vicuna 具有历史意义，而 Mamba 1/2和RWKV是潜在的未来兴趣。如果时间允许，我们推荐扩展法则文献： Kaplan ， Chinchilla ， Emergence / Mirage ，后Chinchilla法则。

部分2：基准和评估

MMLU 论文 - 主要的知识基准测试，与 GPQA 和 BIG-Bench 并列。到2025年，前沿实验室使用 MMLU Pro 、 GPQA Diamond 和 BIG-Bench Hard 。
MuSR 论文 - 评估 长上下文 ，与 LongBench 、 BABILong 和 RULER 并列。通过 Lost in The Middle 和其他问题解决 Needle in a Haystack 。
MATH 论文 - 数学竞赛问题的汇编。前沿实验室关注 MATH 的子集：MATH level 5、 AIME 、 FrontierMath 、 AMC10/AMC12 。
IFEval 论文 - 领先的 指令跟随 评估，也是唯一被 Apple 采用的外部基准。你也可以将 MT-Bench 视为一种 IF。
ARC AGI 挑战 - 著名的 抽象推理 “智商测试”基准，持续时间远超过许多快速饱和的基准。

我们在 Benchmarks 101 和 Benchmarks 201 中涵盖了许多这些内容，而我们的 Carlini 、 LMArena 和 Braintrust 章节则涵盖了私有、竞技场和产品评估（阅读 Hamel 关于 LLM-as-Judge 的文章）。基准测试与数据集密切相关。

第3节：提示、ICL 和思维链

注意：GPT3 论文（“语言模型是少样本学习者”）应该已经介绍了上下文学习（ICL）——这是提示的近亲。我们还认为提示注入是必备知识—— Lilian Weng ， Simon W 。

提示报告 论文 - 提示论文的综述（播客）。
思维链论文 - 是多个声称普及 思维链 的论文之一，还有 Scratchpads 和 让我们一步一步思考 。
思维树论文 - 引入了前瞻和回溯（播客）。
提示调优论文 - 如果你能进行前缀调优、调整解码（比如通过熵）或表示工程，你可能不需要提示。
自动提示工程论文 - 越来越明显的是， 人类在零样本提示方面表现不佳 ，而 提示本身 可以通过 LLMs 得到增强。最显著的实现是在 DSPy 论文 /框架中。

第3节是一个阅读不同论文可能不如拥有更多实用指南有用的领域——我们推荐 Lilian Weng 、 Eugene Yan 和 Anthropic 的提示工程教程以及 AI 工程师工作坊。

第4节：检索增强生成

信息检索导论 - 推荐一本书可能有些不公平，但我们试图说明 RAG 是一个 IR 问题，而 IR 有60年的历史，包括 TF-IDF 、 BM25 、 FAISS 、 HNSW 和其他“无聊”的技术。
2020 Meta RAG 论文 - 该术语的创造者。原作者已创立 Contextual 并创造了 RAG 2.0 。现代 RAG 的“基本要求”—— HyDE 、分块、重排序器、多模态数据在其他地方有更好的展示。
MTEB: 大规模文本嵌入基准论文 - 实际上的领导者，已知问题。许多嵌入都有论文——选择你的毒药—— OpenAI 、 Nomic Embed、Jina v3、cde-small-v1 - Matryoshka 嵌入越来越成为标准。
GraphRAG 论文 - Microsoft 对将知识图谱添加到 RAG 的看法，现已开源。2024年 RAG 中最受欢迎的趋势之一，还有 ColBERT /ColPali/ColQwen（更多内容在视觉部分）。
RAGAS 论文 - 简单的 RAG 评估由 OpenAI 推荐。另见 Nvidia FACTS 框架 和 LLMs 中的外在幻觉 - Lilian Weng 对幻觉的原因/评估的调查。

RAG 是2024年 AI 工程工作的基础，因此有大量的行业资源和实践经验是你需要具备的。 LlamaIndex （课程）和 LangChain （视频）可能在教育资源上投入最多。你还应该熟悉长期存在的 RAG 与长上下文辩论。

第5节：代理

html

SWE-Bench 论文 （我们的播客）- 在被 Anthropic 采用后，Devin 和 OpenAI 也参与其中，可能是目前最受关注的代理基准（与 WebArena 或 SWE-Gym 相比）。技术上是一个编码基准，但更多是对代理的测试而非原始 LLMs。另见 SWE-Agent ， SWE-Bench Multimodal 和 Konwinski Prize 。
ReAct 论文 （我们的播客）- ReAct 开启了一系列关于 工具使用和函数调用 LLMs 的研究，包括 Gorilla 和 BFCL Leaderboard 。具有历史意义的还有 Toolformer 和 HuggingGPT 。
MemGPT 论文 - 这是众多模拟长时间运行代理记忆的显著方法之一，被 ChatGPT 和 LangGraph 采用。这些方法在从 MetaGPT 到 AutoGen 到 Smallville 的每个代理系统中都被重新发明。
Voyager 论文 - Nvidia 对 3 个认知架构组件（ 课程、技能库、沙盒 ）的看法，以提高性能。更抽象地说，技能库/课程可以被抽象为一种代理工作流记忆。
Anthropic 关于构建有效代理 - 这是一个很好的 2024 年底总结，重点关注 链式、路由、并行化、编排、评估和优化 的重要性。另见 OpenAI Swarm 。

我们在 NeurIPS 上涵盖了许多 2024 年的 SOTA 代理设计。请注意，我们跳过了对代理定义的争论，但如果你真的需要一个定义，你可以使用我的。

第六节：代码生成

The Stack 论文 - 这是 The Pile 的原始开放数据集双胞胎，专注于代码，开启了一系列从 The Stack v2 到 StarCoder 的开放代码生成工作。
开放代码模型论文 - 可选择 DeepSeek-Coder ， Qwen2.5-Coder ，或 CodeLlama 。许多人认为 3.5 Sonnet 是最好的代码模型，但它没有论文。
HumanEval/Codex 论文 - 这是一个饱和的基准，但对于代码领域是必备知识。SWE-Bench 现在在编码方面更有名，但它昂贵/评估代理而非模型。现代替代品包括 Aider ， Codeforces ， BigCodeBench ， LiveCodeBench 和 SciCode 。
AlphaCodeium 论文 - Google 发布了 AlphaCode 和 AlphaCode2 ，在编程问题上表现出色，但这里是 流工程 可以为任何给定基础模型增加更多性能的一种方式。
CriticGPT 论文 - LLMs 已知会生成可能存在安全问题的代码。OpenAI 训练了 CriticGPT 来发现这些问题，而 Anthropic 使用 SAEs 来识别 LLM 特征，这些特征会导致此类问题，但这是一个你应该注意的问题。

代码生成是另一个领域，其前沿已从研究转向工业，关于代码生成的实用工程建议和像 Devin 这样的代码代理仅在行业博客和演讲中找到，而非研究论文。

第七节：视觉

非 LLM 视觉工作 仍然重要：例如， YOLO 论文 （现在已到 v11 ），但越来越多的变压器如 DETRs 超越 YOLOs 。
CLIP 论文 - Alec Radford 的第一个成功的 ViT 。如今，被 BLIP / BLIP2 或 SigLIP/PaliGemma 取代，但仍需了解。
MMVP 基准 （ LS Live ）- 量化了 CLIP 的重要问题。多模态版本的 MMLU（ MMMU ）和 SWE-Bench 确实存在。
Segment Anything Model 和 SAM 2 论文 （我们的播客）- 非常成功的图像和视频分割基础模型。与 GroundingDINO 搭配使用。
早期融合研究 ：与廉价的“后期融合”工作如 LLaVA （我们的播客）相反，早期融合涵盖了 Meta 的 Flamingo ， Chameleon ，Apple 的 AIMv2 ，Reka Core 等。实际上，视觉 LM 工作至少有 4 个流派。

如今，许多前沿的 VLM 工作不再发表（我们最后真正得到的是 GPT4V 系统卡和衍生论文）。我们建议拥有 4o 的视觉能力的实际工作经验（包括微调 4o 视觉），Claude 3.5 Sonnet/Haiku，Gemini 2.0 Flash 和 o1。其他： Pixtral ， Llama 3.2 ， Moondream ， QVQ 。

第八节：语音

Whisper 论文 - Alec Radford 成功的 ASR 模型。Whisper v2 、 v3 和 distil-whisper 以及 v3 Turbo 都是开放权重，但没有论文。
AudioPaLM 论文 - 我们在 PaLM 成为 Gemini 之前对 Google 语音技术的最后一次观察。另请参阅：Meta 的 Llama 3 对语音的探索。
NaturalSpeech 论文 - 领先的 TTS 方法之一。最近推出了 v3 。
Kyutai Moshi 论文 - 一款令人印象深刻的全双工语音文本开放权重模型，并有高调演示。另请参阅 Hume OCTAVE 。
OpenAI 实时 API：缺失的手册 - 再次，前沿的全能模型工作没有发表，但我们尽力记录了实时 API。

我们建议暂时从大实验室中多样化尝试 - 试试 Daily、Livekit、Vapi、Assembly、Deepgram、Fireworks、Cartesia、Elevenlabs 等。参见 2024 年语音 AI 状态。虽然 NotebookLM 的语音模型不是公开的，我们得到了我们所知的最深入的建模过程描述。

随着 Gemini 2.0 也成为原生语音和视觉多模态，语音和视觉模态在 2025 年及以后正走向融合的明确路径。

第九节：图像/视频扩散

潜在扩散论文 - 实际上是稳定扩散论文。另请参阅 SD2 、 SDXL 、 SD3 论文。如今团队正在研究 BFL Flux [schnell|dev|pro]。
DALL-E / DALL-E-2 / DALL-E-3 论文 - OpenAI 的图像生成。
Imagen / Imagen 2 / Imagen 3 论文 - Google 的图像生成。另请参阅 Ideogram 。
一致性模型论文 - 这种蒸馏工作与 LCMs 产生了 2023 年 12 月的快速绘图病毒时刻。如今，更新为 sCMs 。
Sora 博客文章 - 文本到视频 - 当然没有论文，除了 DiT 论文（同一作者），但仍然是今年最重要的发布，有许多开放权重竞争者如 OpenSora 。 Lilian Weng 的调查在此。

我们还强烈推荐熟悉 ComfyUI（即将推出的剧集）。文本扩散、音乐扩散和自回归图像生成是小众但正在崛起的领域。

第十节：微调

LoRA / QLoRA 论文 - 以低成本微调模型的事实标准，无论是在本地模型上还是使用 4o（在播客中确认）。 FSDP+QLoRA 是教育性的。
DPO 论文 - 流行的，虽然稍逊一筹的， PPO 替代方案，现在由 OpenAI 支持为偏好微调。
ReFT 论文 - 不再微调少数层，而是专注于特征。
Orca 3/AgentInstruct 论文 - 参见 NeurIPS 的合成数据精选，但这是获取微调数据的好方法。
RL/推理微调论文 - o1 的 RL 微调有争议，但让我们逐步验证和 Noam Brown 的许多公开演讲提供了其工作原理的线索。

我们建议通过 Unsloth 笔记本来微调开放模型。这显然是一个无底洞，在极端情况下，与研究科学家轨道重叠。

我们是否遗漏了什么明显的东西？这很有可能。请在下方评论，我们将更新并给予社区帮助的信用。

阅读愉快！

感谢 Eugene Yan 和 Vibhu Sapra 对此列表的精彩建议。

Latent Space 是一个读者支持的出版物。要接收新帖子并支持我的工作，请考虑成为免费或付费订阅者。

文章来源：The 2025 AI Engineering Reading List

关键问题与行动计划

关键问题 1: 在生成式人工智能领域，如何识别和评估具有潜力的初创公司和项目？

行动计划：

行业分析：研究团队将对当前生成式人工智能领域的初创公司进行深入分析，识别出在技术、市场需求和商业模式上具有创新性和竞争力的项目，特别关注那些在前沿技术（如LLMs、RAG等）上有突破的公司。
投资组合评估：数据团队将利用公开数据和市场趋势，评估这些初创公司的融资历史、用户增长、市场份额等关键指标，以判断其未来的投资潜力。

关键问题 2: 如何评估AI工程师在不同领域的技能需求和市场趋势？

行动计划：

技能需求调研：研究团队将针对AI工程师在各个领域（如视觉、语音、代码生成等）的技能需求进行调研，分析不同领域对AI技术的具体应用和人才需求，以识别未来的投资机会。
市场趋势分析：数据团队将通过分析招聘网站、行业报告和社交媒体，收集关于AI工程师技能需求的趋势数据，识别出哪些技能在未来几年内将变得更加重要，从而指导投资方向。

关键问题 3: 在AI生成内容的合规性和伦理问题上，如何识别潜在的投资风险？

行动计划：

合规性研究：研究团队将对当前AI生成内容的法律法规和伦理标准进行深入研究，识别出在合规性方面存在风险的领域和项目，特别关注那些可能面临法律挑战的技术。
风险评估模型：数据团队将建立一个风险评估模型，结合市场反馈和法律动态，定期更新潜在投资项目的合规性风险评估，以便在投资决策中进行有效的风险管理。

请告诉我们你对此篇总结的改进建议，如存在内容不相关、低质、重复或评分不准确，我们会对其进行分析修正