ONE SENTENCE SUMMARY:

在AI训练的前线，数据质量、创新策略和合作伙伴关系是推动模型性能和行业进步的关键因素。

MAIN POINTS:

数据质量优于数量，精心策划的数据集能显著提升模型表现。
合成数据应作为补充，避免过度依赖以保持输出质量。
战略数据合作和灵活的管理解决方案是AI发展的新趋势。

TAKEAWAYS:

投资于高质量数据策划，确保模型的准确性和可靠性。
采用数据增强技术，提升模型在多样场景下的表现。
通过行业合作获取独特数据，推动AI研究和应用。

顶级AI实验室的数据策略揭秘

在AI竞赛中，数据依然是最重要的燃料，对数据的渴求是无止境的。作为一个密切关注这一领域的人，我可以告诉你， 扩展法则 仍然是顶级AI实验室的北极星。公式很简单：更大的模型 + 更多的数据 + 更多的计算 = 更好的性能。这是一个屡试不爽的公式。

但关键在于：领先的LLM团队正面临一个重大的数据挑战。专家预测，到2026年可能会出现高质量数据的短缺。这一即将到来的稀缺性突显了研究这些实验室为保持AI进步而开发的创新数据策略的重要性。

你可能会想，“我又不是在预训练下一个GPT，为什么要关心这些高级AI数据策略？”关键在于，无论你是在微调模型还是在实施检索增强生成（RAG），你的成功基本上取决于数据的质量和相关性。在本文中，我将描述顶级AI实验室如何应对数据质量、数据增强和数据管理的挑战——这些见解可以帮助任何团队提升他们的AI水平。

质量胜于数量：数据鉴赏家的信条

在AI的早期，研究人员遵循“越多越好”的数据训练理念。然而，经验教会了我们一个更为细致的教训：质量胜于数量。值得注意的是， Mistral AI 是首批公开强调数据质量重要性的团队之一，他们强调使用高质量数据集和谈判许可协议是其模型训练方法的关键差异点。

考虑一个医疗诊断AI的案例。一个小而精心策划的准确患者记录数据集将比一个庞大但不一致且错误百出的网络抓取医疗信息语料库产生更优越的结果。这一原则在各个领域都适用，从金融到客户服务聊天机器人，一个真实客户互动的集中数据集比一个庞大但混乱的通用在线文本集合更有价值。

对质量的重视需要在数据策划过程中进行大量投资，并仔细选择相关数据源。对于AI团队来说， 这意味着不仅要在算法和模型架构方面发展专业知识，还要在数据策划的艺术和科学方面发展专业知识。 特别是在高质量、特定领域的数据成为关键竞争优势的情况下。在金融或医疗等受监管行业，专有数据集可能是区分平庸模型和改变游戏规则的应用的关键。

另一个关键的区别在于 用于训练模型的数据 和 在应用中进行推理和决策所需的数据 。AI系统在训练期间会消耗历史数据，但在应对现实世界的挑战时，它们依赖于新鲜的实时信息。

例如，一个金融AI可能会基于多年的历史股市数据进行训练，但它使用今天的实时市场信息来做出投资建议。同样，一个客户服务聊天机器人会从过去的对话中学习，但它会根据你提供的具体信息来回应你的特定查询。再比如，一辆自动驾驶汽车会基于数百万小时的驾驶录像进行训练，但它使用实时传感器数据来导航实际遇到的道路状况。

对于AI团队来说，设计支持训练和应用数据需求的数据架构至关重要。这有助于他们创建既能广泛学习又能准确响应具体情况的AI。模型应在全面的数据集上进行训练，但系统也必须具备高效获取、处理和使用实时数据的能力。此外，保护用户数据和确保遵守法规的强有力措施对于建立对AI解决方案的信任至关重要。

数据增强

合成数据模仿现实世界的模式，补充现有数据集，解决真实数据可能有限的缺口。预训练LLM的团队已经意识到， 合成数据应被视为补充而非替代 。领先的AI团队发现，在训练数据集中广泛使用AI生成的数据 可能导致“模型崩溃” ，降低输出质量并影响AI模型的泛化能力，这突显了在训练过程中保持和平衡真实世界人类生成数据的重要性。

在各种合成数据生成技术中，大规模对齐聊天机器人（LAB）是一种方法，它能够战略性地创建特定任务的数据。LAB专注于生成针对特定任务的合成数据，确保合成数据增强而不是替代真实数据的价值。这种有针对性的方法允许在不损害真实数据提供的基础和可靠性的情况下扩展AI的能力。

数据增强技术，如添加噪声或旋转图像等变换，也可以增强现有数据集。这种对更广泛场景的暴露提高了模型的鲁棒性和性能。例如，教一辆自动驾驶汽车在不同光照条件和环境下识别行人可以提高其可靠性。

在这些通用增强技术的基础上，研究人员开发了更多专门的方法来进一步提高模型的性能和准确性。 在训练过程中引入故意错误 ，例如故意拼错单词以训练语法检查器，并使用 弱监督数据增强 来创建具有不同准确度的指令-响应对，也可以显著提升模型的性能。这些方法使AI系统能够区分高质量和低质量的响应，从而提高整体性能。

选择的艺术：策划完美的数据集

有效的数据选择和策划对于训练高性能AI模型至关重要。新的技术如联合示例选择（ JEST ）通过基于质量和 数据间关系 选择整个数据批次来优化训练过程。这种方法显著提高了训练效率和模型性能，特别是对于复杂的多模态任务。

质量驱动的模型训练是开发鲁棒和多功能AI系统的另一种方法。通过利用对比学习技术，这种方法识别并优先考虑最有价值的数据点，确保在各种场景下提供优越的模型输出。例如，在图像识别中，这种方法可能涉及从混合的高质量和低质量图像数据集中选择最佳示例，从而得到更准确和可靠的系统。

GraphRAG 结合了知识图谱和大型语言模型（LLM）的力量。这种技术通过将数据结构化为知识图谱中的节点和关系，增强了传统的检索增强生成（RAG），使LLM能够更高效、更准确地访问和理解信息。这对于需要在大型数据集中对概念有细致理解的复杂查询特别有价值，从而生成 更精确和上下文相关 的AI输出。

多模态训练是AI发展的另一个飞跃。通过将图像、音频和视频等多种数据类型与文本结合，模型可以更全面地理解其环境。例如，训练一个虚拟助手处理和响应口头命令和书面指令，可以创建一个更适应性强和用户友好的AI系统。这种多方面的数据整合方法使得AI模型具有前所未有的多功能性和现实应用性。

数据经济：新时代的新模式

高质量数据的日益重要性正在推动以数据许可和合作为重点的新模式。AI团队必须通过结成联盟来获取有价值的数据集，并探索新的货币化策略，以应对这一不断发展的经济。这一转变需要灵活的策略来有效利用这些机会。OpenAI最近与媒体公司如 Reddit 、 AP 和金融时报的许可协议，突显了数据访问在塑造AI未来中的关键作用。

战略合作和伙伴关系还可以推动高度专业化、领域特定模型的发展。例如，制药公司可能会与医学研究数据库合作，训练一个基于大量科学论文的模型，从而开发出更准确和相关的AI驱动药物发现工具。一个现实的例子是 DeepMind与欧洲生物信息学研究所的合作，其结果是AlphaFold系统能够以前所未有的准确性预测蛋白质结构。

灵活的数据货币化策略包括数据市场、订阅服务和许可协议。这些模式为AI应用提供了提供高级功能的新可能性。例如，可以将一个高质量、不断更新的法律文档数据集作为高级订阅服务提供，给使用AI驱动的研究工具的法律专业人士带来显著优势。这为数据提供者创造了新的收入来源，同时确保了数据的伦理使用。

对高质量、专业化数据的重视突显了 强大且可扩展的数据管理解决方案 的必要性。AI团队必须优先构建或利用能够高效处理训练和部署复杂AI模型所需的大规模数据集的平台。这可能涉及创建一个能够处理大量 非结构化数据 的“大型分布式系统”，或者与提供此类基础设施的软件供应商合作。随着数据量和复杂性的爆炸式增长，可扩展且高效的数据管理系统不再是可选项，而是竞争性AI团队的战略必需品。

分析与建议

从预训练基础模型中获得的见解为构建AI应用程序的任何人提供了实用的指导。以下是构建生成式AI应用程序和系统时如何应用这些经验教训：

优先考虑数据质量而非数量 。投资于健全的数据管理流程，专注于选择高质量的数据源。高价值、相关性强的数据对于模型的稳健性和准确性至关重要。
谨慎使用合成数据 。使用合成数据来补充现实世界的数据，增强数据集的多样性和稳健性。然而，避免完全依赖合成数据，以维护输出的完整性和质量。
实施数据增强技术 。通过引入变化（如故意插入错误）来增强数据集，以提高模型的稳健性，并使AI系统能够应对更广泛的场景。这可以显著提升模型在多样化条件下的表现。
采用先进的数据选择方法 。利用JEST和质量驱动的训练等技术来识别和选择最有益的数据点。这种方法优化了训练效率，并提高了整体模型性能。
从数据中提取和利用结构 。结合元数据过滤和GraphRAG等新技术，提升数据集质量和模型能力。这对于复杂查询尤为有价值，能够生成更精确和上下文相关的AI输出。
开发可扩展的数据管理解决方案 。构建能够高效处理大数据集的健全、可扩展平台。可靠的数据处理对于维持AI应用的性能和可扩展性至关重要。
建立战略性数据合作伙伴关系 。与行业伙伴合作，获取多样且有价值的数据集。这些合作关系可以加速AI研究，并通过提供独特且高质量的数据来增强模型的能力。
定制领域特定模型 。在行业特定数据上训练模型，以提高在专业应用中的准确性和相关性。定制模型可以通过利用领域特定的见解，在细分领域中表现更佳。
利用高效的模型适应技术 。采用轻量级的预训练评分器来增强大型语言模型（LLM）的性能，而无需进行大量的微调。这种策略降低了成本和资源需求，使得保持模型更新更加可行。

AI的未来不仅仅在于掌握基础模型；它需要对 数据策略 有全面的理解。随着 智能路由器 和 自主代理 成为AI应用的核心，战略性地获取、精炼和构建高质量数据的能力变得至关重要。这些先进系统在很大程度上依赖于组织良好、相关性强的信息来有效运作。

当数据质量与战略性增强相结合时，奇迹就会发生。除了传统的数据管理，创新方法如迭代改进和有针对性的增强可以显著提升模型性能。诸如基于LLM的数据增强和LLM2LLM策略等技术展示了如何通过持续的反馈循环来改进模型。通过针对学生模型的弱点生成精确的目标数据，AI团队可以实现更快的学习和更高效的数据使用。

在AI竞赛中，真正的赢家将是那些不仅擅长构建模型，还精通数据管理、战略性数据获取和数据结构提取的团队。这些结合了AI专业知识、领域知识和数据科学的跨学科团队，将引领下一波跨行业的AI突破。

夏季书单推荐 📚 不可能的城市：二十一世纪的巴黎 🇫🇷 其他河流：中国教育 🇨🇳 私募股权：回忆录 💹

数据交换播客

从准备到恢复：掌握AI事件响应 。本期播客探讨了与 Luminos.Law 和 Luminos.ai 联合创始人 Andrew Burt 一起探讨AI事件响应。内容涵盖了AI事件的独特挑战、准备和遏制计划的重要性、有效事件响应的各个阶段，并触及了快速发展的AI领域中的监管考虑。
每月综述：在生成式AI技术的高峰和低谷中导航 。本月与 Paco Nathan 的对话涵盖了LLM的最新发展、AI辅助软件开发、生成式AI的风险以及AI的环境影响。对话还探讨了AI在科学研究中的创新应用，以及界面和用户体验设计的重要性。

作为麦肯锡技术委员会的成员，我参与了 这份新报告 ，重点介绍了2024年的关键技术趋势。报告强调了生成式AI在自动化创意和分析任务方面的变革潜力，应用AI在增强决策和运营中的作用，以及高质量数据集在AI中的重要性。报告还涵盖了硬件加速、云计算和边缘计算的进展，机器学习工业化（MLOps）、负责任和伦理AI实践，以及量子时代数据安全的紧迫性。

如果你喜欢这份新闻通讯，请通过鼓励你的朋友和同事订阅来支持我们的工作：

Ben Lorica 编辑了 Gradient Flow新闻通讯。他帮助组织了 AI大会 、 NLP峰会、 Ray峰会和 Data+AI峰会。他是 Data Exchange播客的主持人。你可以在 Linkedin 、 Twitter 、 Reddit 或 Mastodon 上关注他。这份新闻通讯由 Gradient Flow 制作。

文章来源：Lessons from the Frontlines of AI Training

关键问题与行动计划

关键问题 1: 如何应对即将到来的高质量数据短缺，以支持AI模型的持续发展？

行动计划：

研究团队将开展针对高质量数据获取的创新策略研究，探索如何通过数据合作、众包和开放数据平台等方式，建立高质量数据的获取渠道。
数据团队将分析当前市场上高质量数据的供应链，识别潜在的合作伙伴和数据提供者，以便在数据短缺前建立战略合作关系。

关键问题 2: 如何优化数据选择和管理，以提升AI模型的训练效率和性能？

行动计划：

研究团队将开发一套基于最新数据选择技术（如JEST和质量驱动训练）的框架，帮助AI团队在训练过程中高效选择和利用最有价值的数据点。
数据团队将建立数据管理平台，整合多种数据源，确保数据的实时更新和高效处理，以支持AI模型的动态需求。

关键问题 3: 如何利用合成数据和数据增强技术，提升AI模型的鲁棒性和适应性？

行动计划：

研究团队将探索合成数据生成的最佳实践，制定合成数据与真实数据的平衡策略，以确保模型在多样化场景下的表现。
数据团队将实施数据增强技术，设计实验以评估不同增强方法对模型性能的影响，从而优化数据集的构建和使用。

请告诉我们你对此篇总结的改进建议，如存在内容不相关、低质、重复或评分不准确，我们会对其进行分析修正