订阅
•
过往期刊
顶级AI实验室的数据策略揭秘
在AI竞赛中,数据依然是最重要的燃料,对数据的渴求是无止境的。作为一个密切关注这一领域的人,我可以告诉你,
扩展法则
仍然是顶级AI实验室的北极星。公式很简单:更大的模型 + 更多的数据 + 更多的计算 = 更好的性能。这是一个屡试不爽的公式。
但关键在于:领先的LLM团队正面临一个重大的数据挑战。专家预测,到2026年可能会出现高质量数据的短缺。这一即将到来的稀缺性突显了研究这些实验室为保持AI进步而开发的创新数据策略的重要性。
你可能会想,“我又不是在预训练下一个GPT,为什么要关心这些高级AI数据策略?”关键在于,无论你是在微调模型还是在实施检索增强生成(RAG),你的成功基本上取决于数据的质量和相关性。在本文中,我将描述顶级AI实验室如何应对数据质量、数据增强和数据管理的挑战——这些见解可以帮助任何团队提升他们的AI水平。
( 点击放大 )
质量胜于数量:数据鉴赏家的信条
在AI的早期,研究人员遵循“越多越好”的数据训练理念。然而,经验教会了我们一个更为细致的教训:质量胜于数量。值得注意的是,
Mistral AI
是首批公开强调数据质量重要性的团队之一,他们强调使用高质量数据集和谈判许可协议是其模型训练方法的关键差异点。
考虑一个医疗诊断AI的案例。一个小而精心策划的准确患者记录数据集将比一个庞大但不一致且错误百出的网络抓取医疗信息语料库产生更优越的结果。这一原则在各个领域都适用,从金融到客户服务聊天机器人,一个真实客户互动的集中数据集比一个庞大但混乱的通用在线文本集合更有价值。
对质量的重视需要在数据策划过程中进行大量投资,并仔细选择相关数据源。对于AI团队来说,
这意味着不仅要在算法和模型架构方面发展专业知识,还要在数据策划的艺术和科学方面发展专业知识。
特别是在高质量、特定领域的数据成为关键竞争优势的情况下。在金融或医疗等受监管行业,专有数据集可能是区分平庸模型和改变游戏规则的应用的关键。
另一个关键的区别在于
用于训练模型的数据
和
在应用中进行推理和决策所需的数据
。AI系统在训练期间会消耗历史数据,但在应对现实世界的挑战时,它们依赖于新鲜的实时信息。
例如,一个金融AI可能会基于多年的历史股市数据进行训练,但它使用今天的实时市场信息来做出投资建议。同样,一个客户服务聊天机器人会从过去的对话中学习,但它会根据你提供的具体信息来回应你的特定查询。再比如,一辆自动驾驶汽车会基于数百万小时的驾驶录像进行训练,但它使用实时传感器数据来导航实际遇到的道路状况。
对于AI团队来说,设计支持训练和应用数据需求的数据架构至关重要。这有助于他们创建既能广泛学习又能准确响应具体情况的AI。模型应在全面的数据集上进行训练,但系统也必须具备高效获取、处理和使用实时数据的能力。此外,保护用户数据和确保遵守法规的强有力措施对于建立对AI解决方案的信任至关重要。
数据增强
合成数据模仿现实世界的模式,补充现有数据集,解决真实数据可能有限的缺口。预训练LLM的团队已经意识到,
合成数据应被视为补充而非替代
。领先的AI团队发现,在训练数据集中广泛使用AI生成的数据
可能导致“模型崩溃”
,降低输出质量并影响AI模型的泛化能力,这突显了在训练过程中保持和平衡真实世界人类生成数据的重要性。
在各种合成数据生成技术中,
大规模对齐聊天机器人(LAB)
是一种方法,它能够战略性地创建特定任务的数据。LAB专注于生成针对特定任务的合成数据,确保合成数据增强而不是替代真实数据的价值。这种有针对性的方法允许在不损害真实数据提供的基础和可靠性的情况下扩展AI的能力。
( 点击放大 )
数据增强技术,如添加噪声或旋转图像等变换,也可以增强现有数据集。这种对更广泛场景的暴露提高了模型的鲁棒性和性能。例如,教一辆自动驾驶汽车在不同光照条件和环境下识别行人可以提高其可靠性。
在这些通用增强技术的基础上,研究人员开发了更多专门的方法来进一步提高模型的性能和准确性。
在训练过程中引入故意错误
,例如故意拼错单词以训练语法检查器,并使用
弱监督数据增强
来创建具有不同准确度的指令-响应对,也可以显著提升模型的性能。这些方法使AI系统能够区分高质量和低质量的响应,从而提高整体性能。
选择的艺术:策划完美的数据集
有效的数据选择和策划对于训练高性能AI模型至关重要。新的技术如联合示例选择(
JEST
)通过基于
质量
和
数据间关系
选择整个数据批次来优化训练过程。这种方法显著提高了训练效率和模型性能,特别是对于复杂的多模态任务。
质量驱动的模型训练是开发鲁棒和多功能AI系统的另一种方法。通过利用对比学习技术,这种方法识别并优先考虑最有价值的数据点,确保在各种场景下提供优越的模型输出。例如,在图像识别中,这种方法可能涉及从混合的高质量和低质量图像数据集中选择最佳示例,从而得到更准确和可靠的系统。
( 点击放大 )
GraphRAG
结合了知识图谱和大型语言模型(LLM)的力量。这种技术通过将数据结构化为知识图谱中的节点和关系,增强了传统的检索增强生成(RAG),使LLM能够更高效、更准确地访问和理解信息。这对于需要在大型数据集中对概念有细致理解的复杂查询特别有价值,从而生成
更精确和上下文相关
的AI输出。
多模态训练是AI发展的另一个飞跃。通过将图像、音频和视频等多种数据类型与文本结合,模型可以更全面地理解其环境。例如,训练一个虚拟助手处理和响应口头命令和书面指令,可以创建一个更适应性强和用户友好的AI系统。这种多方面的数据整合方法使得AI模型具有前所未有的多功能性和现实应用性。
数据经济:新时代的新模式
高质量数据的日益重要性正在推动以数据许可和合作为重点的新模式。AI团队必须通过结成联盟来获取有价值的数据集,并探索新的货币化策略,以应对这一不断发展的经济。这一转变需要灵活的策略来有效利用这些机会。OpenAI最近与媒体公司如
Reddit
、
AP
和
金融时报
的许可协议,突显了数据访问在塑造AI未来中的关键作用。
战略合作和伙伴关系还可以推动高度专业化、领域特定模型的发展。例如,制药公司可能会与医学研究数据库合作,训练一个基于大量科学论文的模型,从而开发出更准确和相关的AI驱动药物发现工具。一个现实的例子是
DeepMind与欧洲生物信息学研究所的合作
,其结果是AlphaFold系统能够以前所未有的准确性预测蛋白质结构。
灵活的数据货币化策略包括数据市场、订阅服务和许可协议。这些模式为AI应用提供了提供高级功能的新可能性。例如,可以将一个高质量、不断更新的法律文档数据集作为高级订阅服务提供,给使用AI驱动的研究工具的法律专业人士带来显著优势。这为数据提供者创造了新的收入来源,同时确保了数据的伦理使用。
( 点击放大 )
对高质量、专业化数据的重视突显了
强大且可扩展的数据管理解决方案
的必要性。AI团队必须优先构建或利用能够高效处理训练和部署复杂AI模型所需的大规模数据集的平台。这可能涉及创建一个能够处理大量
非结构化数据
的“大型分布式系统”,或者与提供此类基础设施的软件供应商合作。随着数据量和复杂性的爆炸式增长,可扩展且高效的数据管理系统不再是可选项,而是竞争性AI团队的战略必需品。
分析与建议
从预训练基础模型中获得的见解为构建AI应用程序的任何人提供了实用的指导。以下是构建生成式AI应用程序和系统时如何应用这些经验教训:
-
优先考虑数据质量而非数量
。投资于健全的数据管理流程,专注于选择高质量的数据源。高价值、相关性强的数据对于模型的稳健性和准确性至关重要。
-
谨慎使用合成数据
。使用合成数据来补充现实世界的数据,增强数据集的多样性和稳健性。然而,避免完全依赖合成数据,以维护输出的完整性和质量。
-
实施数据增强技术
。通过引入变化(如故意插入错误)来增强数据集,以提高模型的稳健性,并使AI系统能够应对更广泛的场景。这可以显著提升模型在多样化条件下的表现。
-
采用先进的数据选择方法
。利用JEST和质量驱动的训练等技术来识别和选择最有益的数据点。这种方法优化了训练效率,并提高了整体模型性能。
-
从数据中提取和利用结构
。结合元数据过滤和GraphRAG等新技术,提升数据集质量和模型能力。这对于复杂查询尤为有价值,能够生成更精确和上下文相关的AI输出。
-
开发可扩展的数据管理解决方案
。构建能够高效处理大数据集的健全、可扩展平台。可靠的数据处理对于维持AI应用的性能和可扩展性至关重要。
-
建立战略性数据合作伙伴关系
。与行业伙伴合作,获取多样且有价值的数据集。这些合作关系可以加速AI研究,并通过提供独特且高质量的数据来增强模型的能力。
-
定制领域特定模型
。在行业特定数据上训练模型,以提高在专业应用中的准确性和相关性。定制模型可以通过利用领域特定的见解,在细分领域中表现更佳。
-
利用高效的模型适应技术
。采用轻量级的预训练评分器来增强大型语言模型(LLM)的性能,而无需进行大量的微调。这种策略降低了成本和资源需求,使得保持模型更新更加可行。
AI的未来不仅仅在于掌握基础模型;它需要对
数据策略
有全面的理解。随着
智能路由器
和
自主代理
成为AI应用的核心,战略性地获取、精炼和构建高质量数据的能力变得至关重要。这些先进系统在很大程度上依赖于组织良好、相关性强的信息来有效运作。
当数据质量与战略性增强相结合时,奇迹就会发生。除了传统的数据管理,创新方法如迭代改进和有针对性的增强可以显著提升模型性能。诸如
基于LLM的数据增强和LLM2LLM策略
等技术展示了如何通过持续的反馈循环来改进模型。通过针对学生模型的弱点生成精确的目标数据,AI团队可以实现更快的学习和更高效的数据使用。
在AI竞赛中,真正的赢家将是那些不仅擅长构建模型,还精通数据管理、战略性数据获取和数据结构提取的团队。这些结合了AI专业知识、领域知识和数据科学的跨学科团队,将引领下一波跨行业的AI突破。
夏季书单推荐 📚 不可能的城市:二十一世纪的巴黎 🇫🇷 其他河流:中国教育 🇨🇳 私募股权:回忆录 💹
数据交换播客
-
从准备到恢复:掌握AI事件响应
。本期播客探讨了与
Luminos.Law
和
Luminos.ai
联合创始人
Andrew Burt
一起探讨AI事件响应。内容涵盖了AI事件的独特挑战、准备和遏制计划的重要性、有效事件响应的各个阶段,并触及了快速发展的AI领域中的监管考虑。
-
每月综述:在生成式AI技术的高峰和低谷中导航
。本月与
Paco Nathan
的对话涵盖了LLM的最新发展、AI辅助软件开发、生成式AI的风险以及AI的环境影响。对话还探讨了AI在科学研究中的创新应用,以及界面和用户体验设计的重要性。
作为麦肯锡技术委员会的成员,我参与了
这份新报告
,重点介绍了2024年的关键技术趋势。报告强调了生成式AI在自动化创意和分析任务方面的变革潜力,应用AI在增强决策和运营中的作用,以及高质量数据集在AI中的重要性。报告还涵盖了硬件加速、云计算和边缘计算的进展,机器学习工业化(MLOps)、负责任和伦理AI实践,以及量子时代数据安全的紧迫性。
如果你喜欢这份新闻通讯,请通过鼓励你的朋友和同事订阅来支持我们的工作:
Ben Lorica
编辑了
Gradient Flow新闻通讯
。他帮助组织了
AI大会
、
NLP峰会
、
Ray峰会
和
Data+AI峰会
。他是
Data Exchange播客
的主持人。你可以在
Linkedin
、
Twitter
、
Reddit
或
Mastodon
上关注他。这份新闻通讯由
Gradient Flow
制作。