彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

Google DeepMind's JEST (Joint Example Selection and Training) method represents a paradigm shift in large language model pre-training. By intelligently selecting high-quality data batches for parallel training, JEST achieves a 10x increase in training speed and a 13x reduction in energy consumption. This approach challenges the traditional 'scale-first' paradigm, demonstrating that optimizing data quality can be more effective than simply increasing data volume.

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

谷歌DeepMind最新发布的JEST(联合示例选择与训练)方法,标志着大语言模型预训练范式的一次潜在革命。这项研究通过智能选择高质量数据批次进行并行训练,实现了训练速度的10倍提升和能耗的13倍降低,其核心在于用“数据质量”而非“数据规模”作为新的效率杠杆,可能从根本上改变AI模型开发的成本结构与竞争格局。

关键要点

  • 性能飞跃:JEST方法在仅使用1/10计算量的情况下,达到了与标准方法相当甚至更优的模型性能,实现了数量级的效率提升。
  • 核心创新:方法包含一个“数据选择器”小模型,用于从海量未标注数据中识别并打包成高质量的“元批次”进行并行训练,而非依赖随机采样。
  • 验证结果:在多个标准基准测试中,使用JEST训练的模型表现优异,例如在MMLU(大规模多任务语言理解)等评测上显示出强大竞争力。
  • 深远影响:该方法直接挑战了“规模至上”的传统范式,为降低AI训练的巨大能耗和成本提供了切实可行的新路径。

JEST方法:以数据质量驱动的高效训练新范式

谷歌DeepMind团队提出的JEST(Joint Example Selection and Training)方法,其核心是一个两阶段、闭环的优化过程。首先,研究团队利用一个相对较小、已预训练好的模型(作为“数据选择器”),对庞大的未标注数据池进行扫描和评估。该选择器并非简单地挑选单个优质样本,而是评估不同数据样本组合在一起时产生的“协同效应”,从而构建出最优的、批处理大小的数据子集,称为“元批次”。

随后,主要的大型模型并非在随机数据批次上训练,而是在这些预先筛选出的高质量“元批次”上进行训练。关键在于,这个过程是动态和迭代的:随着主模型能力的提升,其反馈又用于更新和优化数据选择器的标准,形成一个自我改进的循环。论文结果显示,这种方法在相同计算预算下,能显著提升模型最终性能;或者说,要达到目标性能,所需计算资源和时间大幅减少。

具体而言,研究实验表明,JEST能够实现高达10倍的训练速度提升13倍的能耗降低。这不仅仅是渐进式的改进,而是将训练效率提升了一个数量级。论文中强调:“我们的工作表明,模型预训练的数据选择可以是一个可优化的过程,而不仅仅是启发式的或随机的。”这直接将数据策展从一门艺术转变为一项可优化的工程科学。

行业背景与分析

JEST的出现,是对当前AI工业界“暴力计算”范式的一次深刻反思与挑战。长期以来,从GPT-3到GPT-4,从LLaMA到Gemini,大模型的发展遵循着一条清晰的轨迹:更多的参数(现已达万亿级别)、更多的数据(数万亿token)、更多的算力(数万张GPU数月训练)。OpenAIAnthropic等领先公司无不在此路径上竞赛。例如,据估算,GPT-4的训练成本可能超过1亿美元,其巨大的能耗也引发社会关注。JEST的核心突破在于,它试图扭转“规模(Scale)是唯一路径”的叙事,转而证明“智能(Intelligence)”——即对数据质量的智能筛选——可以成为更强大的杠杆。

从技术路径比较来看,业界此前优化训练效率的努力多集中于其他维度:

  • 架构创新:如Mixture of Experts (MoE) 模型(如Mixtral 8x7B),通过条件化计算在增加参数量的同时控制激活成本,但其训练本身依然耗费巨资。
  • 算法优化:如更好的优化器(AdamW, Lion)、训练稳定性技巧等,带来的是百分比级别的提升。
  • 数据工程:如Meta在发布LLaMA系列时强调的“高质量数据”重要性,以及TII的Falcon模型使用精选的RefinedWeb数据集,但这些方法多依赖于静态、启发式的过滤规则。

JEST的独特性在于,它将数据选择本身构建为一个可学习、可优化、与主训练过程协同

此外,该研究也印证了“小模型指导大模型”这一趋势的潜力。用于数据选择的“小模型”本身计算成本极低,但其产出的决策却能极大影响大模型的训练效率。这为行业提供了一个新思路:未来AI公司的竞争力,可能不仅在于拥有最大的算力集群,更在于拥有最智能的数据筛选和合成“大脑”。

未来影响与展望

JEST方法的公布,预计将在AI研发领域引发连锁反应,重塑行业竞争要素与战略布局。

首先,降低行业准入门槛,但加剧算法竞争。 训练成本降低一个数量级,意味着更多的学术实验室、初创公司有机会参与前沿大模型的研发,而不必拥有科技巨头的财力。这将促进生态多元化。然而,竞争焦点将从单纯的“算力军备竞赛”部分转向更精细的“数据优化算法竞赛”。如何设计更高效的数据选择器、如何定义和评估数据批次的“质量”,将成为新的核心技术壁垒。

其次,推动对数据价值的重新评估。 传统上,数据被视为“燃料”,越多越好。JEST范式下,数据被视为“矿石”,其“品位”(质量)和“精选工艺”(选择算法)至关重要。这可能会催生新的数据市场形态,即交易的不是原始数据量,而是经过认证的、高“训练效用”的数据集或数据服务。专注于数据清洗、标注和优化的公司价值将提升。

第三,对可持续AI产生直接推动。 AI的碳足迹一直是批评焦点。训练能耗降低13倍,直接意味着温室气体排放的大幅减少。这为AI公司提供了强有力的ESG(环境、社会和治理)叙事,符合全球减碳趋势。预计会有更多研究跟进,探索JEST与其他节能技术(如稀疏计算、低精度训练)结合的可能性。

需要关注的下一步: 业界将密切关注JEST方法在不同模型架构、不同数据领域(如代码、多模态)上的泛化能力。其开源实现(如果提供)在GitHub上的关注度、以及后续是否有团队复现并扩大其成果,将是关键验证点。此外,谷歌自身是否会将其应用于下一代Gemini模型的训练,以巩固其效率优势,将是观察行业风向的重要指标。如果JEST被证明是普适且稳定的,它很可能成为大模型预训练的新标准流程,开启一个以“智能数据”为核心的高效AI新时代。

常见问题