“对答案+改错题”新训练法让AI数学推理能力大幅提升

发布时间: 2025年04月10日 文章来源: 人民邮电报

近日,谷歌研究院、卡内基梅隆大学与AI代理开发商MultiOn组成的联合团队在《自然-机器学习》期刊发表最新研究成果,证实通过正向与负向合成数据结合训练,可使大语言模型的数学推理能力实现8倍性能提升。这一突破有望缓解全球高质量训练数据短缺危机。

根据斯坦福大学附属研究机构Epoch AI于2024年3月发布的《全球AI训练数据趋势报告》,当前可用高质量文本训练标记总量约为300万亿个。但以ChatGPT类大模型年均2.5倍的算力增速推算,现有数据储备将在几年内耗尽。因此,合成数据成为重要的替代方案。

以“对答案+改错题”方法训练AI,提升模型数学推理能力。据了解,研究团队首次系统验证了两种合成数据的协同效应。正向数据由GPT-4、Gemini 1.5Pro等大模型生成超100万条数学问题正确解法,涵盖代数、几何、概率等8大领域,可以理解为由顶尖AI生成的正确解题步骤,旨在让AI“记住”标准解法模板。负向数据则通过人工标注与模型自检,构建包含27万个错误推理步骤的数据库,覆盖逻辑漏洞、计算错误等6类常见失误,旨在预警计算失误、逻辑跳跃等常见错误,并强化因果推理能力。简单来说,正向数据是AI的“标准答案集”,而负向数据是AI的“错题本”。

此外,与传统方法仅单纯要求AI“尽量答对”,可能导致模型“死记硬背”的情况不同,研究团队创新性地采用了直接偏好优化(DPO)框架。该框架为每个推理步骤赋予动态的“优势值”(Advantage Value),以此反映该步骤相对于理想解决方案的价值,从而让模型学会“避坑”,使得推理效率显著提升。

研究团队使用DeepSeek-Math-7B和LLaMa2-7B等模型,在GSM8K和MATH数据集上进行了全面测试。结果显示,经过正向和负向合成数据预训练的大模型在数学推理任务上的性能实现了8倍的提升。这一研究充分展示了合成数据在增强大模型逻辑推理能力方面的巨大潜力。

(编辑:索朗次仁)