返回栏目
首页人工智能 • 正文

奥运会冠军做错了题,你考了ML模特吗? GPT-3 :我不行

发布时间:  来源:河洛网

为了测量机器学习模型的数学求解能力,UC伯克利和芝加哥大学的研究人员提出了包括12,500个数学竞赛课题在内的新数据集MATH,以及支持学习模型数学基础知识的预训练数据集AMPS。 结果表明,即使是大参数,转换器模型的精度也很低。

奥运会冠军做错了题,你考了ML模特吗? GPT-3 :我不行

许多学术研究都在探讨解决数学问题,但对计算机来说超出了其能力范畴。 机器学习模式具有数学问题解决能力吗?

来自加州大学伯克利分校和芝加哥大学的研究者为此制作了新的数据集MATH。 这个数据集包括12,500个数学竞赛课题,每个数学问题都有一个完整的逐步解决的过程,可以给机器学习模型提供答案和解释。 为了促进未来的研究,提高模型在MATH数据集的正确性,研究者制作了另一个教授模型数学基础知识的大型辅助训练数据集。

用这些方法提高了模型在MATH数据集上的精度,但实验结果表明,即使是Transformer模型,精度也还很低。 还发现,只增加预算和模型参数的量,是无法实现强大的数学推理能力的。 虽然扩展转换器可以自动解决大多数文本任务,但目前仍无法解决MATH问题。

该研究的第一作者Dan Hendrycks发表如下。

国际数学奥林匹克( IMO )三金获得者可以达到90%的精度,而GPT-3的精度只达到约5%。

如果这种趋势持续下去,机器学习模型离获得数学推理能力还很远。

数据集本节介绍了两个新数据集:用于测试模型数学问题解决能力的MATH数据集和用于辅助预训练的AMPS数据集。

MATH数据集MATH数据集包含12,500个数学问题。 其中7500属于训练集,5000属于测试集。 这些问题来自于AMC 10、AMC 12、AIME等数学竞赛,这些竞赛旨在评估美国最优秀的年轻数学家的数学问题解决能力。 与大多数以前的研究不同,MATH数据集的问题大部分不能通过直接应用标准的中小学数学工具来解决。 人类要解决这样的问题,通常需要问题解决技术和“启发式”方法。

基于这些数学问题,模型可以学习一些有用的问题解决启发式方法,每个问题都有阶段性的解决过程和最终的答案。 具有逐步解决过程的问题的示例如图1所示。

数据集的创建包括以下重要步骤:

问题分类:该数据集的问题难度不同,涉及算术、代数、数学、计数和概率、几何学、中级代数、预备微积分等多个主题。 研究者把对人类来说从难易度高到难的问题的难易度标记为15。

格式:使用LATEX和Asymptote矢量图语言统一格式数学问题及其解。

自动评估生成的回答: MATH数据集的独特设计允许研究人员自动评估模型生成的回答,即使模型输出空之间非常大。

的性能:为了估算人类的性能,研究者从MATH测试集中随机抽样了20个问题,让高中学生回答。 讨厌数学的参加者有8问(正确率40% ),喜欢数学的参加者分别有14问和15问,在AMC 10数学竞赛中获得满分并多次参加USAMO竞赛的参加者有18问,IMO三金获得者也有18问(正确率90% )。 这说明了MATH数据集的数学问题对人类来说也很难。

虽然AMPS数据集( Khan大学+ Mathematica )的预训练数据对性能有很大的影响,但由于数学是在线文本的一部分,我们建立了大型、多样化的数学预训练语料库。 这个预培训数据集Auxiliarymathematic SProblem Sand Solutions ( AMPS )包括许多问题和LATEX格式的逐步解决过程。

AMPS数据集包含从可汗学院收集的10万个数学问题,约500万个是通过手动设计Mathematica脚本生成的问题。 这项研究是为了利用Mathematica的计算机代数系统生成数学问题,便于分数、超越数、解析函数的操作。

这些问题包括代数、微积分、计数和统计、几何学、线性代数、数论等多个主题(见下表1 )。 。

实验模型性能研究者通过实验调查了模型在MATH数据集上的性能,发现即使是最佳模型,精度也很低。 另外,与许多基于文本的数据集不同,该数据集中精度的增加随着模型规模的增大而变慢。 如果这种趋势持续下去,为了使MATH数据集取得较大进展,不仅需要模型的扩展,还需要改进算法。

下表2中,MATH数据集多个主题中最小模型GPT-2(0.1 billion参数量、基线模型)的平均精度为5.4%,与此相对,GPT-2(1.5 billion参数量、参数 这表明,与其他大多数基于文本的任务不同,向MATH数据集添加模型参数确实有帮助,但模型的绝对精度仍然很低,增长缓慢。

另外,还测试了使用AMPS进行预训练的效果。 如果未接受过AMPS预培训,则GPT-2 (1.5B )模型在MATH数据集上的精度为5.5%; 经过AMPS的事前训练,GPT-2 (1.5B )在MATH数据集的准确率为6.9% (见表2 ),准确率提高了25%。 也就是说,AMPS通过预训练提高准确率的效果相当于增加参数量15倍的效果,说明AMPS的预训练数据集是有价值的。

逐次求解研究者对逐次求解过程进行了实验,发现在模型得到回答之前老师采取逐次求解过程会降低精度。 研究人员用GPT-2 (1.5B )进行评价时,模型性能下降,从6.9%下降到5.3%。

研究者对这些生成的逐次求解过程进行了定性评价,发现许多步骤看起来与问题有关,但实际上存在逻辑问题。 示例如下图3、4所示。

图3 :问题,GPT-2 (1.5B )模型生成逐次解,真值解。

图4 :问题、生成解、真值解的例子。

但是,研究人员发现分阶段求解仍能带来一定的优点:提供部分真值的分阶段求解过程可以提高性能,在训练过程中为模型提供分阶段求解过程可以提高精度。 下图6显示了GPT-2 (0.7B )模型使用不同部分求解过程的精度变化。

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com