干货满满（mitunfb17）迷途年终

2023-10-27 10:17:35 147小编 85

万万没想到麻省理工的数学考试被GPT-4打破了？！突然，有人在最新的论文工作中高调宣布:GPT-4在麻省理工学院数学和EECS(电气工程和计算机科学系)本科学位考试中的能力完全符合毕业要求。并且妥妥的拿满分！要知道，测量这个结果的不是别人，正是来自麻省理工学院、波士顿大学和康奈尔大学的研究团队。而且，它比上一代的王者GPT-3.5要好。同样的测试，它只成功拿到了三分之一。 GPT 3.5考试成绩纸一出，无数目光迅速被吸引。 GPT-4看似开放的行为自然引起了许多网民的感受。比GPT好多了-3.5，是的！我的意思是，未来没有比GPT-4更强的模型，有可能解决学术问题吗？有网友在网上展示了自己的“新锐”，玩了一把这两天Yann LeCun抱怨“GPT 4号还不如狗聪明”的把戏:GPT 4号开了麻省理工考试。具体来说，GPT-4这次参加了这样一个测试:研究小组计划了一个数据集，其中包含4550个问题和解决方案。这4550个问题和解答，麻省理工学院数学系和EECS的学生拿到本科学位，他们需要学习课程习题集，期中考试和期末考试。包括:6-1:电气科学与工程；6-2:电气工程和计算机科学；6-3:计算机科学与工程；6-4:人工智能与决策；18-1:普通数学；18-2:应用数学；18-3:纯数学；18-C:数学和计算机科学各专业的详细分类和总结题目均来自MIT数据集，从中随机产生228道题，不涉及图像和已有解答。题目难度从易到难依次为:习题、习题、期中考试、期末考试、实验、专题。根据答案类型，题型难度依次为编程、开口、选择题、数值、表达式、图像。这次参加考试的不仅有GPT-4和GPT-3.5，还有StableVicuna-13B、美洲驼-30B和美洲驼-60B。选择这四位大模特作为参赛选手，是因为他们是“最高级的大语言模特”。从表中的数据可以看出最终的测试成绩。得分最高的是优化后的GPT-4，得分率为100%。最常见的表演者LLaMA-30B的得分仅为30%。值得注意的是，GPT-4的原版是开箱即用的，完全没有优化，在这次麻省理工的考试中也取得了90%的成绩。调优过程，包括少拍+COT+自我批判+专家。从最终测试分数的表格数据中可以看出，从左到右每增加一个环节，优化后的GPT-4分数就要上一层楼梯。此外，研究团队还在提示框中进行了工程优化。具体“咒语”如下:等等，评分者是GPT-4本人？看到这个结果，很多网友都觉得LLM数学考试进步有些快。两年前，AI还在纠结小学的数学题。类似“小明种了五棵柠檬树，每年从每棵树上得到六个柠檬。十年间他得到了多少柠檬？” 去年年初，麻省理工+哈佛+哥大+滑铁卢大学的联合研究表明，通过将数学问题转化为等价的编程问题，GPT三号的同学——OpenAI的Codex可以掌握高数，达到麻省理工的本科水平。我从麻省理工大学本科的基础数学课程中学到了6个随机抽取的例子，6门课程每门随机产生25个问题，加上一个ACT level(美国高考)数据集的60个问题。总共210道题，艾全部答对。但有人提出，AI达到的“麻省理工大学本科水平”其实是Codex在做语言题而不是数学题——因为在当时的评价中，Codex负责的是阅读和写作，不包括求解。那么，这一次，GPT-4表现得非常出色，它怎么能得到一个精彩的词呢？好吧，我知道你急于称赞它，但先别担心，因为有人很快就发现了一些“奇怪”的东西有两个主要插槽。首先值得质疑的是，OpenAI的训练数据集并没有完全公布。这意味着无法证明数据集中的4550个问题和解决方案在GPT-4的训练集中不存在。换句话说，如果GPT-4在前期训练阶段就已经接触过考题，最终获得满分也就不足为奇了。难怪有网友毫不客气地yygq认定GPT-4得到这样的结果，数据集一定是包含在训练数据里了。第二个槽点，GPT-4的最终100%得分率，似乎有点问题。？？仔细看，论文第2.6节有一个关键点:团队在数据集上对开源大模型进行了微调，“给定问题Q、基本事实解决方案S和LLM答案A，我们使用GPT-4对模型响应进行自动评分。” 在实际操作中，各大模型生成本次考试的答案，然后发送GPT-4进行评分，分数在0到5之间。因此，实际上是GPT-4给了GPT-4满分。啊，这是...很难说没有老太婆卖瓜自吹自擂的嫌疑。此外，许多人对为GPT-4提供“好建议”以使其取得满分有很多抱怨。到底什么是“好的提示”？似乎无法定义甚至有人高呼，这些题应该留给麻省理工数学和EECS的学生去做，要不断给他们“好提示”，让人类学生也能拿100%...……还有一个小彩蛋:在整个测试中，StableVicuna-13B基本上可以部署在笔记本电脑上，得分率为48%。这一成绩不仅比更大型号的LLaMA-65B高出近10%，而且比MIT微调后的LLaMA-30B还要高。人们不得不陷入一些关于模型大小和能力之间相关性的思考。

合规建站耀世平台创新

合规建站耀世平台创新

干货满满（mitunfb17）迷途年终