干货满满(mitunfb17)迷途年终

2023-10-27 10:17:35 147小编 85

万万没想到麻省理工的数学考试被GPT-4打破了?!突然,有人在最新的论文工作中高调宣布:GPT-4在麻省理工学院数学和EECS(电气工程和计算机科学系)本科学位考试中的能力完全符合毕业要求。 并且妥妥的拿满分!要知道,测量这个结果的不是别人,正是来自麻省理工学院、波士顿大学和康奈尔大学的研究团队。 而且,它比上一代的王者GPT-3.5要好。同样的测试,它只成功拿到了三分之一。 GPT 3.5考试成绩纸一出,无数目光迅速被吸引。 GPT-4看似开放的行为自然引起了许多网民的感受。 比GPT好多了-3.5,是的!我的意思是,未来没有比GPT-4更强的模型,有可能解决学术问题吗?有网友在网上展示了自己的“新锐”,玩了一把这两天Yann LeCun抱怨“GPT 4号还不如狗聪明”的把戏:GPT 4号开了麻省理工考试。具体来说,GPT-4这次参加了这样一个测试:研究小组计划了一个数据集,其中包含4550个问题和解决方案。 这4550个问题和解答,麻省理工学院数学系和EECS的学生拿到本科学位,他们需要学习课程习题集,期中考试和期末考试。 包括:6-1:电气科学与工程;6-2:电气工程和计算机科学;6-3:计算机科学与工程;6-4:人工智能与决策;18-1:普通数学;18-2:应用数学;18-3:纯数学;18-C:数学和计算机科学 各专业的详细分类和总结题目均来自MIT数据集,从中随机产生228道题,不涉及图像和已有解答。 题目难度从易到难依次为:习题、习题、期中考试、期末考试、实验、专题。 根据答案类型,题型难度依次为编程、开口、选择题、数值、表达式、图像。 这次参加考试的不仅有GPT-4和GPT-3.5,还有StableVicuna-13B、美洲驼-30B和美洲驼-60B。 选择这四位大模特作为参赛选手,是因为他们是“最高级的大语言模特”。 从表中的数据可以看出最终的测试成绩。得分最高的是优化后的GPT-4,得分率为100%。最常见的表演者LLaMA-30B的得分仅为30%。 值得注意的是,GPT-4的原版是开箱即用的,完全没有优化,在这次麻省理工的考试中也取得了90%的成绩。 调优过程,包括少拍+COT+自我批判+专家。 从最终测试分数的表格数据中可以看出,从左到右每增加一个环节,优化后的GPT-4分数就要上一层楼梯。 此外,研究团队还在提示框中进行了工程优化。具体“咒语”如下:等等,评分者是GPT-4本人?看到这个结果,很多网友都觉得LLM数学考试进步有些快。 两年前,AI还在纠结小学的数学题。 类似“小明种了五棵柠檬树,每年从每棵树上得到六个柠檬。十年间他得到了多少柠檬?” 去年年初,麻省理工+哈佛+哥大+滑铁卢大学的联合研究表明,通过将数学问题转化为等价的编程问题,GPT三号的同学——OpenAI的Codex可以掌握高数,达到麻省理工的本科水平。 我从麻省理工大学本科的基础数学课程中学到了6个随机抽取的例子,6门课程每门随机产生25个问题,加上一个ACT level(美国高考)数据集的60个问题。 总共210道题,艾全部答对。 但有人提出,AI达到的“麻省理工大学本科水平”其实是Codex在做语言题而不是数学题——因为在当时的评价中,Codex负责的是阅读和写作,不包括求解。 那么,这一次,GPT-4表现得非常出色,它怎么能得到一个精彩的词呢?好吧,我知道你急于称赞它,但先别担心,因为有人很快就发现了一些“奇怪”的东西 有两个主要插槽。 首先值得质疑的是,OpenAI的训练数据集并没有完全公布。 这意味着无法证明数据集中的4550个问题和解决方案在GPT-4的训练集中不存在。 换句话说,如果GPT-4在前期训练阶段就已经接触过考题,最终获得满分也就不足为奇了。 难怪有网友毫不客气地yygq认定GPT-4得到这样的结果,数据集一定是包含在训练数据里了。 第二个槽点,GPT-4的最终100%得分率,似乎有点问题。??仔细看,论文第2.6节有一个关键点:团队在数据集上对开源大模型进行了微调,“给定问题Q、基本事实解决方案S和LLM答案A,我们使用GPT-4对模型响应进行自动评分。” 在实际操作中,各大模型生成本次考试的答案,然后发送GPT-4进行评分,分数在0到5之间。 因此,实际上是GPT-4给了GPT-4满分。 啊,这是...很难说没有老太婆卖瓜自吹自擂的嫌疑。 此外,许多人对为GPT-4提供“好建议”以使其取得满分有很多抱怨。 到底什么是“好的提示”?似乎无法定义 甚至有人高呼,这些题应该留给麻省理工数学和EECS的学生去做,要不断给他们“好提示”,让人类学生也能拿100%...……还有一个小彩蛋:在整个测试中,StableVicuna-13B基本上可以部署在笔记本电脑上,得分率为48%。 这一成绩不仅比更大型号的LLaMA-65B高出近10%,而且比MIT微调后的LLaMA-30B还要高。 人们不得不陷入一些关于模型大小和能力之间相关性的思考。

首页
产品
新闻
联系