人工智能语言模型GPT-3的推理能力堪比大学生：心理学家报告

**摘要：**人工智能语言模型GPT-3在解决某些逻辑问题方面的表现与大学生相当，这些问题类似于标准化测试中出现的问题。研究人员写道，这一结果引发了一个问题：这项技术是否在模仿人类推理，还是在使用一种新型的认知过程。要解决这个问题，需要访问支撑GPT-3和其他AI软件的软件。

全文报道：

人们可以通过将新问题与熟悉的问题进行比较，并将解决方案扩展到新问题来轻松解决新问题。这一过程被称为类推推理，长期以来被认为是人类独有的能力。

但现在，人们可能需要为新来者让路。

洛杉矶加利福尼亚大学（UCLA）的心理学家的研究表明，令人惊讶的是，人工智能语言模型GPT-3在解决通常出现在智力测试和标准化测试（如SAT）上的推理问题方面的表现与大学本科生相当。该研究发表在《自然人类行为》杂志上。

但论文的作者写道，该研究提出了一个问题：GPT-3是在模仿人类推理作为其庞大语言训练数据集的副产品，还是在使用一种根本新的认知过程？

由于无法访问GPT-3的内部工作机制（由OpenAI公司保护），UCLA的科学家无法确定其推理能力是如何工作的。他们还写道，尽管GPT-3在某些推理任务方面的表现远远超出了他们的预期，但这一流行的AI工具在其他方面仍然失败得惨不忍睹。

UCLA的博士后研究员泰勒·韦布（Taylor Webb）表示：“无论我们的结果多么令人印象深刻，都必须强调，这个系统存在重大局限性。它可以进行类推推理，但不能解决人们很容易解决的问题，例如使用工具解决物理任务。当我们给它提出这些问题时——其中一些问题孩子们可以迅速解决——它提出的解决方案是荒谬的。”

韦布和他的同事测试了GPT-3解决一组灵感来自Raven's Progressive Matrices测试的问题的能力，该测试要求受试者预测一组复杂形状排列中的下一个图像。为了使GPT-3能够“看到”形状，韦布将图像转换为GPT-3可以处理的文本格式；这种方法还确保了AI以前从未遇到过这些问题。

研究人员要求40名UCLA本科生解决相同的问题。

UCLA心理学教授洪京露（Hongjing Lu）表示：“令人惊讶的是，GPT-3不仅表现得和人类一样好，而且还犯了类似的错误。”

GPT-3正确解决了80%的问题——远高于人类受试者的平均得分（略低于60%），但在最高人类得分的范围内。

研究人员还要求GPT-3解决一组SAT类比问题，他们认为这些问题从未在互联网上发布过——这意味着这些问题不太可能成为GPT-3的训练数据的一部分。这些问题要求用户选择共享相同类型关系的单词对。（例如，在问题“'Love'与'hate'之间的关系与'rich'与哪个词之间的关系相同？”中，解决方案将是“poor”。）

他们将GPT-3的分数与大学申请人的SAT分数的已发布结果进行了比较，并发现AI的表现优于人类的平均分数。

研究人员随后要求GPT-3和学生志愿者解决基于短篇小说的类推问题——要求他们阅读一篇文章，然后确定传达相同含义的不同故事。这项技术在这些问题上的表现不如学生，尽管OpenAI的最新迭代技术GPT-4的表现优于GPT-3。

UCLA的研究人员已经开发了自己的计算机模型，该模型受到人类认知的启发，并一直在将其能力与商业AI进行比较。

UCLA心理学教授基思·霍利奥克（Keith Holyoak）表示：“AI正在变得更好，但我们的心理AI模型在去年12月之前仍然是解决类比问题的最佳选择，当泰勒得到了GPT-3的最新升级时，它变得一样好甚至更好。”

研究人员表示，到目前为止，GPT-3一直无法解决需要理解物理空间的问题。例如，如果提供了一组工具的描述——例如纸板管、剪刀和胶带——可以用来将泡泡糖从一个碗转移到另一个碗，GPT-3提出了奇怪的解决方案。

露表示：“语言学习模型只是试图进行词预测，所以我们很惊讶它们可以进行推理。在过去的两年中，这项技术已经取得了很大的进展。”

UCLA的科学家希望探索语言学习模型是否真的开始像人类一样“思考”，还是在做一些完全不同的事情，只是模仿人类思维。

霍利奥克说：“GPT-3可能有点像人类一样思考。但另一方面，人们并没有通过摄取整个互联网来学习，所以训练方法完全不同。我们想知道它是否真的像人们那样做，或者它是不是全新的东西——一种真正的人工智能——这本身就是令人惊讶的。”

为了找出答案，他们需要确定AI模型正在使用的基础认知过程，这需要访问软件和用于训练软件的数据——然后进行他们确定软件尚未接受过的测试。他们说，这将是决定AI应该成为什么的下一步。

韦布说：“对于AI和认知研究人员来说，拥有GPT模型的后端将非常有用。我们只是输入并获得输出，这并不像我们希望的那样决定性。”

【粉丝专享】学数学会上瘾摆脱题海战术，培养孩子数学认知￥39 购买

来源：

https://www.sciencedaily.com/releases/2023/07/230731110750.htm

人工智能语言模型GPT-3的推理能力堪比大学生：心理学家报告

继续阅读

非洲工程创新奖授予人工智能驱动的农业工具

针对半导体、量子计算和人工智能领域！美推新规限制对华高科技行业投资

#有ai就有无限可能#ai人工智能#一键开启ai世界#人工智能训练师#ai美女

岚图汽车，作为新能源汽车行业的先行者，始终坚持以用户为中心的设计理念，致力于提供超越期待的用车体验。在智能化浪潮中，岚图

科大国创：行业软件领军企业全面拥抱“人工智能+”新时代

夏季达沃斯论坛｜人工智能、绿色转型、前沿创新——夏季达沃斯论坛上的中国经济“热词”

探索生成式人工智能的治理新境

聚力教研共成长！思腾合力携手昇腾AI打造人工智能云平台

人工智能作文800字-人工智能话题作文

人工智能关键技术-人工智能关键技术

OpenAI警告信！近日，OpenAI宣布禁止在不支持地区使用API流量，自7月9日起，将会阻止来自未支持的国家和地区使

【十四五数字化规划要点】数字化转型•企业数据治理•人工智能

30分钟！黑客高手破解任何人工智能，让AI盛赞希特勒、制作危险品

国家一出手，断了张雪峰老师等人的财路！6月18日，教育部“阳光高考”平台推出填报志愿信息服务系统，考生可以填报自己的省内

【论文速读】|MEDFUZZ：探索大语言模型在医学问题回答中的鲁棒性

王树国：ChatGpt高考几乎可以满分，人工智能将带来巨大变革#王树国#ChatGpt#人工智能#AI#关于AI与AGI