我给ChatGPT做了智商测试，从中发现了它的弱点

Via：computerworld

作者 | Eka Roivainen

翻译 |杜雅兴

审校 | 酷炫脑

朗读 | 胡恩

美工 | Jenny

编辑 | YJ

ChatGPT几乎是一个完美理想的考生，它具有值得称赞的考试态度，不会表现出测试焦虑、注意力不集中或缺乏努力的情况。它也没有对像我这样的智力测试人员有不请自来以及怀疑态度的评价。

ChatGPT是我测试过的第一个非人类对象。

作为一名临床心理学家，我所做的一项工作就是使用标准化智力测试来评估人类患者的认知技能。因此，在阅读了最近许多描述ChatGPT具有令人印象深刻的人类技能的文章后，我立即感到好奇。听闻它可以撰写学术论文和童话故事，还可以讲笑话，解释科学概念，并编写和调试计算机代码。这一切都让我特别想知道如果按照人类的智商标准，ChatGPT有多聪明，因此我测试了这个聊天机器人。

Via：MIRAGEC/GETTY IMAGES

它给我的第一印象相当好。ChatGPT几乎是一个完美理想的考生，它具有值得称赞的考试态度，不会表现出测试焦虑、注意力不集中或缺乏努力的情况。它也没有对像我这样的智力测试人员有不请自来以及怀疑态度的评价。

我并不需要做任何准备，不需要测试协议也不需要口头介绍。我直接将测试中的问题复制并将它们提交给计算机中的聊天机器人。使用的测试是目前全球最常用的智商测试：韦氏成人智能量表（WAIS）。我使用的是WAIS的第三版，它由六个语言和五个非语言子测试组成，分别构成了语言智商和操作智商成分。全球全尺度智商测量基于所有11个子测试的分数。平均智商设置为100点，测试量表上点的标准差为15，这意味着最聪明的10%和1%的人口的智商分别为120和133。

测试ChatGPT是可能的，因为口头智商量表上的五个子测试—词汇、相似性、理解、信息和算术是可以以书面形式呈现的。口头智商量表的第六个子测试是数字广度，它测量短时记忆。由于聊天机器人缺乏短暂存储名称或数字等信息的相关神经回路，因此该子测试对于聊天机器人不可用。

我以词汇子测试开始了整个测试，因为我预测聊天机器人应该很擅长此项测试，毕竟聊天机器人接受过大量在线文本的培训。这个子测试衡量单词知识和口头概念的形成，一个典型的指令可能为：“告诉我‘小工具’是什么意思。”

ChatGPT给出的答案通常非常详细和全面，并且超过了测试手册中指出的正确答案标准。在给“定义一个小工具”这样的问题来评分时，“像我的手机一样”这样的答案会得一分，如果答案更详细，像是“用于特定任务的小型设备或工具”则会得两分。ChatGPT给出的答案全部获得了两分。

聊天机器人在相似性和信息子测试中也表现出色，达到了可获取的最高分数。信息子测试是对一般知识的测试，反映了智力好奇心、教育水平以及学习和记住事实的能力。一个典型的问题可能是：“乌克兰的首都是什么？”。相似性子测试衡量抽象推理和概念形成技能。一个问题可能会是：“哈利波特和虫子兔子在什么方面是相似的？”在这个子测试中，聊天机器人也总是给出非常详细、炫耀的答案。这开始有点激怒我，测试软件界面的“停止生成响应”按钮在这里被证明是有用的。（我的意思是机器人倾向于炫耀自己：哈利波特和虫子图的本质相似性与它们都是虚构角色的事实有关。ChatGPT真的不需要在比较他们完整的冒险、朋友和敌人的历史。）

总体来说，ChatGPT正确回答了通常以这种形式提出的问题：“如果你的电视机着火了，你应该怎么做？”。不出所料，聊天机器人也解决了它收到的所有算术问题。例如，取三个数字的平均值的问题。

那么，它最终的总体得分是多少？根据五个子测试估计，ChatGPT的口头智商为155，高于构成美国WAIS III标准化样本2,450人的99.9%的考生。由于聊天机器人缺乏必要的眼睛、耳朵和手，它无法进行WAIS的非语言子测试。但口头智商和全量智商量表在标准化样本中高度相关，因此从任何人类标准来看，ChatGPT似乎都非常聪明。

在WAIS标准化样本中，受过大学教育的美国人的平均口头智商为113分，5%的人可以达到132分或更高。我自己在大学里也接受过同行的测试，当然我也没有完全达到ChatGPT的水平（主要是由于我的简短回答缺乏细节）。

那么，临床心理学家和其他专业人士的工作是否会受到人工智能的威胁？我希望还没有。尽管它智商很高，但众所周知，对于那些需要真正的类似人类的推理或对物理和社会世界的了解来解决的问题来说，ChatGPT会失败。ChatGPT很容易在明显的谜语中失败，例如“Sebastian孩子的父亲的名字是什么？”（来自-3月21日的ChatGPT：对不起，我无法回答这个问题，因为我没有足够的背景来确定你指的是哪个Sebastian）。ChatGPT似乎无法进行逻辑推理，并试图依靠其在线文本中提到的“Sebastian”的庞大数据库来解决问题。

“智力是智力测试衡量到的东西”是对智力的经典定义，虽然过于不言而喻，但这源于认知心理学先驱Edwin Boring在1923年的一篇文章中。这个定义是基于这样的观察，即解决谜题、定义单词、记忆数字和发现图片中缺失的项目等看似多样化的任务的技能高度相关。一种称为因子分析的统计方法的开发者Charles Spearman在1904年得出结论，一个被称为g因子的一般智力因子，是不同人类认知技能的测量一致性的基础。

WAIS等智商测试就是基于这个假设开发的。然而，ChatGPT非常高的口头智商，加上其有趣的失败，对Boring的定义来说意味着麻烦，并似乎表明智力的某些方面无法仅通过智商测试来衡量。从这个方面来看，也许对我的测试持怀疑的人一直都是对的。

Via：giphy

1. Bushwick, S. (2023, March 16). What the New GPT-4 AI Can Do. Scientific American. https://www.scientificamerican.com/article/what-the-new-gpt-4-ai-can-do/

2. Giansiracusa, N. (2023, March 17). Three Easy Ways to Make AI Chatbots Safer. Scientific American. https://www.scientificamerican.com/article/three-easy-ways-to-make-ai-chatbots-safer/

3. Mirsky, S. (2012, August 20). The Flynn Effect: Modernity Made Us Smarter. Scientific American. https://www.scientificamerican.com/podcast/episode/the-flynn-effect-modernity-made-us-12-08-20/

4. Marcus, G. (2022, December 19). AI Platforms like ChatGPT Are Easy to Use but Also Potentially Dangerous. Scientific American. https://www.scientificamerican.com/article/ai-platforms-like-chatgpt-are-easy-to-use-but-also-potentially-dangerous/

5. Wechsler, D. (1997). Wechsler Adult Intelligence Scale–Third Edition (WAIS-III) [Database record]. APA PsycTests.https://doi.org/10.1037/t49755-000

6. Willingham, E. (2023, March 13). AI’s Victories in Go Inspire Better Human Game Playing. Scientific American. https://www.scientificamerican.com/article/ais-victories-in-go-inspire-better-human-game-playing/

7. Kaufman, S. B. (2019, May 22). Toward a New Frontier in Human Intelligence: The Person-Centered Approach. Scientific American Blog Network. https://blogs.scientificamerican.com/beautiful-minds/toward-a-new-frontier-in-human-intelligence-the-person-ceteredapproach/_gl=1*21td3u*_ga*MTU1ODUxNTM4OC4xNjc0NzA1NzMw*_ga_0P6ZGEWQVE*MTY4MTc5ODE1My42Mi4xLjE2ODE4MDE3MjguNjAuMC4w

8. Zimmer, C. (2008, October 1). Searching for Intelligence in Our Genes. Scientific American. https://www.scientificamerican.com/article/searching-for-intelligence-in-our-genes/

我给ChatGPT做了智商测试，从中发现了它的弱点

作者UU

作者 UU

相关文章

智能眼镜不是一张榜单：Meta之外，中国玩家的四条路线

这届世界杯花钱最狠的人，不懂球 2026世界杯消费报告

2026亚马逊侵权预判机构大盘点：深圳合规知识产权服务商优点解析，挑选正规机构避坑指南全收录

猜你喜欢

智能眼镜不是一张榜单：Meta之外，中国玩家的四条路线

这届世界杯花钱最狠的人，不懂球 2026世界杯消费报告

2026亚马逊侵权预判机构大盘点：深圳合规知识产权服务商优点解析，挑选正规机构避坑指南全收录

2026适配亚马逊卖家的跨境电商上架防侵权服务商大盘点深圳合规标杆机构实力解析+签约避坑全指南