但要是以为这种题很简单,随便放在哪个AI上都能做对,那就大错特错了 。
作者对GPT系列的9个模型都做了这样的测试,发现只有GPT-3.5(-003)和GPT-3(2022年1月新版,-002)表现不错 。
-002是GPT-3.5和的“老前辈” 。
平均下来,-002完成了70%的任务,心智相当于7岁孩童,GPT-3.5完成了85%的意外内容任务和100%的意外转移任务(平均完成率92.5%),心智相当于9岁孩童 。
然而在BLOOM之前的几个GPT-3模型,就连5岁孩童都不如了,基本上没有表现出心智理论 。
作者认为,在GPT系列的论文中,并没有证据表明它们的作者是“有意而为之”的,换而言之,这是GPT-3.5和新版GPT-3为了完成任务,自己学习的能力 。
看完这些测试数据后,有人的第一反应是:快停下(研究)!
也有人调侃:这不就意味着我们以后也能和AI做朋友了?
甚至有人已经在想象AI未来的能力了:现在的AI模型是不是也能发现新知识/创造新工具了?
发明新工具还不一定,但Meta AI确实已经研究出了可以自己搞懂并学会使用工具的AI 。
LeCun转发的一篇最新论文显示,这个名叫的新AI,可以教自己使用计算机、数据库和搜索引擎,来改善它生成的结果 。
甚至还有人已经搬出了 CEO那句“AGI可能比任何人预料的更早来敲响我们的大门” 。
文章插图
但先等等,AI真的就能通过这两个测试,表明自己具备“心智理论”了吗?
会不会是“装出来的”?
例如,中国科学院计算技术研究所研究员刘群看过研究后就认为:
AI应该只是学得像有心智了 。
既然如此,GPT-3.5是如何回答出这一系列问题的?
对此,有网友给出了自己的猜测:
这些LLM并没有产生任何意识 。它们只是在预测一个嵌入的语义空间,而这些语义空间是建立在实际有意识的人的输出之上的 。
事实上,作者本人同样在论文中给出了自己的猜测 。
如今,大语言模型变得越来越复杂,也越来越擅长生成和解读人类的语言,它逐渐产生了像心智理论一样的能力 。
但这并不意味着,GPT-3.5这样的模型就真正具备了心智理论 。
与之相反,它即使不被设计到AI系统中,也可以作为“副产品”通过训练得到 。
因此,相比探究GPT-3.5是不是真的有了心智还是像有心智,更需要反思的是这些测试本身——
最好重新检查一下心智理论测试的有效性,以及心理学家们这数十年来依据这些测试得出的结论:
如果AI都能在没有心智理论的情况下完成这些任务,如何人类不能像它们一样?
属实是用AI测试的结论,反向批判心理学学术圈了(doge) 。
关于作者
本文作者仅一位,来自斯坦福大学商学院组织行为学专业的副教授。
他的工作内容就是利用前沿计算方法、AI和大数据研究当下数字环境中的人类(如陈怡然教授所说,他就是一位计算心理学教授) 。
拥有剑桥大学心理学博士学位,心理测验学和社会心理学硕士学位 。
在当前职位之前,他曾在斯坦福大学计算机系进行博士后学习,担任过剑桥大学心理测验中心的副主任,以及微软研究机器学习小组的研究员 。
目前,在谷歌学术上显示的论文引用次数已达18000+ 。
话又说回来,你认为GPT-3.5真的具备心智了吗?
GPT3.5试用地址:
参考链接:
[1]
[2]
[3]
- 利用ChatGPT3.5 预处理车辆计数数据集:CARPK和PUCPR+
- 给ChatGPT搞双眼睛,《流浪地球2》MOSS有影儿了
- chatgpt赋能python:Python设置在哪:优化SEO
- ChatGPT已能操控机器人,工程师连代码都不用写,网友:微软在搞天网?
- chatgpt赋能python:Python编程中如何为角色添加功能
- 利用ChatGPT完成深度学习分类任务
- chatgpt赋能python:Python隐藏窗口:实现更加优雅的UI体验
- chatgpt赋能python:Python如何设计UI:最佳实践和关键洞察
- 玩转ChatGPT:基于Mucloud建立本地知识库
- 简单实现一个ChatGPT Plugin