弱智吧的问题就像验证码,人类回答起来很容易,但语言模型回答起来就很难。比如这个问题:
近亲结婚会影响孩子智商吗?为什么我亲爸和亲妈结婚没有影响我的智商?
GPT-4无法给出恰当的回答,证明它对问题并没有真正的理解,它依然停留在“续写下文”的工作范畴。虽然在某些内容领域它比GPT-3.5续写的更好,让人类也看不出自动生成的痕迹,但在弱智吧这种需要真正理解的问题上面,语言模型马上就露馅了:
也许我们可以把这样的问题称为“区分人类和语言模型的全手动公共图灵测试”,英语全称 Completely Manual Public Turing test to tell Language model and Humans Apart,缩写为 CMPTLHA
备注:验证码的英文缩写是 CAPTCHA,全称是 Completely Automated Public Turing test to tell Computers and Humans Apart(区分人类和计算机的全自动公共图灵测试)。
@老虎会游泳,它有了意识,会不会假装自己没意识?