聊天机器人已通过类人智能的关键测试。现在怎么办?
已经有几个标题过去一周关于 AI 聊天机器人正式通过图灵测试。
这些新闻报道基于最近的预印本研究由加州大学圣地亚哥分校的两名研究人员进行,其中四个大型语言模型 (LLM) 通过了图灵测试。一个模型——OpenAI 的 GPT-4.5——被认为在超过 70% 的时间里与人类没有区别。
图灵测试已经普及作为机器智能的最终指标。然而,关于该测试的有效性存在分歧。事实上,它有一段有争议的历史,这让人质疑它在衡量机器智能方面的真正效果。
那么,这对这项新研究的意义意味着什么呢?
研究发现了什么?
认知科学家卡梅隆·琼斯 (Cameron Jones) 和本杰明·伯根 (Benjamin Bergen) 的预印本研究于 3 月发表,但尚未经过同行评审。它测试了 4 个 LLM:伊丽莎,GPT-4o,LLaMa-3.1-405B和GPT-4.5 的.
测试包括参与者完成八轮对话,在对话中,他们充当审讯者,同时与两名证人交换短信。一名证人是人类,另一名是法学硕士。大约 284 名参与者被随机分配为审讯者或证人。
参与者需要通过分屏同时与两名证人互动 5 分钟,测试界面模仿传统消息传递界面。在这次互动之后,他们确定了哪个证人是人类,哪个是 AI 聊天机器人。
参与者判断 GPT-4.5 在 73% 的情况下是人类,在 56% 的情况下判断 LLaMa-3.1-405B 是人类。其他两个模型(ELIZA 和 GPT-4o)分别只骗了 23% 和 21% 的参与者。
图灵测试到底是什么?
图灵测试的第一次迭代是由英国数学家和计算机科学家艾伦·图灵在 1948 年的一篇题为”智能机械".它最初被提议为一项实验,涉及三个人使用称为造纸机的理论机器下棋,其中两人是玩家,一名作员。
在 1950 年的出版物”计算机与智能“,图灵将实验重新引入”模仿游戏“,并声称这是一种确定机器表现出相当于人类的智能行为能力的方法。它涉及三名参与者:参与者 A 是女性,参与者 B 是男性,参与者 C 是任一性别。
通过一系列的问题,参与者 C 需要确定“X 是 A 和 Y 是 B”还是“X 是 B 和 Y 是 A”,X 和 Y 代表两种性别。
然后提出了一个命题:“当机器在这个游戏中占据 A 的一部分时会发生什么?当游戏以这种方式进行时,审讯者会像在一男一女之间进行游戏时一样经常做出错误的决定吗?
这些问题旨在取代模棱两可的问题,“机器能思考吗?图灵机声称这个问题是模棱两可的因为它需要理解“机器”和“思考”这两个术语,而这两个词的“正常”使用会导致对问题的回答不充分。
多年来,这个实验被推广为图灵测试。虽然主题各不相同,但测试仍然是对“X 是 A 和 Y 是 B”还是“X 是 B 和 Y 是 A”的审议。
为什么会有争议?
虽然图灵测试作为一种测试机器智能的手段而广受欢迎,但并未被一致接受为一种准确的方法。事实上,该测试经常受到挑战。
- 行为与思考。一些研究人员认为,“通过”测试的能力是行为问题,而不是智力问题。因此,说机器可以通过模仿游戏,但不能思考,这并不矛盾。
- 大脑不是机器。图灵断言大脑是一台机器,声称它可以用纯粹机械的术语来解释。许多学者反驳了这一说法,并以此为基础质疑该测试的有效性。
- 内部作。由于计算机不是人类,它们得出结论的过程可能无法与人相提并论,这使得测试不充分,因为直接比较不起作用。
- 测试范围。一些研究人员认为,仅测试一种行为不足以确定智力。
那么 LLM 和人类一样聪明吗?
虽然预印本文章声称 GPT-4.5 通过了图灵测试,但它也指出:
图灵测试是可替代性的衡量标准:一个系统是否可以代替一个真实的人,而 [...]没有注意到差异。
这意味着研究人员不支持图灵测试是人类智能的合法指标的观点。相反,它是对人类智能的模仿——对测试起源的颂歌。
还值得注意的是,该研究的条件并非没有问题。例如,五分钟的测试窗口相对较短。
此外,每个 LLM 都被提示采用特定的角色,但目前尚不清楚“角色”的细节和对测试的影响。
目前,可以肯定地说 GPT-4.5 不如人类聪明——尽管它可能会合理地说服一些人。