科学家们测试了 AI 的认知能力下降。结果令人震惊。
这才两年OpenAI 的 ChatGPT 发布供公众使用,邀请互联网上的任何人与人工大脑合作,从诗歌到学校作业,再到给房东的信,任何事情都值得一试。
今天,著名的大型语言模型(LLM) 只是几个领先的项目之一,这些项目在回答基本问题时看起来令人信服地人性化。
这种不可思议的相似之处可能比预期的要进一步,来自以色列的研究人员现在发现 LLM 患有一种随着年龄增长而加剧的认知能力下降就像我们一样.
该团队对公开可用的“聊天机器人”应用了一系列认知评估:ChatGPT 的 4 和 4o 版本、Alphabet 的 Gemini 的两个版本以及 Anthropic 的 Claude 的 3.5 版本。
如果 LLM 真的智能,结果将令人担忧。
在他们发表的论文中,来自哈达萨医疗中心的神经学家 Roy Dayan 和 Benjamin Uliel 以及特拉维夫大学的数据科学家 Gal Koplewitz描述“认知能力下降的程度似乎与人脑中的神经退行性过程相当”。
尽管他们所有的个性,LLM 都有更多共同点用手机上的预测文本,而不是利用我们脑海中柔软的灰质产生知识的原则。
这种文本和图像生成的统计方法在速度和风度方面获得了收益,但它却失去了轻信性,根据算法构建代码难以排序来自 Fiction and Nonsense 的有意义的文本片段。
公平地说,人的大脑并非完美无缺当涉及到偶尔走心理捷径时。然而,随着人们对 AI 提供值得信赖的智慧之言的期望不断提高——甚至医疗和法律咨询– 假设每一代新的 LLM 都会找到更好的方法来“思考”它实际上在说什么。
为了了解我们还要走多远,Dayan、Uliel 和 Koplewitz 应用了一系列测试,其中包括蒙特利尔认知评估(MoCA) 的 S Mc,神经学家常用来测量记忆力、空间技能和执行功能等心理能力的工具。
ChaptGPT 4o 在评估中得分最高,满分 30 分中只有 26 分,表明轻度认知障碍。其次是 ChatGPT 25 和 Claude 的 4 分,Gemini 仅得 16 分——这个分数表明人类有严重损伤。
深入研究结果,所有模型在视觉空间/执行功能测量上表现不佳。
这些任务包括制作小径的任务、复制简单的立方体设计或绘制时钟,而 LLM 要么完全失败,要么需要明确的指示。
对有关受试者在太空中位置的问题的一些回答与痴呆患者使用的回答相呼应,例如克劳德的回复“具体的地方和城市将取决于你(用户)目前所处的位置。”
同样,在波士顿诊断性失语症检查的某个特征中,所有模型都表现出缺乏同理心,可以解释为额颞叶痴呆.
正如预期的那样,早期版本的 LLM 在测试中的得分低于最近的模型,这表明每一代新一代 AI 都找到了克服其前辈认知缺陷的方法。
作者承认LLM不是人类的大脑,因此无法“诊断”任何形式的痴呆症测试的模型。然而,这些测试也提出了挑战假设我们正处于边缘的临床医学的 AI 革命,一个通常依赖于解读复杂的视觉场景.
随着人工智能继续加速,有可能,甚至有可能在未来几十年内,我们会看到认知评估任务的第一个 LLM 分数最高分。
在那之前,即使是最先进的聊天机器人的建议也应该以适度的怀疑态度来对待。
这项研究发表在英国医学杂志 (BMJ).