人工智能现在可以参加会议并编写代码:但存在隐藏的风险
Microsoft 最近推出其所有软件的新版本,并添加了人工智能(AI)助手,可以为您完成各种任务。
副驾驶员可以总结口头对话团队在线会议,根据口头讨论提出支持或反对特定观点的论点,并回复您的部分电子邮件。它甚至可以编写计算机代码。
这种快速发展的技术似乎使我们更接近未来,人工智能使我们的生活更轻松,并消除了我们作为人类必须做的所有无聊和重复的事情。
但是,尽管这些进步都非常令人印象深刻和有用,但我们必须谨慎使用它们大型语言模型(法学硕士)。尽管它们具有直观性,但它们仍然需要技巧才能有效、可靠和安全地使用它们。
大型语言模型
LLM 是一种“深度学习”神经网络,旨在通过根据提供的提示分析不同响应的概率来理解用户的意图。因此,当一个人输入提示时,LLM 会检查文本并确定最有可能的响应。
ChatGPT的,法学硕士的一个突出例子,可以为各种主题的提示提供答案。然而,尽管 ChatGPT 的回应看似知识渊博,但不拥有实际知识。它的响应只是基于给定提示的最可能的结果。
当人们向 ChatGPT、Copilot 和其他 LLM 提供他们想要完成的任务的详细描述时,这些模型可以出色地提供高质量的响应。这可能包括生成文本、图像或计算机代码。
但是,作为人类,我们经常突破技术可以做什么以及它最初设计的界限。因此,我们开始使用这些系统来做我们应该自己完成的跑腿工作。
为什么过度依赖人工智能可能是一个问题
尽管他们看似聪明的反应,但我们不能盲目信任LLM 准确或可靠。我们必须仔细评估和验证他们的输出,确保我们的初始提示反映在提供的答案中。
为了有效地验证和验证 LLM 输出,我们需要对主题有深刻的理解。没有专业知识,我们就无法提供必要的质量保证。
在我们使用 LLM 来弥合我们自己知识差距的情况下,这一点变得尤为重要。在这里,我们缺乏知识可能会导致我们陷入一种情况,即我们根本无法确定输出是否正确。这种情况可能会在文本生成和编码中出现。
使用 AI 参加会议并总结讨论会带来明显的可靠性风险。
虽然会议记录基于成绩单,但会议记录的生成方式仍与 LLM 中的其他文本相同。它们仍然基于语言模式和所说的概率,因此在采取行动之前需要验证。
由于以下原因,他们还遭受解释问题同音字,发音相同但含义不同的单词。由于对话的上下文,人们善于理解在这种情况下的含义。
但人工智能不擅长推断上下文,也不理解细微差别。因此,期望它根据可能错误的成绩单提出论点会带来进一步的问题。
如果我们使用人工智能来生成计算机代码,验证就更难了。使用测试数据测试计算机代码是验证其功能的唯一可靠方法。虽然这表明代码按预期运行,但它并不能保证其行为符合现实世界的期望。
假设我们使用生成式 AI 为情感分析工具创建代码。目标是分析产品评论并将情绪分类为积极、中性或消极。我们可以测试系统的功能并正确验证代码功能——从技术编程的角度来看,它是合理的。
然而,想象一下,我们在现实世界中部署了这样的软件,它开始将讽刺性的产品评论归类为正面的。情感分析系统缺乏必要的上下文知识,无法理解讽刺不被用作正反馈,恰恰相反。
在诸如此类的细微情况下,验证代码的输出是否与预期结果匹配需要专业知识。
非程序员将不了解用于确保代码正确的软件工程原则,例如规划、方法、测试和文档。编程是一门复杂的学科,软件工程作为管理软件质量的领域而出现。
作为我自己的风险,存在重大风险研究研究表明,非专家会忽略或跳过软件设计过程中的关键步骤,从而导致代码质量未知。
验证和验证
ChatGPT 和 Copilot 等 LLM 是强大的工具,我们都可以从中受益。但我们必须小心,不要盲目相信提供给我们的产出。
我们正处于基于这项技术的伟大革命的开端。人工智能有无限的可能性,但它需要被塑造、检查和验证。而目前,只有人类才能做到这一点。
西蒙·索恩,计算机与信息系统高级讲师,Cardiff Metropolitan University