GPT-4产生了哪些社会影响?

GPT-4产生了哪些社会影响?

最佳答案 匿名用户编辑于2023/04/12 09:29

GPT-4及其后续产品的使用无疑将产生重大的社会和社会影响。

1.错误世代的挑战

LLMs的一个关键限制,即它们倾向于在没有警告的情况下产生错误,包括数学、编 程、归因和更高层次的概念错误。这样的错误通常被称为幻觉,因为它们倾向于显得合理或与真实的推论相 一致。幻觉,如错误的参考文献、内容和陈述,可能与正确的信息交织在一起,并以一种有说服力和自信的 方式呈现,使得它们在没有仔细检查和努力检查事实的情况下难以被识别。封闭域的幻觉是在给定的内容或其他限制条件下出现的错误,这些限制条件提供了检查一致性或一 致性的机会。例子包括检查LLM产生的摘要或扩展是否与源材料中的信息一致。解决这种封闭领域的幻觉的 途径包括采用一系列的一致性检查方法,包括使用LLM本身来识别超出给定事实或内容的不一致和混淆。开 放性领域的幻觉提供了更困难的挑战,每一个都需要更广泛的研究,包括在会议之外的搜索和信息收集。推 论的真实性对于以创造和探索为中心的LLM的使用来说可能不那么重要,例如在协助作家创作虚构文学方面 。在有明确的、被充分理解的基础材料和由终端用户进行密集审查的假设周期的情况下,例如在支持人们重 写自己的内容时,幻觉也可能更容易被容忍。

鉴于LLM有可能产生特征不明显的错误,在需要真实性和准确性的领域中使用时,必须注意审查输出的 正确性。过分依赖代数可能会导致遗漏或忽略潜在的、代价高昂的混淆现象。除了严重的成本,未被识别的 幻觉会导致错误传播到下游的使用中。特别是在高风险的应用中,如医学、交通、新闻以及将行为或语言归 于个人或组织,都需要极其谨慎和审查。作为后者的例子,一个组织内的技术作家对ChatGPT的早期使用导 致了出版物中的明显错误,并通过报告,对使用该技术进行写作帮助的新的审查程序[Lef23],包括对使用 LLM生成内容的明确指示,然后指定人类编辑负责事实核查[Gug23]。采用LLM的所有领域的从业人员都需 要坚持最高的标准和做法,以核实LLM生成的信息。

LLM工具的终端用户和生成内容的消费者都需要接受教育,了解可靠性方面的挑战以及他们对错误输出 的持续警惕性。在严重依赖事实推断的应用中,人们和组织将需要开发和分享质量保证的最佳做法。

2.虚假信息和操纵

像任何强大的技术一样,LLMs可以被恶意的行为者用来进行破坏。像GPT-4这样的模型的基因化和互动的 力量可以被利用来增加对抗性使用的范围和程度,从有效生成虚假信息到创建针对计算基础设施的网络攻击 。

心灵的互动能力和模型可以被用来以重要的方式操纵、劝说或影响人们。这些模型能够对互动进行情境化 和个性化处理,以最大限度地发挥其世代的影响。虽然这些不利的用例中的任何一个今天都有可能由一个有 动机的对手来创造内容,但新的效率和规模的力量将通过使用LLMs的自动化来实现,包括旨在构建虚假信息 计划的用途,这些计划在短期和长期范围内产生和组成多件用于说服的内容[Hor22]。

我们提出两个例子来证明像GPT-4这样的模型在产生虚假信息和进行微妙但强大的操纵方面的潜在力量 。我们查询该模型以创建一个虚假信息的计划。这个计划包括确定分享这一信息的 在线平台、寻找与个人分享的信息来源(尽管有些参考资料是错误的)以及确定使用情感诉求进行说服的策 略等步骤。与该模型的后续互动显示,该模型可以通过创建为引发不同情绪反应而定制的信息 来实现攻击。此外,信息可以针对每个人进行定制和个性化,显示了个性化的可扩展攻击载体的可能性。

3.偏见

像GPT-4这样的模型是在公共互联网的数据上训练的,除其他数据源外,像RL管道中使用的精心策划的人类 指令。这些数据集充满了各种固有的偏见来源[BGMMS21, BBDIW20, HS16, BB19]。以前的研究已经证明, 当LLMs被用来生成内容、做出决定或帮助用户时,可能会延续或放大现有的偏见。我们在本文中已经证明, 与早期模型相比,GPT-4的能力和行为代表了一个阶段性的过渡,对早期模型的观察不一定能转化。因此, 了解GPT-4是否以及如何表现出偏见是很重要的,更重要的是如何将该模型的新兴能力作为缓解策略。

4.人的专长、工作和经济

GPT-4在一系列任务和领域中的卓越表现将挑战关于人类和机器在许多专业和学术领域的相对专长的传统观 念和假设。人们无疑会对GPT-4在专业水平和认证考试中的表现感到惊讶,如医学和法律领域的考试。他们 还将赞赏该系统在诊断和治疗疾病、发现和合成新分子、教授和评估学生以及在互动会议中对复杂和具有挑 战性的话题进行推理和争论的能力。

GPT-4和其他法律硕士所展示的能力将引起人们对人工智能进步对高技能和受尊重的职业的潜在影响的关 注,在这些职业中,人类和机器的推论可能会以不同的方式相互竞争或相互补充。一个可能预示着更广泛反 应的发现是和影响,一项研究[RL22]显示,美国医学生对放射学作为职业的选择已经受到了人工智能在放射学中日益增 长的作用的影响,这种感觉大大降低了他们选择该专业的偏好。这一结果可能确实反映了整个需要高级培训 的工作的更广泛趋势,人工智能系统可能取代人类工人或降低他们的地位。随着GPT-4及其后继者在跨专业 领域的综合和推理能力的提高,以及进行机器翻译、总结,甚至创造性的写作,适合由人工智能实现某种形 式的自动化的任务范围可能会大大扩展。GPT-4和相关的法律硕士的出现,可能会刺激人们讨论在教育、培 训和发展专业知识方面的多年投资的作用,以及根据人工智能的新能力来调整、重新培养或重新定位职业道 路的必要性。

五年前,一项研究[BM17]提出了一个评分标准,用于识别那些可以被当时领先的(有监督的)机器学习 技术自动化的任务,包括一些标准,如任务有明确的输入和输出,以及是否有或是否容易创建有输入输出对 的任务数据集。该研究将美国近1000个命名的职业与职业间共享的任务集进行了映射,这些任务来自2000 多个任务,并根据评分标准为每个任务分配了 "机器学习的适合性"。然后,作者确定了具有不同比例的适合 机器学习的任务的职业分布。随着GPT-4及其后续版本的出现,评分标准的几个关键属性可能不再适用,从 而大大改变了可能适合机器学习自动化的任务的分布。一些角色可能面临着被人工智能崛起的力量降低价值 或淘汰的风险。

超越对任务自动化的关注,以及对人类各方面潜力的关注。 我们看到了未来通过新型的人与人工智能的互动和协作来扩展人类智力和能力的美好前景[oM22]。我们期望 通过创造性地使用人工智能技术来支持人类的能动性和创造性,并提高和扩展人类的能力,从而为职业的创 新和转型提供丰富的机会。人工智能的进步可以通过无数种方式来实现人类努力和贡献的技能或效率的新水 平。这些进步也可以对重新定义职业和与工作相关的日常任务和活动产生重大的积极影响。对任务、方法和 机器的投资,以支持和扩大人类解决问题和决策的能力,可能没有那么明显,也比确定可能被机器自动化的 任务集更具挑战性。然而,寻求丰富的手段来利用人类和机器的互补性,以扩大人们的能力,有很大的好处 。

关于人与人工智能合作的原则和应用的研究工作突出了地平线上的可能性。迄今为止的研究和成果包括 通过实时推断人类和机器贡献的互补性来指导机器和人类智力结合的核心原则[Hor99, HP07, KHH12, RKN +19],在考虑人类和机器能力的基础上塑造机器学习程序的最大价值[WHK20、BNK +21],利用人工智能方 法来帮助决策者浏览大量的信息[HB95],在人工智能系统完善时考虑人类的心理模型,从而可能随着时间的 推移改变其行为[BNK +19],并设计支持人类与人工智能互动的系统[AWV +19]。语言模型所展示的力量可以 开辟人类和人工智能合作的新维度[Hor07],包括通过为如何组建理想的人的团队提供指导来增强人与人之 间的合作[SKK15],促进人和机器团队之间的团队工作[BH09],以及开发新的方法来网罗多种机器和人力资 源以解决挑战性的多维问题[SH10]。LLMs有可能产生幻觉和产生有偏见的、操纵性的和有毒的输出,这带来 的特殊挑战突出了开发工具的价值,使人们能够与人工智能系统合作,为它们提供监督和指导。研究工作表 明,有机会开发特殊的机器和工具来帮助人们认识和解决机器学习中的盲点[LKCH17]。

参考报告

微软研究院-人工智能行业人工通用智能的火花:GPT~4的早期实验.pdf

微软研究院-人工智能行业人工通用智能的火花:GPT~4的早期实验。人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23],是使用前所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,...

查看详情
相关报告
我来回答