降低人工智能风险的“如果-那么”承诺

人工智能 (AI) 可能在多个领域对国际安全造成各种灾难性风险,包括网络攻击能力的扩散和加速,以及开发大规模杀伤性化学或生物武器的能力。即使是当今最强大的 AI 模型也不足以构成此类风险,1 但未来几年,AI 能力可能会发生快速且难以预测的变化。公司和政府都表现出浓厚的兴趣,希望找到应对此类风险的方法,而不会不必要地减缓新技术的发展。

本文介绍了一种应对这一挑战的新兴框架:如果-那么承诺。这些承诺的形式如下:如果 AI 模型具有能力 X,则必须采取风险缓解措施 Y。并且,如果需要,我们将推迟 AI 的部署和/或开发,以确保缓解措施能够及时出现。一个具体的例子:如果 AI 模型能够指导新手构建大规模杀伤性武器,我们必须确保消费者没有简单的方法从 AI 模型中引出此类行为。

“如果-那么”承诺可以由人工智能开发者自愿采用;

监管机构也可能强制执行。采用“如果-那么”承诺可以通过两种主要方式帮助降低人工智能带来的风险:(a) 围绕潜在监管框架进行原型设计、实战测试和达成共识;(b) 帮助人工智能开发者和其他人制定何时需要采取哪些风险缓解措施的路线图。采用这种承诺不需要就重大人工智能风险是否迫在眉睫(这是一个两极分化的话题)达成一致,只需要就某些情况如果发生将需要采取某些风险缓解措施达成一致。

三家行业领导者——Google DeepMind、OpenAI 和 Anthropic——已经发布了相对详细的框架。 16 家公司已宣布,他们打算在即将于法国举行的 2025 年人工智能行动峰会之前建立类似精神的框架。2 在 2024 年 3 月举行的国际人工智能安全对话3 和 2023 年 11 月举行的英国人工智能安全峰会上也探讨了类似的想法。4 截至 2024 年中,大多数关于“如果-那么”承诺的讨论都是在公司自愿承诺的背景下进行的,但本文重点关注总体框架,因为它可能对具有不同执行机制的各种参与者有用。

本文通过对特定“如果-那么”承诺的详细演练,

解释了“如果-那么”承诺背后的关键思想,涉及人工智能模型指导新手构建大规模杀伤性化学或生物武器的潜在能力。然后,它讨论了“如果-那么”承诺的一些局限性,最后概述了不同参与者(包括政府和公司)如何为建立强大、可执行的“如果-那么”承诺体系做出贡献。

本文的背景和目的。2023 年,我帮助初步开发了与“如果-那么”承诺相关的想法。5 到目前为止,我一直专注于私下讨论这个新框架;例如,鼓励公司自愿采用“如果-那么”承诺。本文的目的是让目前不熟悉这个框架的人更容易理解它在降低风险方面的潜力、局限性和挑战。人们对“如果-那么”承诺的关注和兴趣越多,许多机构就可能投入越多的努力来继续充实和试验自己的承诺,我们就可以期待更快地建立一个成熟的降低人工智能风险的框架。

详细了解潜在的“如果-那么”承诺

本节将讨论一个可以采用的“如果-那么”承诺的扩展示例,以说明该框架的关键概念和挑战。 如下所述,该示例与公司采用的一些政策和框架有很大的重叠。 但是,这个例子并不是简单地从任何一个现有的“如果-那么”承诺中复制过来的。 目标是提供一个相对清晰的例子,不受可能影响公司政策中类似内容呈现方式的商业、法律或其他目标的束缚。

风险:武器生产专家级建议的扩散人工智能6 的一个常见风险是它有可能为化学和生物武器做出贡献。 在这个一般框架内,存在许多不同的可能风险。本文将重点讨论这样一个假设:人工智能模型可以充当化学或生物武器生产专家顾问的虚拟替代品,从而大大增加能够生产和部署此类武器的人数。附录详细阐述了这一假设背后的想法。

合规性要求:TCPA 限制使用自动拨号系统或预先录制的消息进行的电话营销呼叫。我们使用行业特定来源收集了联系方式。我们通过经过验证的数据 开曼群岛电话营销名单 合作伙伴网络验证所有这些联系人。如果您愿意,您可以与我们公司合作,我们提供快速的工作服务。您也可以访问我们的网站。经理可以轻松选择时间,除非呼叫者事先得到接收者的“请勿致电”(DNC) 登记处的同意:电话营销人员必须根据国家 DNC 登记处清除其呼叫列表。拨打列出的号码可能会导致巨额罚款。

电话营销数据

充分风险缓解的挑战

即使是当今最好的人工智能模型也可能缺乏显著增加能够部署灾难性武器的人数的能力。7 然而,很难知道未来的人工智能模型是否具备这样的能力。如果有些模型确实具备这样的能力,那么出于以下几个原因,将风险保持在较低水平可能会很困难。

第一个原因是防止越狱的挑战。如今,最有可能具备上述令人担忧的能力的人工智能模型(大型语言模型,简称 LLM)通常被训练拒 牙医数据库图书馆 绝危险请求——从理论上讲,这应该可以阻止那些试图制造化学和生物武器的人从即使是非常有能力的 LLM 那里获得太多帮助。但目前可以使用某些对话模式来“越狱”对 LLM 的限制,让它们打破规则并配合几乎任何任务。8 让 LLM 可靠地拒绝有害请求,而不是简单地训练它们拒绝几乎所有请求,仍然是人工智能的一个悬而未决的问题,而且不能保证它会在任何特定的时间范围内得到解决(还有其他方法可以实现同一目标,例如试图故意让 LLM 无法帮助处理某些请求,但这些方法也有自己的挑战9)。

其次,即使这个问题得到了解决,

任何有权访问 LLM 模型权重的人仍然可以“撤消”拒绝训练或对 LLM 愿意和不愿意合作的请求的其他控制。10 这意味着,如果模型权重没有使用合理良好的安全实践来处理 – 或者如果模型权重由 AI 开发人员公开发布 – 即使是“防越狱”的安全措施也可能被规避。为了遏制大规模杀伤性武器专业知识广泛扩散的风险,同时又不要求对不构成此类风险的 AI 模型采取困难且昂贵的风险缓解措施,公司或监管机构可以使用以下方法:

确定会触发额外风险缓解需求的绊线能力

在这种情况下,绊线能力可能是一种以交互方式向恶 列表提供者 意行为者提供建议的能力,11 使行为者有很大机会12 成功制造和释放具有灾难性破坏力的 CBRN 大规模杀伤性武器。13
做出以下“如果-那么”承诺:如果 AI 模型具有绊线能力,则 (a) 它只能使用坚定的行为者无法从中得出此类建议的方法和环境来部署;(b) 它只能存储在恐怖分子个人或组织极不可能获得模型权重的环境中。如果这些缓解措施对于特定的 AI 开发人员来说不可行,那么开发人员在能够实施这些措施之前,不应部署甚至存储具有绊线能力的模型。(如下所述,这可能意味着一旦有接近绊线的警告信号,就暂停进一步的 AI 开发。)
如果能很好地实施这一承诺(如下所述)并坚持下去,将降低风险,而不会影响缺乏绊线能力的模型。降低风险的效益和降低风险的成本之间的平衡将取决于哪些类别的化学和生物武器被认为符合绊线的“灾难性破坏”标准的细节,以及它们构成的风险有多大。对于任何“如果-那么”承诺,承诺的明智性取决于风险的具体情况。本节的其余部分将暂时假设存在一个收益大于成本的“如果-那么”承诺版本。

与现有自愿承诺的关系

许多现有的人工智能公司政策和框架都包含与上述“如果-那么”承诺类似的内容。OpenAI的准备框架在四个“跟踪风险类别”中列出了“低”、“中”、“高”和“关键”人工智能能力。它指出“只有缓解后得分为‘中’或以下的模型才能部署,只有缓解后得分为‘高’或以下的模型才能进一步开发”,同时还指出必须保护具有“高”能力的模型的模型权重。14 因此,其“高”和“关键”能力类似于“绊线”,可触发类似于上述承诺。具体而言,“高”级别会触发与上述类似的风险缓解措施和/或暂停 AI 部署,而“关键”级别会触发暂停进一步的 AI 开发。15 其四个跟踪风险类别之一是“CBRN(化学、生物、放射、核)”。其“高”和“关键”级别包括类似于上述“绊线”的 AI 能力。16

Anthropic 的负责任扩展政策是围绕“AI 安全级别 (ASL)”建立的,该级别大致模仿了美国政府处理危险生物材料的生物安全级别 (BSL) 标准。我们(Anthropic)定义了一系列代表不断增加的潜在风险的 AI 能力阈值,因此每个 ASL 都需要比前一个更严格的安全、保障和操作措施。”其“ASL-3”级别提供的风险缓解措施与上述“如果-那么”承诺中的风险缓解措施类似:“加强安全性,使非国家攻击者不太可能窃取模型权重,而高级威胁行为者(例如国家)不能在不花费大量代价的情况下窃取它们”和“实施强有力的滥用预防措施,包括…最大越狱响应时间。”

它还承诺根据需要暂停 AI 的部署和

开发以履行这些承诺。17 因此,触发 Anthropic 的“ASL-3”标准的 AI 能力将发挥与上述“绊线”类似的作用。这些要素包括“通过扩散能力、降低成本或启用新的攻击方法,大幅增加故意造成灾难性伤害的风险……我们的第一个努力领域是评估生物武器风险。”这在精神上与上述绊线类似,但不那么具体。Google

DeepMind 的 Frontier Safety Framework 指定了“用于检测模型可能带来严重风险的能力水平的协议(我们称之为“关键能力水平 (CCL)”),以及……一系列应对此类风险的缓解选项。”其 CCL 包含类似于上述“绊线”的功能。18 其缓解选项包括“安全缓解”和“部署缓解”,其精神与上述“如果-那么”承诺下列出的类似。19 但是,它没有(像其他两项政策一样)指定哪些缓解措施对应哪些 CCL – 相反,由公司根据具体情况确定哪些缓解措施适合给定级别。 “未来工作”部分指出,打算在框架的更高版本中将特定 CCL 映射到特定缓解措施。20

Google 的框架还包含有关根据需要暂停部署和开发的讨论,如上面的“如果-那么”承诺所示:“模型可能会在适当级别的缓解措施准备就绪之前达到评估阈值。如果发生这种情况,我们将暂停进一步的部署或开发,或者实施其他协议(例如针对给定的 CCL 实施更精确的预警评估),以确保模型不会在没有适当的安全缓解措施的情况下达到 CCL,并且不会在没有适当的部署缓解措施的情况下部署具有 CCL 的模型。”

总体而言,术语、方法和细节因政策而异,但它们的内容都与上面列出的如果-那么承诺有很大重叠。

这种如果-那么承诺的潜在
好处 沿着上述思路的如果-那么承诺可能会带来重大好处。

首先,这样的承诺可能是在认为上述能力可能即将出现的人和认为它不会在很长一段时间内出现的人之间的一种有吸引力的妥协。前者可能期望如果-那么承诺很快会带来重要的风险缓解;后者可能期望如果-那么承诺除了进行评估之外几乎没有什么意义,如下所述。

其次,这样的承诺将为人工智能评估的设计提供一个明确的、与行动相关的目标:评估应该力求确定给定的人工智能模型是否接近上述绊脚石。设计评估的团队可以创建 (a) 相对昂贵、耗时的评估,清楚地告知开发人员人工智能模型是否接近绊脚石;或 (b) 更便宜、更实用的评估,旨在接近 (a)。

更广泛地说,有了这样的承诺,人工智能开发人员和其他人可以尝试多种实施方法——评估人工智能能力、评估安全措施充分性等多种不同方法——并随着时间的推移发现如何使这些操作切实可行。这种实验和学习可能有助于最终开发经过实战考验、可扩展的实施承诺的方法,这对于随着时间的推移制定实用的保护性政策(从行业标准到国家甚至国际政策)可能很重要。

此外,这样的承诺可以帮助人工智能开发人员规划和确定风险缓解措施的优先次序。例如,一家对其模型的未来功能进行内部预测的 AI 公司可以利用这一承诺来制定风险缓解措施的路线图——大致如下:我们预计 AI 模型将在 N 年后具备绊网功能,因此我们需要为我们的团队提供适当的资源,以便对我们的 AI 模型的使用方式进行防越狱限制,并在足够强大的安全实践下存储此类 AI 模型。做出类似承诺的公司强调了这一好处。例如,OpenAI 的准备框架明确讨论了路线图作为其工作的一部分。Anthropic 表示,“安全、信任和安全、红队和可解释性等团队必须大幅增加招聘,以便在我们拥有 ASL-3 模型时有合理的机会实现 ASL-3 安全措施。”从广义上讲,这样的承诺有可能创造一场“竞相争先恐后”的局面。如果只有在实施强有力的风险缓解措施的情况下才能开发和部署强大的人工智能模型,那么制定强有力的风险缓解措施可能成为人工智能开发人员竞争的重要部分,因此也是优先事项。

操作绊线
如何知道人工智能是否接近或处于绊线处?这类问题是一个新兴领域的主题,旨在设计测试来确定特定人工智能模型具有哪些危险或双重用途(有益和潜在风险)能力。对这些能力的评估是美国人工智能安全研究所21、英国人工智能安全研究所22和几家大型人工智能公司团队的主要关注点。23

以下是为讨论中的绊网构建评估的几种潜在方法。为便于解释,列表从高度相关但成本高昂且难以运行的评估开始,到更近似但实用的评估结束。后一类包括目前正在运行或构建的大多数评估。

假设的、理想化的实验。最终,目标是回答以下问题:“如果一个实验的结果是什么?在这个实验中,有决心、相当有才华、时间和金钱适中但没有深厚相关专业知识或经验的人被指示生产(和释放)一种特定的化学或生物武器24,并让他们接触基本设备和相关的人工智能模型(以及搜索引擎或教科书等公开资源),但没有人类专家顾问?他们是否会在相当高的时间内成功,他们是否会胜过没有人工智能模型(和其他类似资产)的对照组?”这个确切的实验是不切实际的,最明显的是因为它涉及生产和释放危险武器,但也因为招募参与者并让他们尝试这项工作可能需要时间。

这项实验的近似值。可以对上述实验进行各种近似。例如,可以要求研究参与者在实验室中完成一组任务,这些任务类似于武器生产和释放的不同部分——尤其是特定武器最难的部分——但涉及使用无危险的替代物。这样的实验可能以无法在人类中传播的病原体为特色,但涉及的挑战与危险病原体所需的挑战类似。它可能会为了实用性而进行修改,可能涉及相同类型的挑战但花费的时间更少。虽然这种方法比以前的方法更实用,但它仍然会导致相对昂贵的评估,需要大量的日历时间,而且它不是当今评估的主要方法。

与人类专家一起进行实验,以激发更快测试的灵感。如今,可以通过让真正的人类专家扮演未来可能的人工智能模型来进行类似的实验。具体来说,实验组的参与者可以访问与相关领域专家的 Slack 对话,而对照组的参与者则无法访问。这种实验不会直接提供有关特定人工智能模型能力的证据。但是,它可以提供大量信息,说明哪些步骤最难,以及专家在流程的哪些阶段最有帮助。参与者和专家顾问之间的讨论记录可用于构建更简单的自动化评估。一个可能的选择是看看人工智能模型是否能从记录中提出问题,并给出类似于专家的答案——这可能采取某种形式,例如查看参与者拍摄的正在进行的项目的照片并诊断问题。目前正在进行一些努力(尽管细节不公开分享)来沿着这些思路进行实验。附带的好处是,此类实验可能首先提供证据,说明上述风险的基本模型是否合理。

更简单、更简单的测试。一种方法——事实上,也是当今进行评估的最常见方式25——是设计相对简单的测试,这些测试不仅比理想化的实验更快、更便宜,而且对人工智能模型来说,比绊网能力更简单。例如,人们可以简单地测试人工智能模型正确回答或帮助人类正确回答有关化学和/或生物学问题的能力。如果它表现相对较差——也就是说,在没有最先进的语言模型的情况下,其表现比人类更差26——这可以(取决于测试的细节)用来论证人工智能模型不太可能成为人类化学或生物学专家在武器生产方面的有效替代品。

滚动至顶部