人工智能的未来:安全性与政策的双重挑战

图片源于:https://nationalinterest.org/blog/techland/can-us-and-china-cooperate-ai-211935

2012年,由初创公司DeepMind开发的人工智能系统DQN,通过以人类水平的技能玩经典雅达利计算机游戏,取得了重大突破。

到2023年,GPT-4已成为迄今为止最强大、最通用的人工智能模型,展示了其在多个标准化测试中的卓越表现,包括SAT和LSAT,超越了多项医学任务中的人类医生,能够为初创企业构建完整的商业计划,将自然语言翻译为计算机代码,并以著名诗人的风格创作诗歌。

我们未见真正的未来。

有多个理由相信,人工智能系统将继续变得更强大、更通用和更普遍。

首先,最近开发并迅速改进的被称为基础模型的机器学习算法可以从一个任务中学习到的知识应用到其他看似无关的任务上。

这种能力使得它们极其多才多艺,因此极其强大。

像GPT-4这样的大型语言模型仍然是幼年技术,似乎很可能会经历更多的改进,因为私营和公共资金继续流入人工智能研究。

它们需要大量的数据进行训练,而这些数据又需要在相应的硬件上进行处理。

这就引出了我们的第二个和第三个理由,即训练数据的日益丰富和图形处理单元(GPU)技术的不断发展。

GPU吞吐量,即GPU处理数据的速度,在最近几年中已经增加了十倍,这一趋势似乎还将持续下去。

未来的基础模型可能会继续增大,这是我们期待人工智能模型能力、通用性和普及性提升的第四个也是最根本的原因:一个名为“扩展假说”的晦涩理论。

机器学习算法使用称为参数的数值值将输入转化为输出,这些参数在模型训练过程中会不断调整以提高准确性。

根据扩展假说,人工智能系统在获得更多参数、更多数据和更多计算资源的情况下会继续改进,即使算法本身没有得到改进。

换句话说,规模越大,效果越好。

DeepMind联合创始人Mustafa Suleyman认为,即将在不久的将来,“将用于训练最大人工智能模型的计算能力将是现有水平的几个数量级”。

因此,如果扩展假说成立,快速的人工智能进展将在可预见的未来继续乃至加速。

所有可用的证据表明,人工智能系统将不断获得更复杂和更通用的能力。

经济和国家安全的激励将推动这些系统在私人公民、企业、政府和军队中的广泛采用。

忽视它们潜在的危险将使美国面临强大人工智能系统追求无意和破坏性行为所带来的成本。

对齐问题

这些风险之一就是所谓的对齐问题,Brian Christian将其定义为“确保人工智能模型捕捉我们的规范和价值观,理解我们意味着什么或意图,尤其是做我们想要的事情”。

为了实现这一目标,政策制定者应将对齐人工智能的问题视为包含技术和政策两方面的问题。

人工智能对齐的技术方面是编程人工智能系统以使其行为与程序员的意图一致的问题。

政策方面则是撰写法规、创建激励机制以及促进国际合作,以确保在安全人工智能开发中的最佳实践得以实施。

人工智能系统已经证明其易受对齐失误影响的两种主要方式。

第一种是规范游戏,Victoria Krakovna及其合著者将其定义为“满足目标文档的字面规格的行为,但未能实现预期的结果”。

在这种情况下,程序员错误地指定了用于确定人工智能系统操作的奖励函数,导致该系统采取无意的行为。

许多经过良好记录的、规模虽小却明确的规范游戏示例突显了人工智能研究中的一个核心困难。

非常难以明确我们希望人工智能系统不做什么,因为意外行为通常是由于无法预见的环境因素造成的。

到目前为止,研究人员未能找到解决此问题的方法。

人工智能系统发生对齐失误的第二种方式是目标泛化失误。

在这种情况下,正如Rohan Shah及其合著者所解释的那样,“该系统可能连贯地追求一个遵循训练阶段的规格的意外目标,但在实际部署中与该规格不同”。

在这些情况下,程序员正确地指定目标,人工智能系统也能够成功追求该目标。

然而,当代理移出该环境时,目标无法泛化,导致病态行为。

鉴于现实世界操作环境的不可预测性,研究人员至今尚未找到可靠的解决方案。

政策影响

日益强大的人工智能系统与我们迄今未能解决的对齐问题的结合,给人类带来了不可接受的风险。

对此风险进行了详细分析,我在此不予赘述。

然而,显而易见的是,面对一个非常智能和强大的系统,其目标与我们自己的目标不一致,绝对不是理想的状态。

鉴于此风险,美国应采取三项普遍政策来解决人工智能对齐问题的技术和政策两个方面。

在技术层面,应大规模扩大对齐研究。

该研究应涉及所谓沙盒和安全模拟的开发,这些是可以在给人工智能系统获取真实世界之前进行测试的虚拟环境。

此政策需要通过国家科学基金会和国防部增加研究资金。

增加的开支将使现有的人工智能安全研究人员能够扩大其项目,帮助建立人才供应链,以满足对研究助理、实验室助理和该领域研究生人数不断增长的需求,并提升该领域的声望,以帮助吸引顶尖人才。

在2022年,全球大约只有三、四百名全职人工智能安全研究人员,而总人工智能研究人员约有四万名。

考虑到这一问题的重要性,这一数字是不可接受的。

尽管由于私营人工智能实验室日益关注安全问题,这一数字可能在近年来有所增加,但这一问题尚未得到解决,尤其是信任那些急于将最先进模型推向世界的商业利益相关者是有风险的。

最近的一次泄密事件揭示,OpenAI的安全团队正努力减少人工智能模型安全开发环节中的质量。

在政策层面,美国应要求在发布先进人工智能模型之前对它们进行严格测试,这应与最新研究的有效标准相一致。

这将确保开发者在开发时使用上述沙盒和安全模拟。

即使在尚未发现此类技术之前,开发者也应被要求在发布前对他们的模型进行红队测试。

红队测试是工程师试图绕过人工智能系统安全机制以揭示其弱点的过程,从而使系统设计者能够改善其安全性。

美国白宫宣布成立一个人工智能安全研究所,该机构负责“创建评估和减轻危险能力的指南、工具、基准和最佳实践,以及包括红队测试在内的评估,以识别和减轻人工智能风险”,这一举措是一个良好的开端。

下一步的关键是将这些指南写入法律,这需要国会采取行动。

其次,美国应通过定期审计正在开发的最先进模型来执行这些要求。

这可能需要创建一个类似于欧盟人工智能法中高风险系统的联邦人工智能系统注册处。

这些审计应重点关注那些计算需求最高的模型,因为它们可能是最强大的。

战略格局

即使美国完美实施并执行这些政策,也无法单凭一国之力确保安全和有益的人工智能发展。

这是因为世界上存在两个人工智能超级大国:美国和中国。

因此,美国政策制定者将不得不与中国同行合作,以妥善解决这一问题。

尽管目前的地缘政治竞争状态,关于中美在此问题上合作前景的两个原因让人感到乐观。

首先,中美两国政府都认识到在开发安全、对齐的人工智能方面的共同利益。

拜登总统关于人工智能的行政命令和参议员查克·舒默的人工智能安全创新框架都将人工智能对齐视为重中之重。

在他们2023年11月的双边峰会上,拜登及习总书记均表达了对人工智能安全的关注,并重申其在最近的五月峰会上致力于开发安全人工智能。

最具标志性的迹象是,美国和中国在2023年11月及29个国家间签署了布莱切利人工智能安全宣言。

该声明明确指出,人工智能先进技术的失衡是一个重大风险,呼吁对这一问题进一步研究,明确支持安全测试,并承诺各方进行国际合作。