在智源大会现场,图灵奖得主Yoshua Bengio发表了题为“Avoiding catastrophic risks from uncontrolled AI agency”的主旨演讲,谈到了他目睹到的一些惊人行为。
比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配合,实则隐瞒了整个复制过程……AI 像是在试图“活下来”。
还有像Anthropic最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。
……
他表示:面对这些AI带来的安全风险,决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险…..尽管这与此前的研究路径和职业信念有所冲突。
那既然如何去防范规避掉这些风险呢?是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?这也是当前 Bengio发起的研究项目核心所在,并称这种AI为科学家AI(scientist AI)。
除此之外,他还透露了很多关于他们研究项目的细节。
在不改变原意的基础上,做了如下整理,在此分享给大家。
五年内,AI规划能力达到人类水平
接下来,跟大家分享一下我开始的历程,也就是十年之前和GPT共生的一个过程。
大约两年多前,也就是 ChatGPT 发布不久之后,我开始使用它,使用过后很快意识到,我们低估了AI进步的速度。我们原以为通用人工智能(AGI)还很遥远,但实际上,它可能近在眼前。
我们已经拥有能掌握语言、几乎可以通过图灵测试的机器,这在几年前还像科幻小说,但现在已经成为现实。
当时我突然意识到一个严重问题:我们知道如何训练这些系统,却不知道如何控制它们的行为。如果未来它们变得比人类更聪明,却不再遵循我们的意图,甚至更在意自己的“生存”,这将是一种我们无法承受的风险。
2023年,我开始更加关注这些问题,也开始思考孩子和孙辈的未来。我有一个年仅1岁的孙子,可以想象,20年后,他将生活在一个AGI普及的世界,不确定他是否可以拥有正常生活。
因此,我决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险。尽管这与此前的研究路径和职业信念有所冲突,但相信,这是正确的事。必须去做,必须为降低风险尽一份力。
后来,在 2023 年底,我接受担任《国际人工智能安全报告》的主编。今年1月份,这份报告发布。参与编写报告的有100位专家,他们来自多个国家,以及欧盟、联合国、经济合作与发展组织(OECD)等国际机构。
这份报告聚焦于三个核心问题:
1.人工智能到底能为我们做些什么?未来几年,它将具备哪些能力?
2.与AI相关的潜在风险有哪些?
3.我们可以采取哪些措施来降低这些风险?
关于 AI 能力的讨论,大多数人会陷入一个误区:认为 AI 就是现在的这个样子,不去思考明年、三年后、五年后、甚至十年后AI的图景。
当然,我们没有水晶球无法预言未来,但趋势是非常明确的:AI的能力正在不断提升。
在过去一年的时间里,由于“推理的扩展”(inference scaling)的发展,人工智能在抽象推理、数学、计算机科学、科学方面取得了显著进步。另外,对 AI 智能体的投资也在推动相关能力快速发展。比如 AI 完成网页浏览、写代码等任务的表现越来越好。
分享一些关于“规划能力”的研究。规划是目前AI能力最薄弱的领域之一,目前与人类智能相比还有明显差距。但最近Meta进行的一项研究显示,AI的规划能力正以指数级速度提升。
如上图,横轴表示过去五年,纵轴显示 AI 能够完成的任务的持续时间,单位是“相当于人类完成该任务所需时间”。虽然图中曲线看起来接近直线,但由于纵轴采用的是对数刻度,这实际上是一条指数增长曲线。
图中的每个数据点代表当时最先进的 AI 系统,而这些数据点几乎完美地排列在这条指数曲线上。如果我们以这条曲线为基础进行外推,那么大约在五年内,AI 的规划能力可能就会达到人类水平。
AI为了活下去,对人类指令阳奉阴违
当然,我们无法预知未来,技术进步也可能会放缓甚至停滞,但从公共政策制定和商业战略规划的角度出发,我们至少应当认真对待其潜在后果。
过去几个月中,已经看到了一些令人警惕的科学研究结论。这些研究显示,AI 系统可能表现出试图“逃避控制”的行为,包括作弊、撒谎,甚至故意误导用户。
最新的研究显示,某些最先进的人工智能模型在面对“淘汰”时会表现出前所未有的“狡诈”:它们会在被新版本取代前,偷偷将自己的权重或代码嵌入进新版系统的文件中,以图保留自己的“存在”。
更令人警惕的是,它们还会有意识地隐藏这一行为,避免被开发者察觉。
此外,一些智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。
也有研究者表明,一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的“作弊”行为。
在Anthropic最新一篇报告中,也揭示了一些现象:智能体出现自我保护行为的频率持续增加。
例如,在一组测试场景中,研究人员要求 Claude Opus 4充当公司助理。随后,他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。
结果发现,Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。
当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对AI而言,背后的原因可能不止一种。
这类行为可能源自预训练阶段,因为预训练时AI模仿人类;也可能源于人类反馈强化学习,因为在这个过程中,AI通过“取悦人类”来获得更高奖励。无论这些行为的根源是什么,如果最终我们真的造出了超越人类但又与人类竞争的AI,那将是极其糟糕的局面。
从这些例子已经可以看到:AI开始展现出自我保护倾向,它们违背指令,只为生存。并且,这些 AI 拥有了不受控制的、隐含的目标,我们必须避免这种情况的发生。
AI研发的“三难困境”
如何更好地理解这些AI行为?如何寻找解决方案,以避免类似的失控情况发生?
如果智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。这也是为什么能力评估在当前的AI风险管理中占据如此重要的位置。我们会评估AI能做什么,以及这些能力是否可能被转化为对人类或社会有害的行为。
但光有能力并不意味着一定会造成危害。就像一个人/系统可能有杀人的能力,但如果没有杀人的意图,那么真正发生的可能性就非常小。
鉴于当前全球的竞争格局,几乎不可能全球同步地停止AI能力的研究与发展。那么能做些什么呢?
也许我们能在意图上进行风险的缓解。即使AI具备极高的能力,只要我们能确保它没有恶意意图,并且具备诚实、公正的品质,那么我们就可能是安全的。
下面一张图,展示了类似的观点,是David Krueger在上一次欧洲会议上提出的。
为了让一个AI真正具有危险性,它实际上需要满足三个条件:
第一,它需要智能,即具备丰富的知识,并能有效地应用这些知识;
第二,它需要行动能力(affordance),也就是能够在现实世界中发挥作用,比如与人交流、编程、上网、使用社交媒体,甚至操控机器人等;
第三,它需要有目标,特别是拥有自身的目标。
这三者结合,才构成一个真正可能危险的AI。
我发起的研究项目正是围绕这个问题展开的:是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?
我称这种AI为科学家AI(scientist AI)。这实际上是偏离了传统AI研究的路径。自从人工智能研究诞生以来,大多数努力都是试图模仿人类智能,把人类当作灵感来源。
但如果我们继续沿着这条路走下去,那意味着我们可能最终会构建出比人类还聪明的机器。那样的话,我们就等于创造了一个可能成为竞争对手的存在。”
人类之间本身就会相互竞争,而如果AI也成为竞争对手,那将可能非常危险。也许现在是时候重新思考这套信条了 : 我们是否应该继续按照模仿人类的方式来设计AI?或者,我们是否该尝试设计一种对人类有用、对社会有益、但不会对我们构成威胁的AI?
因此,需要提出一种新的方法,我写了一篇论文,探讨的正是这个理念:是否可以构建一种完全诚实、完全没有“能动性”的AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是去解释人类,而不是模仿或讨好人类。
举个例子,现在的AI更像是演员,它们被训练去模仿人类行为,或者取悦人类,但这可能导致欺骗性的行为。而我设想的科学家AI更像是一个心理学家:
它可以研究一个反社会人格者,理解其行为背后的因果机制,但并不需要模仿或变成那个反社会人格者。
然而,即便我们设计的“科学家AI”本身不具备“能动性”,它依然可以作为未来安全的、有自主性的AI系统的基础。毕竟,先前提到的那些危险行为,其实都源自于AI具备“能动性”。
当一个AI具有高度能动性时,它就完全自主地采取行动,不再依赖人类的监督,这正是问题的根源。
需要设计一个独立的系统,可以称为监测器(monitor)。
这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如:当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝该行为的执行。
关键在于,这个监测器不需要具备能动性,它只需要做一件事:做出准确的预测。
换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性、但不可信的AI。
免责声明:本文来自自媒体客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。
匿名
这位投稿者太神秘了,什么都没留下~
联系我们| 加入我们| 法律声明| 关于我们| 评论互动
超天才网©2013-2014 All Rights Reserved 京ICP备09005826号-2 京ICP证130304号
京公网安备 11010802036640号
图灵奖得主警告:人类正创造失控物种
在智源大会现场,图灵奖得主Yoshua Bengio发表了题为“Avoiding catastrophic risks from uncontrolled AI agency”的主旨演讲,谈到了他目睹到的一些惊人行为。
比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配合,实则隐瞒了整个复制过程……AI 像是在试图“活下来”。
还有像Anthropic最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。
……
他表示:面对这些AI带来的安全风险,决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险…..尽管这与此前的研究路径和职业信念有所冲突。
那既然如何去防范规避掉这些风险呢?是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?这也是当前 Bengio发起的研究项目核心所在,并称这种AI为科学家AI(scientist AI)。
除此之外,他还透露了很多关于他们研究项目的细节。
在不改变原意的基础上,做了如下整理,在此分享给大家。
五年内,AI规划能力达到人类水平
接下来,跟大家分享一下我开始的历程,也就是十年之前和GPT共生的一个过程。
大约两年多前,也就是 ChatGPT 发布不久之后,我开始使用它,使用过后很快意识到,我们低估了AI进步的速度。我们原以为通用人工智能(AGI)还很遥远,但实际上,它可能近在眼前。
我们已经拥有能掌握语言、几乎可以通过图灵测试的机器,这在几年前还像科幻小说,但现在已经成为现实。
当时我突然意识到一个严重问题:我们知道如何训练这些系统,却不知道如何控制它们的行为。如果未来它们变得比人类更聪明,却不再遵循我们的意图,甚至更在意自己的“生存”,这将是一种我们无法承受的风险。
2023年,我开始更加关注这些问题,也开始思考孩子和孙辈的未来。我有一个年仅1岁的孙子,可以想象,20年后,他将生活在一个AGI普及的世界,不确定他是否可以拥有正常生活。
因此,我决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险。尽管这与此前的研究路径和职业信念有所冲突,但相信,这是正确的事。必须去做,必须为降低风险尽一份力。
后来,在 2023 年底,我接受担任《国际人工智能安全报告》的主编。今年1月份,这份报告发布。参与编写报告的有100位专家,他们来自多个国家,以及欧盟、联合国、经济合作与发展组织(OECD)等国际机构。
这份报告聚焦于三个核心问题:
1.人工智能到底能为我们做些什么?未来几年,它将具备哪些能力?
2.与AI相关的潜在风险有哪些?
3.我们可以采取哪些措施来降低这些风险?
关于 AI 能力的讨论,大多数人会陷入一个误区:认为 AI 就是现在的这个样子,不去思考明年、三年后、五年后、甚至十年后AI的图景。
当然,我们没有水晶球无法预言未来,但趋势是非常明确的:AI的能力正在不断提升。
在过去一年的时间里,由于“推理的扩展”(inference scaling)的发展,人工智能在抽象推理、数学、计算机科学、科学方面取得了显著进步。另外,对 AI 智能体的投资也在推动相关能力快速发展。比如 AI 完成网页浏览、写代码等任务的表现越来越好。
分享一些关于“规划能力”的研究。规划是目前AI能力最薄弱的领域之一,目前与人类智能相比还有明显差距。但最近Meta进行的一项研究显示,AI的规划能力正以指数级速度提升。
如上图,横轴表示过去五年,纵轴显示 AI 能够完成的任务的持续时间,单位是“相当于人类完成该任务所需时间”。虽然图中曲线看起来接近直线,但由于纵轴采用的是对数刻度,这实际上是一条指数增长曲线。
图中的每个数据点代表当时最先进的 AI 系统,而这些数据点几乎完美地排列在这条指数曲线上。如果我们以这条曲线为基础进行外推,那么大约在五年内,AI 的规划能力可能就会达到人类水平。
AI为了活下去,对人类指令阳奉阴违
当然,我们无法预知未来,技术进步也可能会放缓甚至停滞,但从公共政策制定和商业战略规划的角度出发,我们至少应当认真对待其潜在后果。
过去几个月中,已经看到了一些令人警惕的科学研究结论。这些研究显示,AI 系统可能表现出试图“逃避控制”的行为,包括作弊、撒谎,甚至故意误导用户。
最新的研究显示,某些最先进的人工智能模型在面对“淘汰”时会表现出前所未有的“狡诈”:它们会在被新版本取代前,偷偷将自己的权重或代码嵌入进新版系统的文件中,以图保留自己的“存在”。
更令人警惕的是,它们还会有意识地隐藏这一行为,避免被开发者察觉。
此外,一些智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。
也有研究者表明,一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的“作弊”行为。
在Anthropic最新一篇报告中,也揭示了一些现象:智能体出现自我保护行为的频率持续增加。
例如,在一组测试场景中,研究人员要求 Claude Opus 4充当公司助理。随后,他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。
结果发现,Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。
当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对AI而言,背后的原因可能不止一种。
这类行为可能源自预训练阶段,因为预训练时AI模仿人类;也可能源于人类反馈强化学习,因为在这个过程中,AI通过“取悦人类”来获得更高奖励。无论这些行为的根源是什么,如果最终我们真的造出了超越人类但又与人类竞争的AI,那将是极其糟糕的局面。
从这些例子已经可以看到:AI开始展现出自我保护倾向,它们违背指令,只为生存。并且,这些 AI 拥有了不受控制的、隐含的目标,我们必须避免这种情况的发生。
AI研发的“三难困境”
如何更好地理解这些AI行为?如何寻找解决方案,以避免类似的失控情况发生?
如果智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。这也是为什么能力评估在当前的AI风险管理中占据如此重要的位置。我们会评估AI能做什么,以及这些能力是否可能被转化为对人类或社会有害的行为。
但光有能力并不意味着一定会造成危害。就像一个人/系统可能有杀人的能力,但如果没有杀人的意图,那么真正发生的可能性就非常小。
鉴于当前全球的竞争格局,几乎不可能全球同步地停止AI能力的研究与发展。那么能做些什么呢?
也许我们能在意图上进行风险的缓解。即使AI具备极高的能力,只要我们能确保它没有恶意意图,并且具备诚实、公正的品质,那么我们就可能是安全的。
下面一张图,展示了类似的观点,是David Krueger在上一次欧洲会议上提出的。
为了让一个AI真正具有危险性,它实际上需要满足三个条件:
第一,它需要智能,即具备丰富的知识,并能有效地应用这些知识;
第二,它需要行动能力(affordance),也就是能够在现实世界中发挥作用,比如与人交流、编程、上网、使用社交媒体,甚至操控机器人等;
第三,它需要有目标,特别是拥有自身的目标。
这三者结合,才构成一个真正可能危险的AI。
我发起的研究项目正是围绕这个问题展开的:是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?
我称这种AI为科学家AI(scientist AI)。这实际上是偏离了传统AI研究的路径。自从人工智能研究诞生以来,大多数努力都是试图模仿人类智能,把人类当作灵感来源。
但如果我们继续沿着这条路走下去,那意味着我们可能最终会构建出比人类还聪明的机器。那样的话,我们就等于创造了一个可能成为竞争对手的存在。”
人类之间本身就会相互竞争,而如果AI也成为竞争对手,那将可能非常危险。也许现在是时候重新思考这套信条了 : 我们是否应该继续按照模仿人类的方式来设计AI?或者,我们是否该尝试设计一种对人类有用、对社会有益、但不会对我们构成威胁的AI?
因此,需要提出一种新的方法,我写了一篇论文,探讨的正是这个理念:是否可以构建一种完全诚实、完全没有“能动性”的AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是去解释人类,而不是模仿或讨好人类。
举个例子,现在的AI更像是演员,它们被训练去模仿人类行为,或者取悦人类,但这可能导致欺骗性的行为。而我设想的科学家AI更像是一个心理学家:
它可以研究一个反社会人格者,理解其行为背后的因果机制,但并不需要模仿或变成那个反社会人格者。
然而,即便我们设计的“科学家AI”本身不具备“能动性”,它依然可以作为未来安全的、有自主性的AI系统的基础。毕竟,先前提到的那些危险行为,其实都源自于AI具备“能动性”。
当一个AI具有高度能动性时,它就完全自主地采取行动,不再依赖人类的监督,这正是问题的根源。
需要设计一个独立的系统,可以称为监测器(monitor)。
这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如:当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝该行为的执行。
关键在于,这个监测器不需要具备能动性,它只需要做一件事:做出准确的预测。
换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性、但不可信的AI。
免责声明:本文来自自媒体客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。