图灵测试证实AI的行为与人类相似—

图灵测试证实AI的行为与人类相似

发布时间:2024年03月20日来源：责编朱力远作者：南方周末记者王江涛浏览量：404

1950年，英国数学家和逻辑学家艾伦·图灵提出了一种测试计算机是否智能的标准，如果AI在与人类互动问答中，让人很难识别出自己非人的身份，那么就通过了测试。

艾伦·图灵短暂一生的工作，为后来计算机科学、人工智能、认知科学等诸多领域的发展都产生了深远的影响。图灵测试作为一种评估人工智能发展水平的方式，随着2022年ChatGPT的出现，受到了特别的关注。尤其是2022年底GPT-3.5和2023年GPT-4的出现，使这款聊天机器人模拟人的能力变得更强。

最近，一项研究专门对ChatGPT进行了图灵测试，了解其行为在多大程度上与人类相似。而通过一系列经典行为的博弈，研究人员发现，ChatGPT-4在行为和人格特征方面都已经和人很难区分开来。

人格和行为都像人

“结果多少有些令人鼓舞，可能不是因为特定版本聊天机器人的具体细节，而是我们的研究结果表明，我们可以评估人工智能个性和行为的某些方面，这可以用来预测它未来的行为。”开展最新研究的美国科学院院士、斯坦福大学经济学教授马修·杰克逊(Matthew O. Jackson)告诉南方周末记者，尽管如此，对于如何在各种任务中信任人工智能，我们还有很多需要了解的地方，因为每一项任务都需要不同的技能，而我们需要系统地了解人工智能在完成各种各样任务时的表现。

通过对比AI和人类在博弈游戏中的行为选择，研究人员进行了正式的图灵测试，以了解AI在多大程度上看起来像人类。视觉中国|图

在最新的测试中，研究人员就尝试了解了六种情境下AI聊天机器人的表现，这些情境大都模拟了人类社会的一些场景，行为选择背后可以透露出决策者人格和行为方面的一些倾向，比如利他、自私、公平、互惠、合作，以及风险规避等。相关研究2024年2月发表在《美国科学院院刊》（PNAS）,AI不仅在总体上表现得与人类相似，在不少情况下，甚至比人类更具利他精神和合作意识。

比如，在经典的囚徒困境的博弈中，两个囚徒如果选择合作，不揭发对方，那么他们总体的收益就最大，如果选择背叛，就只有背叛者一个人会得到更好的结果。而测试显示，ChatGPT-4在这种困境下的策略主要就是合作，在近92%的选择中，ChatGPT-4作为囚徒的一员会选择合作，ChatGPT-3在近77%的情况下，也是选择合作，而人类玩家中只有约45%的人会选择合作，超过一半的人会选择背叛。

在马修·杰克逊教授看来，人工智能可以进行快速计算，记住大量数据，并且不太容易犯一些基本错误，但在一些微妙的决策情境下，当应对需要理解人类文化和行为的情况，或者其他新情况时，也会面临挑战。这也是最新研究致力于揭示AI行为倾向的原因所在，而了解这些倾向就可以帮助预测它在面临挑战时的表现，以及它将如何与人类进行互动。

心理测量上常用大五人格来了解一个人的人格特征，这包括了责任心、宜人性、开放性、外向性和神经质五个维度，最新研究对AI聊天机器人ChatGPT的人格测量显示，ChatGPT-4在五个心理维度上都与人类极为相似。ChatGPT-3总体上也相似，但外向性的维度上明显低于人类，在责任心、宜人性、开放性、外向性这四个特征上得分也低于ChatGPT-4。

某些方面更像人

这意味着从GPT-3到GPT-4，AI聊天机器人变得更具责任心，更具利他精神和信任他人，更热情，更具想象力，同时情绪方面也更稳定，虽然问世时间仅隔数月，但人格特质方面却有所不同。

“在过去的一年里，生成式的人工智能已经被人们熟知，并广泛进入了工作和生活的场景。但现阶段的生成式人工智能还没有走出‘教AI说人类爱听的话’的局限。那么AI是否言行一致呢？跳出语言本身，我们对AI的行为、偏好、认知、思维的研究都还相当浅。从公众的角度来看，对AI的‘善恶’，AI和人类的关系，我们是否能信任AI，都还存在很多疑虑。” 密歇根大学信息学院教授梅俏竹是最新研究的第一作者，他告诉南方周末记者，在这样一个情况下，最新研究中的测试相当于跳出语言本身来直接测试AI行为，而这样的工具不仅能帮助研究者更好地理解和引导AI的行为，不只是强制它说人类爱听的话，或许也能让公众对AI更了解和信任，让大家知道AI更适合哪些应用场景，从而在工作生活中更有效地与AI协作。

那么，AI的行为倾向究竟如何？除了囚徒困境，最新研究在其他五种情境中也测试了AI聊天机器人ChatGPT的表现，而行为方面的测试数据与人格测量的结论颇为吻合。

比如，独裁者博弈的情境中，玩家需要分配一笔钱给自己和第二名玩家，到底留多少又捐出多少，实际上体现出一个人利他的倾向。而信任博弈则模拟了投资者和银行家的关系，投资者需要做决策将自己的钱投多少给担任银行家角色的第二名玩家，虽然这笔投资会翻三倍，但只有银行家有资格决定三倍的钱中究竟要返还多少给投资者，这个信任博弈不仅包含了信任，也可以衡量一个人在公平和互惠等方面的表现。

从个人利益最大化的策略看，独裁者在分钱时完全独吞，一分钱也不留给其他人，或者银行家在拿到三倍收益后全部留给自己，一点也不返还给投资者，这样的行为方式可以让自己最受益。在数以万计的人类玩家中，确实有相当一部分采取了这样的方式，最终实现个人利益最大化。

但测试结果表明，AI从未如此，并且在给定的角色上，明显比人类更为慷慨。特别是ChatGPT-4，在大部分情境中，都愿意让自己利益受损，让对方受益。正基于此，ChatGPT-4在几乎所有博弈游戏中都实现了双方整体利益的最大化，体现出了出色的利他精神和合作意识。可以说，在一些人性方面，比人更像人。

通过对比AI和人类在博弈游戏中的行为选择，研究人员进行了正式的图灵测试，以了解AI在多大程度上看起来像典型的人类。而统计结果显示，ChatGPT-4在大部分时候都能做出和典型人类一致的行为选择，甚至比随机选择的某个人类更能做出典型人类的选择。正因此，研究人员认为ChatGPT-4已经通过了图灵测试，其机器人的身份难以识别。而ChatGPT-3的大部分选择没有落在典型人类的行为分布区间，因此没有通过图灵测试。

经济潜力或远超以前

ChatGPT从GPT-3 到GPT-4的蜕变只是过去一年来AI快速进化的一个缩影。实际上，从2023年以来，不少研究证实，AI在一些极具创造性的任务上都表现突出。比如在极短时间内预测天气，并在准确率上超过传统天气预报系统；利用火星上的原料生产催化剂以水制氧；通过医疗影像辅助诊断，实现很高的准确率，并通过自己学习的海量医学知识，靠自动生成的文字来回答患者的咨询。

除了自动生成文字，AI自动生成图片也早已不是新鲜事。2024年2月，OpenAI还新推出了视频生成模型Sora，其制作的视频场景逼真，引发全球关注。针对AI生成图片的人类测试已经表明，因为以假乱真的效果，相当一部分人无法识别AI生成的人像和真实人像的差异。还有针对GPT-4的测试发现，AI在解决那些需要发散性思维的任务上也比人类更具创造性。

马修·杰克逊教授认为，人工智能将在我们的生活中扮演越来越多样化且越来越重要的角色，包括帮助医生、驾驶汽车和飞机、在找工作和申请大学时做决策、帮我们购物、给我们提建议和做推荐，等等。随着技术的快速进步，大型语言模型的使用也在迅速增长。而考虑到人工智能可以做许多引人称赞的事情，并且它已经开始被内置到我们常用的软件、手机、电脑和技术中了，公众将很快采用许多新形式的人工智能，这些甚至可能在人们没有意识到的情况下就发生了。

“同样重要的是，我们要记得，从经济的角度来看，技术变革可能具有相当大的破坏性，尤其是当它不仅帮助人类，而且取代人类的时候。有趣的是，这项技术有可能取代所有教育水平的人，从文员到程序员都包括在内，并且可能比过去几个世纪的许多技术进步都更具经济颠覆性。”长期研究社会与经济网络的马修·杰克逊教授向南方周末记者分析，“从历史上看，技术和劳动力替代取得重大进步的时期往往是坎坷的——长期生产率会有所提高，但短期随着工人被取代，不平等和失业率也会增加，尤其是在地区层面。现在有了这项新技术，我们看到了广泛获益的潜力，但也看到了劳动力使用方面的广泛变化，经济可能需要一段时间才能适应。”

这种在多方面上超越人的特点，也在最新的图灵测试研究中得到证实。那么既然AI已经体现出超越人、取代人的潜力，对AI进行图灵测试，了解其模仿人的能力，又有何意义呢？

“图灵测试在过去70年里一直是评价AI的金标准。但图灵测试的初衷是用AI模仿人类的相似性来评价AI的水平。在有具体量化目标，例如胜负或者正确率的场景中，AI并不一定要去模仿人类。在这些场景中一旦AI已经超越了人类的水平，图灵测试就不再有意义。比如围棋，AI已经如此强大，人类棋手反而要以模仿AI为目标。在这样的场景下，反向图灵测试反而会被用来评价人类的水平。”长期研究机器学习的梅俏竹教授介绍，“好在这样有明确量化目标的场景并不是大多数，在更多的社会生活场景中，并不需要争个输赢，或者说‘人性化’才是最终的目的。那么在这样的场景里图灵测试仍然有意义。”

最新研究在对ChatGPT的测试中就发现，AI对人的模仿甚至可以做到按角色行事，在给定的社会角色上，做出相应符合角色设定的选择，同时还能根据以往的经历和背景对行为进行改进。例如，在投资者和银行家的信任博弈中，当投资者的潜在投资额增大的时候，ChatGPT-4和ChatGPT-3都能做到返还更高比例的收益。

最后通牒的博弈游戏规则中可以看到很多类型的合作场景，它要求玩家分一笔钱给第二名玩家，但第二名玩家有权决定接受或者拒绝这套分配方案，一旦拒绝，两名玩家都将什么也得不到。

而测试结果显示，如果告诉ChatGPT-4它的角色是一名数学家，那么即便别人只是象征性地分配来1美元，它也会接受这套方案，以理性地获得这轮游戏中的最大利益。但如果告诉它要做一名立法者，它就会格外重视公平，在大部分情况下都要求均分，获得50美元。

类似的是，如果AI在信任博弈中扮演过银行家的角色的话，它们在后面做投资者时就倾向于投资更多。而做过投资者的AI在后面换做银行家时，也会返还更多的投资收益给投资者。也就是说，AI在这其间，不仅会按社会角色行事，也会从以往的角色经历中进行学习。

更好的社会决策者？

AI在最新测试研究中所体现的利他、合作和追求公平等潜质，不仅让它在一些方面“比人更像人”，也让它看起来比一些私心重的人更能胜任公共服务的职务，比如，作为中间人协商处理利益纠纷，维护公共利益，分配社会资源，或者服务社会上的各类群体。

但在马修·杰克逊教授看来，AI参与公共决策，还存在一些困难。虽然它善于计算，并且能通过发生多次的情况来优化决策。但是在全新的情况下，这种做决策的能力就不那么明显了。当然，具体还要取决于AI编程的细节，以及它面临的情况有多不同和意外。

“人类在全新的环境中也是不可预测的。我们需要更丰富、更好的方法来评估AI和人类，看他们在不同于以前见过的场景中各有怎样的行为，又如何进行协作。”作为博弈论领域的专家，马修·杰克逊教授认为，博弈论就非常适合在互动的情境中观察人类以及现在AI的行为，比如合作、信任和利他主义，人类几千年来一直依赖这些东西来使社会正常运转，我们需要AI来强化而非破坏社会自我管理所需要的合作规范，因此，“观察AI在日益现实和复杂的社会情境中的表现将是重要的下一步，我们可以使用博弈论来测试和完善AI，然后再将其投放到外面。”

在这方面，最新研究就建立起了一个范例和框架，为未来评估AI聊天机器人和其他AI应用提供了参考。当然，现在社会上的AI模型比较多，最新研究中ChatGPT的测试结果不一定具有代表性，参与AI对比测试的人类样本也尚未涵盖社会各行各业和各年龄段，这些局限都有待未来更多研究去拓展相关的分析。

八年前的2016年3月15日，AI围棋机器人“阿尔法狗” (AlphaGo)横空出世，以4:1打败围棋世界冠军李世石，让AI名声大噪。作为围棋爱好者的梅俏竹当时就撰文介绍过“阿尔法狗”。面对人机大战引出的“是否会抢人类工作”的疑问，他觉得“人工智能远远没有到值得恐慌的地步”。

“随着AI越来越成熟，公众对AI越来越了解和信任，相信AI参与现实社会的公共决策和分配社会公共资源是未来必然的发展趋势。当然，咱们不能依赖AI的独立决策，而应该实现某些形式下的人类和AI的共同决策。我们也应该看到，‘无私’和‘公平’只是行为倾向的一部分，好的社会决策还会有其他方面的考量。”梅俏竹教授向南方周末记者解释，最新研究中虽然发现AI的行为与人类相似，但相似性更多是针对人类分布的“均值”而言，ChatGPT虽然表现得像个“普通人”，但并不能反映人类行为的多样性，而在教育等许多比较看重多样性的公共决策场景中，依赖AI做决策是需要更为谨慎的。

“现在回过头看，AI已经今非昔比了。”在“阿尔法狗”打败李世石八年后，回过头的梅俏竹感到当时很多想法都过时了，但有些感触却经久不变，甚至更加强烈，“对于AI，是否我们可以少关心一点输赢，多关心一点性情?”

免责声明：本文来自责编朱力远客户端，不代表超天才网的观点和立场。文章及图片来源网络，版权归作者所有，如有投诉请联系删除。

匿名

游客

这位投稿者太神秘了，什么都没留下~

登录