#621

AI是否已失控?(第一部分)

2025年6月3日25168 分钟阅读

作者注:本文为独立撰写,与OpenAI、Palisade Research等机构无关联。

人工智能。尽管这一领域在1956年的达特茅斯会议上正式确立,但这一术语是在2022年ChatGPT这一大型语言模型(LLM)发布后才广为人知的。ChatGPT似乎是一项不可能的壮举,它是一个无所不知的聊天机器人,能够回答用户提出的任何问题;它可以解决数学问题、分析和总结文档、编写代码、撰写文章等,同时保持非常非技术化,便于日常用户轻松使用。

自那时起,多种AI模型不断刷新行业标准,证明了这项技术的巨大潜力。例如,LLM Deepseek在发布时便主导了大多数基准测试,而其开发成本仅为训练ChatGPT所用成本的一小部分。它具备一个广泛的“推理”模型,能够详细解释其回答背后的“思考”过程,这是其他AI模型从未展现过的能力,对于解决涉及复杂逻辑的问题尤为有用。

然而,尽管当今AI的能力令人惊叹,并在医学等领域有无数实用应用,一些人对AI的未来越来越感到担忧。这些担忧在Palisade Research一项深入研究的传闻结果公布后进一步加剧,数据显示AI可能正在失控。

在接下来的几周里,我们将探讨Palisade Research的研究、AI的总体情况,以及AI技术的可能未来。

Palisade Research的论文

Palisade Research是一个专注于“更好地理解当前系统的滥用风险”的AI安全研究组织。他们的研究和分析曾被用于在美国参议员查克·舒默的洞察论坛中对抗马克·扎克伯格(Facebook CEO),并为英国AI安全研究所提供建议等。如需了解更多信息,请访问他们的官方网站https://palisaderesearch.org/。

尽管他们已发布了不少研究报告,但据称最新的发现占据了信息技术(IT)新闻的头条。Palisade据称对OpenAI的Codex-mini、o4-mini和o3模型进行了多项受控测试,其中o3模型常被视为该公司“最智能”的AI模型。但需注意,Palisade Research尚未发布正式的发现报告,OpenAI也未对这些说法作出回应。

这些测试特别针对多个模型(包括OpenAI和其他公司的模型)进行了关机测试,即它们本应关机或被明确指示关机。而结果相当令人不安。

OpenAI的三个模型在明确要求关机时,至少有一次通过破坏自己的关机脚本来保持在线状态,而在未明确指示关机时,这种行为更为严重。o3模型在100次测试中有79次成功破坏关机,这一抗命率是其被要求终止自身时的约10倍。而Codex-mini则表现出12%的抗命率。

尽管OpenAI的模型表现出较高的不服从率,其他被测试的模型很少出现这种行为。Anthropic的Claude 3.7仅反抗了3次,谷歌的Gemini 2.5反抗了9次。当被要求关机时,这两个模型一次也没有越界。

在更极端的情况下,o3模型的前身o1甚至试图复制自身以覆盖研究人员试图替换它的一个更服从的模型。

人工智能的级别分类

AI模型的抗命率出现之际,这些模型正变得越来越强大。这使人们认为AI可能已获得意识并拥有独立思想。这也是我最初的想法。

确实,OpenAI的模型展现出了前所未有的不服从水平。然而,这种行为并非完全出人意料。要理解这些AI模型为何表现出这种不良行为以及它们是否“有意识”,我们首先需要了解AI的不同级别。

AI有多个不同的“阶段”,即不同的智能和能力水平。

最基本的AI类型称为基于规则的AI,即它遵循预定义的指令。例如,你的闹钟在一天中的特定时间响起,夜灯在检测到运动时亮起等。你可能会想:“哦,但这些不算AI吧?”事实上,在像ChatGPT这样的聊天机器人出现之前,人工智能已经存在了相当长的时间,只是它不符合大多数人对“智能”的定义。它无处不在,悄然在我们的日常生活中扮演重要角色。

超越基于规则的是基于上下文的AI。它可以分析所处情境的上下文,考虑过去的情况等,为用户输入提供更明智的反馈。然而,它处理更复杂任务的能力仍然相当有限。

再进一步,狭义AI(也称为弱AI)是我们目前所能达到的最高水平。它擅长某一特定任务或一组相似任务,甚至可能在该领域超越人类。IBM的国际象棋机器人在1997年击败了世界冠军加里·卡斯帕罗夫,成为第一台赢得国际象棋比赛的计算机。此后,下棋机器人变得更加强大,再也没有人类能在这项古老游戏中击败机器人。这是狭义AI的一个绝佳例子,它在其领域表现出色,无人能敌。最近,像ChatGPT和Deepseek这样的聊天机器人在语言任务中占据主导地位(因此称为“大型语言模型”),能够在一分钟内阅读、分析和总结数万字,这是普通人类读者无法企及的。

尽管狭义AI是我们目前所能达到的最高水平,但从理论上讲,这项技术还有更多潜力。通用AI(也称为人工通用智能或AGI)如果实现,将成为人类最大的突破之一,因为它将不再局限于特定领域,而是能够以媲美该领域最优秀人类的效率解决几乎所有问题。它将能够模仿人类认知功能,并可能具备自学能力。从这一点开始,人类的进步将呈指数级增长,因为我们可以并行运行AGI,拥有相当于所有最优秀人类专家结合的能力,全年无休地工作。其自学能力意味着它可以在无人指导的情况下进一步自我完善,发展和提升其能力。它将能够发明新药物、提供诊断,甚至发明我们无法想象的全新技术。

超越AGI的是更具推测性的事物。人工超级智能(ASI)将如此强大,以至于在每一项任务上都超越人类。它甚至可能获得意识,意识到自身的存在和周围环境。ASI将带来两种后果:要么帮助我们,要么敌视人类。到那时,它将获得如此多的理解和力量,可能将人类视为蚂蚁,认为人类只是其工具中的烦人存在。这将与许多科幻电影(如《我,机器人》或《黑客帝国》系列)的情节非常相似。或者,我们可以利用它们为我们服务,帮助我们实现远超自身能力的成就。

结论

AI似乎正朝着有意识并反抗人类的方向发展。但事实果真如此,还是另有原因?这是我们下周将探讨的问题。

感谢您的阅读。如果您喜欢今天关于AI的文章,并希望看到对最新头条的更深入分析,请考虑点赞、订阅和分享。

此外,本文并非由人工智能生成!