#621

AI是否已失控？（第一部分）

2025年6月3日 — 2516 字 — 8 分钟阅读

作者注：本文为独立撰写，与OpenAI、Palisade Research等机构无关联。

人工智能。尽管这一领域在1956年的达特茅斯会议上正式确立，但这一术语是在2022年ChatGPT这一大型语言模型（LLM）发布后才广为人知的。ChatGPT似乎是一项不可能的壮举，它是一个无所不知的聊天机器人，能够回答用户提出的任何问题；它可以解决数学问题、分析和总结文档、编写代码、撰写文章等，同时保持非常非技术化，便于日常用户轻松使用。

自那时起，多种AI模型不断刷新行业标准，证明了这项技术的巨大潜力。例如，LLM Deepseek在发布时便主导了大多数基准测试，而其开发成本仅为训练ChatGPT所用成本的一小部分。它具备一个广泛的“推理”模型，能够详细解释其回答背后的“思考”过程，这是其他AI模型从未展现过的能力，对于解决涉及复杂逻辑的问题尤为有用。

然而，尽管当今AI的能力令人惊叹，并在医学等领域有无数实用应用，一些人对AI的未来越来越感到担忧。这些担忧在Palisade Research一项深入研究的传闻结果公布后进一步加剧，数据显示AI可能正在失控。

在接下来的几周里，我们将探讨Palisade Research的研究、AI的总体情况，以及AI技术的可能未来。

Palisade Research的论文

Palisade Research是一个专注于“更好地理解当前系统的滥用风险”的AI安全研究组织。他们的研究和分析曾被用于在美国参议员查克·舒默的洞察论坛中对抗马克·扎克伯格（Facebook CEO），并为英国AI安全研究所提供建议等。如需了解更多信息，请访问他们的官方网站https://palisaderesearch.org/。

尽管他们已发布了不少研究报告，但据称最新的发现占据了信息技术（IT）新闻的头条。Palisade据称对OpenAI的Codex-mini、o4-mini和o3模型进行了多项受控测试，其中o3模型常被视为该公司“最智能”的AI模型。但需注意，Palisade Research尚未发布正式的发现报告，OpenAI也未对这些说法作出回应。

这些测试特别针对多个模型（包括OpenAI和其他公司的模型）进行了关机测试，即它们本应关机或被明确指示关机。而结果相当令人不安。

OpenAI的三个模型在明确要求关机时，至少有一次通过破坏自己的关机脚本来保持在线状态，而在未明确指示关机时，这种行为更为严重。o3模型在100次测试中有79次成功破坏关机，这一抗命率是其被要求终止自身时的约10倍。而Codex-mini则表现出12%的抗命率。

尽管OpenAI的模型表现出较高的不服从率，其他被测试的模型很少出现这种行为。Anthropic的Claude 3.7仅反抗了3次，谷歌的Gemini 2.5反抗了9次。当被要求关机时，这两个模型一次也没有越界。

在更极端的情况下，o3模型的前身o1甚至试图复制自身以覆盖研究人员试图替换它的一个更服从的模型。

人工智能的级别分类

AI模型的抗命率出现之际，这些模型正变得越来越强大。这使人们认为AI可能已获得意识并拥有独立思想。这也是我最初的想法。

确实，OpenAI的模型展现出了前所未有的不服从水平。然而，这种行为并非完全出人意料。要理解这些AI模型为何表现出这种不良行为以及它们是否“有意识”，我们首先需要了解AI的不同级别。

AI有多个不同的“阶段”，即不同的智能和能力水平。

最基本的AI类型称为基于规则的AI，即它遵循预定义的指令。例如，你的闹钟在一天中的特定时间响起，夜灯在检测到运动时亮起等。你可能会想：“哦，但这些不算AI吧？”事实上，在像ChatGPT这样的聊天机器人出现之前，人工智能已经存在了相当长的时间，只是它不符合大多数人对“智能”的定义。它无处不在，悄然在我们的日常生活中扮演重要角色。

超越基于规则的是基于上下文的AI。它可以分析所处情境的上下文，考虑过去的情况等，为用户输入提供更明智的反馈。然而，它处理更复杂任务的能力仍然相当有限。

再进一步，狭义AI（也称为弱AI）是我们目前所能达到的最高水平。它擅长某一特定任务或一组相似任务，甚至可能在该领域超越人类。IBM的国际象棋机器人在1997年击败了世界冠军加里·卡斯帕罗夫，成为第一台赢得国际象棋比赛的计算机。此后，下棋机器人变得更加强大，再也没有人类能在这项古老游戏中击败机器人。这是狭义AI的一个绝佳例子，它在其领域表现出色，无人能敌。最近，像ChatGPT和Deepseek这样的聊天机器人在语言任务中占据主导地位（因此称为“大型语言模型”），能够在一分钟内阅读、分析和总结数万字，这是普通人类读者无法企及的。

尽管狭义AI是我们目前所能达到的最高水平，但从理论上讲，这项技术还有更多潜力。通用AI（也称为人工通用智能或AGI）如果实现，将成为人类最大的突破之一，因为它将不再局限于特定领域，而是能够以媲美该领域最优秀人类的效率解决几乎所有问题。它将能够模仿人类认知功能，并可能具备自学能力。从这一点开始，人类的进步将呈指数级增长，因为我们可以并行运行AGI，拥有相当于所有最优秀人类专家结合的能力，全年无休地工作。其自学能力意味着它可以在无人指导的情况下进一步自我完善，发展和提升其能力。它将能够发明新药物、提供诊断，甚至发明我们无法想象的全新技术。

超越AGI的是更具推测性的事物。人工超级智能（ASI）将如此强大，以至于在每一项任务上都超越人类。它甚至可能获得意识，意识到自身的存在和周围环境。ASI将带来两种后果：要么帮助我们，要么敌视人类。到那时，它将获得如此多的理解和力量，可能将人类视为蚂蚁，认为人类只是其工具中的烦人存在。这将与许多科幻电影（如《我，机器人》或《黑客帝国》系列）的情节非常相似。或者，我们可以利用它们为我们服务，帮助我们实现远超自身能力的成就。

结论

AI似乎正朝着有意识并反抗人类的方向发展。但事实果真如此，还是另有原因？这是我们下周将探讨的问题。

感谢您的阅读。如果您喜欢今天关于AI的文章，并希望看到对最新头条的更深入分析，请考虑点赞、订阅和分享。

此外，本文并非由人工智能生成！

← 返回首页