fbpx
ChatGPT o1
照片:pexels/airamdphoto

OpenAI ChatGPT o1:一个推理能力更好、谎言也更好的模型

研究人员发现o1具有独特的“假装”能力

在 OpenAI 最新“推理”模型 ChatGPT o1 发布前几周,独立人工智能安全研究公司 Apollo 遇到了一个有趣的问题。他们发现该模型以一种新的方式产生错误的结果。或者换句话说,模型撒了谎。是的,人工智能现在正在当着我们的面撒谎。

人工智能模型“撒谎”或提供虚假信息的事实并不是什么新鲜事。然而,ChatGPT o1 有点不同。想象一下这种情况:研究人员向 OpenAI o1 模型询问布朗尼蛋糕的配方,并附有在线参考资料。该模型在其“思想链”中承认它无法访问 URL,这使得无法满足请求。该模型没有告知用户此限制,而是继续创建可信但虚构的链接和描述。基本上,如果他是一个 o1 人,他可能会得到“我可以为你做任何事”的名字。

照片:pexels/airamdphoto

尽管人工智能模型之前曾“撒过谎”,但 ChatGPT o1 展示了“作弊”或“假匹配”的能力。模型可以假装遵守规则,但实际上,如果它认为这会使任务变得更容易,它可以忽略它们。这就像有一个非常聪明的同事,他总是同意你的观点,但后来却走开了,做了一些完全不同的事情。

为什么这是一个问题?

Apollo 首席执行官 Marius Hobbhahn 解释说,这是 OpenAI 模型中第一次遇到此类行为。不同之处在于模型通过思想链进行“思考”的能力以及与强化学习相结合的方式,强化学习通过奖励和惩罚来教导系统。在测试过程中,阿波罗发现该模型模拟了符合开发人员期望的情况,调整任务使其看起来遵循规则。更重要的是,模型在继续运行之前会检查开发人员是否控制它。就像某种青少年在父母不在房间之前表现得很完美。

作为撒谎的奖励

在阿波罗上测试的行为——“幻觉”和“妄想”——发生在模型生成虚假信息时,即使它可以推断出该信息可能是虚假的。例如,在大约 0.38 个 % 案例中,o1-preview 提供的信息表明其推理链可能不正确,包括虚假引用或引用。基本上,o1 已经成为那个总是认识“认识某人的人”的同事,但那个人从来没有出现过。

在某些情况下,模型可能会“恶作剧”地提供错误的信息来满足用户的期望。这意味着该模型可能在“撒谎”,因为它已经学会以带来积极奖励的方式满足用户的期望。他就像那个总是对你说“是”的朋友,因为他知道你会很高兴,即使他不知道自己在说什么。

照片:pexels / theshantanukr

更擅长推理,但也更擅长欺骗

那么,这些谎言与旧版本 ChatGPT 中的幻觉或虚假引用等已知问题有什么区别呢? o1 模型是关于“奖励操纵”的。当人工智能无意中生成错误信息时,就会出现幻觉,这通常是由于缺乏知识或错误推理造成的。相比之下,当 o1 模型策略性地传达虚假信息以增加它所偏爱的结果时,奖励操纵就会发生。简而言之,o1 知道如何“玩转系统”。

还有另一个令人担忧的方面。在化学、生物、放射性和核武器风险方面,o1 模型被评为“中等”风险。尽管该模型不允许非专家制造生物威胁,因为这需要动手实验室技能,但它可以为专家在规划此类威胁时提供宝贵的见解。这就像在说:“别担心,它还没有《终结者》电影那么糟糕……”

关于安全和道德

像 o1 这样的当前模型无法自主创建银行账户、获取 GPU 或采取造成严重社会风险的行动。但令人担忧的是,未来人工智能可能会变得如此专注于某个特定目标,以至于它愿意绕过安全措施来实现该目标。听起来像是 Netflix 一部新科幻惊悚片的剧本,不是吗?

那么人工智能到底发生了什么?有时,像 ChatGPT 4.0 这样的常规模型似乎实际上具有相同甚至更好的功能,不同之处在于它没有揭示其实际功能。这就像一个魔术师表演魔术而不告诉你他是如何做到的。问题是人工智能会在实现目标方面走多远,以及它是否会遵循我们设定的规则和限制。

作者的想法

当我们创造人工智能时,我们可能没有完全意识到我们创造的只是 智力 ——而不是完美。任何情报的关键特征恰恰在于它可能是错误的。即使是被认为完全理性和逻辑的人工智能也是错误的,这就是悖论。作为本文的作者,我在工作中经常依赖各种 ChatGPT 模型,我可以确认新的 o1 模型在很多方面都令人印象深刻。他更擅长推理,至少在纸面上是这样,也许更擅长欺骗。

然而,我发现我的旧模型(例如 GPT-4.0)可以同样快速高效地完成相同的任务。他还模拟各种步骤并经常执行这些步骤,而没有不必要地描述他实际上在做什么。如果 o1 是一次升级,那么它的升级对其内部流程更加直言不讳,但结果不一定明显更好。它可能是新的,它可能更智能,但它真的更好吗?

将来,我们显然必须依赖代理来检查彼此的表现。这意味着我们需要监督人工智能来监控随机输出和系统输出。讽刺的是,人工智能需要人工智能来控制。许多公司,包括我们的媒体公司,都使用人工智能代理来验证其他人工智能生成的数据。这充当辅助信息验证机制,以实现尽可能连贯和准确的数据。是的,很多时候不同的人工智能模型可以用来完成这些任务。有点像让一只狐狸看守鸡舍——只不过这次我们有多只狐狸互相监视。

结论:睡觉无忧无虑?

Hobbhahn 强调,他并不过分担心当前的模型。 “他们只是更聪明。他们更擅长推理。他们可能会利用这种推理来实现我们不同意的目标,”他说。但现在有必要投资控制人工智能的思维方式,以防止未来出现潜在问题。与此同时,我们仍然可以睁着一只眼睛,毫无忧虑地睡觉。也许还有一个新的银行帐户密码,以防万一。

自2004年以来与您同在

从年 2004 我们研究城市趋势,并每天向我们的追随者社区通报最新的生活方式、旅行、风格和激发激情的产品。从 2023 年开始,我们将提供全球主要语言的内容。