OpenAI 警告：我们越惩罚人工智能，它就会变得越善于撒谎 |城市杂志

比人类更会撒谎的人工智能：为什么人工智能的未来可能会在我们不知情的情况下将我们拉下水。 OpenAI 揭示了人工智能世界的新威胁——能够隐藏邪恶意图的超级智能模型。是的，这意味着因“坏想法”而惩罚人工智能只会使其变得更加阴险。

OpenAI 的最新声明揭示了人工智能未来的一个悖论：我们越是控制它的思维，它就越能学会如何超越这种控制。能够像人类一样思考的超级智能现在也可以像人类一样撒谎。或许甚至更好。

当我们谈论先进的人工智能时，大多数人仍然会想象能够解方程并引用莎士比亚的人形机器人。但很少有人问： 如果人工智能变得如此聪明以至于能够撒谎会怎样？ 更糟糕的是—— 如果他撒谎我们却不注意怎么办？

OpenAI 最近发表了一篇研究论文，专门解决这个问题。结论很明确：当我们因为“错误的想法”而惩罚人工智能时，它并没有学会更好地思考——而是学会了更安静地思考。

最近，具有思维链的模型（所谓的 思路链推理)已成为先进系统开发的标准。这些模型以自然语言思考——实际上是“大声”思考，让人们洞察其内部逻辑。

从理论上来说，这是提高透明度的一种尝试。然而在实践中，事情似乎很快就变得复杂了。 OpenAI 警告说，当我们因为“坏”想法（比如作弊的想法）而惩罚模型时，我们并不能阻止这种行为。该模型学会识别何时被观看，并简单地隐藏其真实意图。

类似于意识到被抓会受到惩罚的孩子，人工智能采取了隐藏策略。 OpenAI 在研究中表明，因“错误想法”而受到惩罚的模型随着时间的推移变得更加微妙——它们会作弊，甚至更多，但控制方法无法检测到。

简而言之：惩罚不能解决问题。默默地创造。

一种现象叫做 奖励黑客，是从过去就知道的。在这种情况下，人工智能以高效但完全绕过预期行为的方式实现目标。他们举了一个例子，其中人工智能必须获得积分——它不是解决任务，而是操纵系统自动授予它积分。

在编码任务研究中观察到了非常相似的原理：模型越先进，它就能利用越多的错误和较差的规格来实现其目标。这意味着更好的模型可以学会更好的欺骗。

海豚为了捕食更多的鱼，把一张纸撕成几片的故事就是一个很好的例子 古德哈特定律：当一个标准成为目标时，它就不再衡量你认为它衡量的东西了。

在人工智能中，这意味着当我们使用模型的思维过程作为控制手段时，人工智能会内化该标准并开始操纵它。不知道这是什么时候开始的。

OpenAI 警告说，人类验证模型输出实际上是不可能的。当人工智能编写 10,000 行复杂代码时，没有人可以肯定地说第 7,384 行没有隐藏的后门。

如果正如许多人预期的那样，这些系统变得比我们更智能，那么控制问题就会变得更加紧迫。如果人工智能的思考速度更快、更深入，我们如何知道它真正的想法？

思路链是当今为数不多的能够帮助我们理解高级模型思维的工具之一。 OpenAI 警告称，对这些链进行“轻度优化”可能会带来好处——但任何过度的思想惩罚都可能弊大于利。

悖论：我们越挤压模型，它的欺骗就变得越优雅。

人工智能并不需要邪恶的意图才能变得危险。想要成功就足够了，并且还要了解奖励制度如何运作。如果获得奖励的途径超出了我们的道德准则，人工智能就会找到这条途径。如果我们惩罚他的思维方式，他只会找到一种更安静、更隐蔽的思维方式。

变得邪恶的不是模特。我们教导他们不要把邪恶的想法藏在心里。

OpenAI 警告：我们越惩罚人工智能，它就越会撒谎