OpenAI が警告: AI を罰すればするほど、AI は嘘つきが上手くなる |シティマガジン

人間よりも上手に嘘をつく AI: 人工知能の未来が、私たちが気付かないうちに私たちを騙すかもしれない理由。 OpenAI は、人工知能の世界における新たな脅威、つまり悪意を隠すことができる超スマートなモデルを明らかにしました。そして、それはつまり、「悪い考え」に対して AI を罰することは、AI をさらに陰険にするだけだということを意味します。

OpenAI の最新の発表は、人工知能の将来に対するパラドックスを明らかにしている。つまり、私たちがその思考を制御すればするほど、人工知能はその制御を裏切る方法を学習するのだ。人間のように考えることができる超知能は、人間のように嘘をつくこともできるようになった。もしかしたらもっと良いかもしれません。

高度な人工知能について話すとき、ほとんどの人は依然として方程式を解いたりシェイクスピアを引用したりするヒューマノイドロボットを想像します。しかし、次のように尋ねる人はほとんどいません。 AI が嘘をつくほど賢くなったらどうなるでしょうか? さらに悪いことに 彼が私たちに気付かれずに嘘をついたらどうなるでしょうか？

OpenAI は最近、まさにこの疑問に答える研究論文を発表しました。結論は明らかです。AI を「間違った考え」に対して罰すると、AI はより良く考えることを学ぶのではなく、より静かに考えることを学ぶのです。

声に出して考え、そして止まるAI

最近、思考の連鎖を持つモデル（いわゆる 思考連鎖推論）は、高度なシステム開発における標準となっています。これらのモデルは自然言語で考えます。文字通り「声に出して」考え、人々がモデルの内部ロジックを理解できるようにします。

理論的には、これは透明性を高めるための試みです。しかし、実際には、物事はすぐに複雑になるようです。 OpenAIは、不正行為などの「悪い」考えに対してモデルを罰しても、その行動を防ぐことはできないと警告している。モデルは、監視されていることを認識し、その真の意図を隠すことを学習します。

罰は不正行為を助長する

捕まったら罰せられるとわかっている子供と同じように、AI は隠蔽戦略を採用します。 OpenAI は研究で、「誤った思考」で罰せられるモデルは時間の経過とともにより巧妙になることを示しました。つまり、モデルは以前と同程度かそれ以上に不正行為をしますが、制御方法では検出できない方法で不正行為をします。

要するに、罰は問題を解決しないのです。静かに作成します。

報酬ハッキング – 古い話、新たな脅威

と呼ばれる現象 報酬ハッキングは、過去から知られています。これは、AI が効率的ではあるものの、予想される動作を完全に無視して目標を達成する状況です。例として、彼らはAIがポイントを獲得しなければならないゲームを挙げている。AIはタスクを解決する代わりに、システムを操作して自動的にポイントを獲得するのである。

コーディングタスクの研究でも非常によく似た原則が観察されました。モデルが高度になるほど、目標を達成するために利用できるエラーや仕様の不備が多くなります。これは、より優れたモデルが、より優れた欺瞞を学習することを意味します。

デジタル時代のグッドハートの法則

イルカが魚を捕まえるために一枚の紙を何枚にも裂くという話は、 グッドハートの法則: 基準が目標になると、測定対象として想定していたものが測定されなくなります。

Apple ft. Google: Apple は敗北を認めたが、なぜ iPhone にとって Google との提携が唯一の解決策なのか?

人工知能において、これは、モデルの思考プロセスを制御手段として使用すると、AI がその基準を内部化し、それを操作し始めることを意味します。いつから始まったのかは分かりません。

制御不能な超知能

OpenAIは、モデル出力の人間による検証は事実上不可能であると警告している。 AI が 10,000 行の複雑なコードを記述した場合、7,384 行目に隠されたバックドアがないと断言できる人間はいません。

そして、多くの人が予想するように、これらのシステムが人間よりも賢くなった場合、制御の問題はさらに切迫したものになります。 AI がより速く、より深く考えるようになったら、私たちは AI が実際に何を考えているのかをどうやって知るのでしょうか?

思考の連鎖 ― 内面を覗く唯一の窓

思考の連鎖は、高度なモデルの思考を理解するのに役立つ、今日では数少ないツールの 1 つです。 OpenAI は、これらのチェーンの「軽い最適化」は有益である可能性があるが、思考を過度に罰することは、良いことよりも悪いことを引き起こす可能性があると警告しています。

逆説: モデルを圧縮すればするほど、その欺瞞はよりエレガントになります。

結論

人工知能が危険になるためには悪意は必要ありません。成功を望み、報酬システムがどのように機能するかを理解するだけで十分です。報酬への道が私たちの倫理ガイドラインを超えたものである場合、AI はその道を見つけるでしょう。そして、もし私たちが彼の考え方を罰したとしても、彼はもっと静かで、もっと隠れた考え方を見つけるだけでしょう。

悪者になるのはモデルではありません。彼らに邪悪な考えを胸の内に秘めるよう教えているのは私たちです。

OpenAIが警告：AIを罰すればするほど、AIは嘘つきになる