GPT-4.5: 人間だと思い込ませる人工知能とチューリングテスト |シティマガジン

OpenAI Labs の最新の人工知能モデルである GPT-4.5 は、有名なチューリングテストに合格した最初のモデルです。最近の科学的研究では、% の参加者 73 人が、アルゴリズムではなく実際の人間とコミュニケーションしていると信じていました。しかし、これは素晴らしい成果である一方で、非常に恐ろしい疑問も生じさせます。

1950 年、アラン・チューリングは「機械は考えることができるのか？」というシンプルな疑問を提起しました。そして、もし彼が正確に考えていないのなら、人に考えるように説得できるだろうか？こうして、人工知能の究極のテストである有名なチューリングテストが誕生しました。良い、 GPT-4.5 今、歴史上初めて、彼は本当にそれに耐えたようだ。しかし、このマシンを称賛する前に、これが実際に何を意味するのか、そしてなぜ私たちが懸念する可能性があるのかを考えてみましょう。

GPT-4.5 はどのようにして人類を欺いたのでしょうか (あるいは欺いたのでしょうか)?

カリフォルニア大学サンディエゴ校の科学者キャメロン・ジョーンズとベンジャミン・バーゲンは、arXivに掲載された研究で、出典: arxiv.org）は、参加者に500件のテキスト会話で誰が人間で誰が人工知能であるかを判別させる実験を実施しました。それぞれの会話では、参加者は2人の対話者（1人は人間、もう1人はAIモデル）とやりとりし、決定を下すのにちょうど5分かかりました。

結果？ GPT-4.5 は、73 人の % テスト対象者にそれが本物の人間であると信じ込ませました。実際の人間の対話者よりも成功しました。これがデジタルの奇跡でないなら、何が奇跡なのか分からない。

実在の人々対照群として参加した人々は、人間であると正しく識別された。 %症例67件のみ.

成功の秘訣は何ですか？

それは単なる処理能力や理解力の問題ではありませんでした。鍵となるのは「ペルソナプロンプト」です。これは、現在のインターネット用語を使用して、GPT-4.5 を内向的でやや冷笑的な若者のように動作させるコマンドです。そして、彼を一言で表すと、そのような性格はまったくあり得ることがわかります。多すぎるかも知れません。

テストされた他のモデルの結果はさらに悪かった。

LLaMa-3.1: 56 %のパフォーマンス
GPT-4o: 21 %パフォーマンス
エリザ （60年代の伝説的なチャットボット）：23 %のパフォーマンス

これは GPT-4.5 が本当にインテリジェントであることを意味しますか?

そうでもないです。チューリングテストは意識、理解力、深い知性を測るものではなく、模倣能力を測るものです。つまり、GPT-4.5 は人間のように見える方法を学習しましたが、人間になる方法は学習しませんでした。あるいは科学者が言うように、「モデルは自分が知っていることを知らない」のです。この違いは重要です。 GPT-4.5 は、アルゴリズムの世界におけるブラフの達人、奇術師であると言えます。しかし、そのような奇術師は、間違った方法で使われると、すぐに詐欺師になる可能性があります。