GPT-4.5: 사람들을 인간이라고 생각하게 만드는 인공 지능과 튜링 테스트

OpenAI Labs의 최신 인공지능 모델인 GPT-4.5는 유명한 튜링 테스트를 성공적으로 통과한 최초의 모델입니다. 최근 과학 연구에 따르면, % 참여자 73명은 알고리즘이 아닌 실제 사람과 소통하고 있다고 믿었습니다. 하지만 이것이 인상적인 성과인 반면, 꽤나 무서운 의문도 제기합니다.

1950년에 앨런 튜링은 간단한 질문을 던졌습니다. 기계가 생각할 수 있을까요? 그리고 그가 생각하지 않는다면, 그는 사람을 생각하게 만들 수 있을까요? 이렇게 하여 인공지능을 위한 궁극적인 테스트인 튜링 테스트가 탄생했습니다. 잘, GPT-4.5 이제 역사상 처음으로 그는 그것을 진정으로 견뎌낸 것 같습니다. 하지만 기계를 칭찬하기 전에, 이것이 실제로 무엇을 의미하는지, 그리고 왜 우리가 우려해야 하는지 살펴보겠습니다.

GPT-4.5는 어떻게 인류를 속였는가(아니면 속였는가)?

캘리포니아 대학교 샌디에이고 캠퍼스의 과학자 Cameron Jones와 Benjamin Bergen은 arXiv에 게재된 연구에서출처: arxiv.org), 연구진은 500개의 텍스트 대화에서 누가 인간이고 누가 인공지능인지 판별하려는 실험을 진행했습니다. 각 대화에서 그들은 두 명의 대담자(한 명은 인간, 한 명은 AI 모델)와 상호 작용했으며 결정을 내리는 데 정확히 5분이 주어졌습니다.

결과? GPT-4.5는 73명의 % 실험 대상자를 실제 대화자보다 더 성공적으로 자신이 실제 사람임을 확신시켰습니다! 만약 그것이 디지털 기적이 아니라면, 우리는 무엇이 디지털 기적일지 모릅니다.

실제 사람들대조군으로 참여한 , 인간으로 성공적으로 식별되었습니다. 67개의 % 사례에서만.

성공의 비결은 무엇일까?

그것은 단순히 순수한 처리 능력이나 이해력에 관한 것이 아니었습니다. 핵심은 "페르소나 프롬프트"에 있었습니다. 이는 현재 인터넷 용어를 사용하여 GPT-4.5가 내성적이고 다소 냉소적인 젊은이처럼 행동하도록 만드는 명령입니다. 그리고 그를 간단히 살펴보면, 그런 인물이 아주 그럴듯해 보입니다. 어쩌면 너무 많을 수도 있다.

테스트한 다른 모델은 훨씬 더 나쁜 결과를 보였습니다.

LLaMa-3.1: 56 % 성능
GPT-4o: 21 % 성능
엘리자 (60년대의 전설적인 챗봇): 23 % 성능

그렇다면 GPT-4.5가 정말 지능적이라는 뜻일까요?

꼭 그렇지는 않아요. 튜링 테스트는 의식, 이해력, 심층적 지능을 측정하지 않습니다. 튜링 테스트는 모방 능력을 측정합니다. 그래서 GPT-4.5는 인간처럼 보이는 법은 배웠지만, 인간이 되는 법은 배우지 못했습니다. 과학자들이 말했듯이 "모델은 자신이 알고 있다는 사실을 모른다." 이 차이점은 중요합니다. GPT-4.5는 알고리즘 세계의 환상주의자이자 허세의 달인이라고 할 수 있습니다. 하지만 이런 마술사들은 잘못 사용하면 금세 사기꾼이 될 수 있습니다.