OpenAI Labs의 최신 인공지능 모델인 GPT-4.5는 유명한 튜링 테스트를 성공적으로 통과한 최초의 모델입니다. 최근 과학 연구에 따르면, % 참여자 73명은 알고리즘이 아닌 실제 사람과 소통하고 있다고 믿었습니다. 하지만 이것이 인상적인 성과인 반면, 꽤나 무서운 의문도 제기합니다.
1950년에 앨런 튜링은 간단한 질문을 던졌습니다. 기계가 생각할 수 있을까요? 그리고 그가 생각하지 않는다면, 그는 사람을 생각하게 만들 수 있을까요? 이렇게 하여 인공지능을 위한 궁극적인 테스트인 튜링 테스트가 탄생했습니다. 잘, GPT-4.5 이제 역사상 처음으로 그는 그것을 진정으로 견뎌낸 것 같습니다. 하지만 기계를 칭찬하기 전에, 이것이 실제로 무엇을 의미하는지, 그리고 왜 우리가 우려해야 하는지 살펴보겠습니다.
GPT-4.5는 어떻게 인류를 속였는가(아니면 속였는가)?
캘리포니아 대학교 샌디에이고 캠퍼스의 과학자 Cameron Jones와 Benjamin Bergen은 arXiv에 게재된 연구에서출처: arxiv.org), 연구진은 500개의 텍스트 대화에서 누가 인간이고 누가 인공지능인지 판별하려는 실험을 진행했습니다. 각 대화에서 그들은 두 명의 대담자(한 명은 인간, 한 명은 AI 모델)와 상호 작용했으며 결정을 내리는 데 정확히 5분이 주어졌습니다.
결과? GPT-4.5는 73명의 % 실험 대상자를 실제 대화자보다 더 성공적으로 자신이 실제 사람임을 확신시켰습니다! 만약 그것이 디지털 기적이 아니라면, 우리는 무엇이 디지털 기적일지 모릅니다.
실제 사람들대조군으로 참여한 , 인간으로 성공적으로 식별되었습니다. 67개의 % 사례에서만.
성공의 비결은 무엇일까?
그것은 단순히 순수한 처리 능력이나 이해력에 관한 것이 아니었습니다. 핵심은 "페르소나 프롬프트"에 있었습니다. 이는 현재 인터넷 용어를 사용하여 GPT-4.5가 내성적이고 다소 냉소적인 젊은이처럼 행동하도록 만드는 명령입니다. 그리고 그를 간단히 살펴보면, 그런 인물이 아주 그럴듯해 보입니다. 어쩌면 너무 많을 수도 있다.
테스트한 다른 모델은 훨씬 더 나쁜 결과를 보였습니다.
- LLaMa-3.1: 56 % 성능
- GPT-4o: 21 % 성능
- 엘리자 (60년대의 전설적인 챗봇): 23 % 성능
그렇다면 GPT-4.5가 정말 지능적이라는 뜻일까요?
꼭 그렇지는 않아요. 튜링 테스트는 의식, 이해력, 심층적 지능을 측정하지 않습니다. 튜링 테스트는 모방 능력을 측정합니다. 그래서 GPT-4.5는 인간처럼 보이는 법은 배웠지만, 인간이 되는 법은 배우지 못했습니다. 과학자들이 말했듯이 "모델은 자신이 알고 있다는 사실을 모른다." 이 차이점은 중요합니다. GPT-4.5는 알고리즘 세계의 환상주의자이자 허세의 달인이라고 할 수 있습니다. 하지만 이런 마술사들은 잘못 사용하면 금세 사기꾼이 될 수 있습니다.
왜 우리는 이에 대해 걱정해야 할까요?
AI가 사람보다 사람을 더 잘 모방할 수 있다면, 이는 온라인 신원 확인, 관계 형성, 여론 조작에 어떤 영향을 미칠까요? 미래에는 AI가 칼럼을 쓰고, 인터뷰를 하고, 유권자를 설득할 수 있을까요?
연구자들은 사회가 이처럼 강력한 모델을 규제하는 방법을 진지하게 고려해야 한다고 강조합니다. 현재는 누구나 설득력 있는 가짜 대화, 댓글, 의견을 만들어낼 수 있습니다. 그리고 몇 번만 클릭하면 무슨 일이 벌어질지 누가 알겠습니까?
결론: 우리는 이미 AGI를 가지고 있는가?
GPT-4.5는 그저 또 다른 스마트 챗봇이 아닙니다. 이는 이정표입니다. 이는 우리가 새로운 시대로 접어들었다는 증거입니다. 기계가 언어를 이해할 뿐만 아니라, 그 언어를 매우 미묘하고 맥락에 맞게 사용하여 인간조차 속일 수 있는 시대입니다.
정말 흥미롭네요. 무섭네요. 이것이 미래입니다.
그리고 미래는 타자를 꽤 잘 칠 수 있을 것 같습니다.