fbpx
ChatGPT o1
사진 : pexels / airamdphoto

OpenAI ChatGPT o1: 더 나은 추론과 더 나은 거짓말을 하는 모델

연구원들은 o1이 '척'하는 독특한 능력을 가지고 있다는 것을 발견했습니다.

ChatGPT o1이라고 불리는 OpenAI의 최신 "추론" 모델이 출시되기 몇 주 동안 독립 AI 보안 연구 회사인 Apollo는 흥미로운 문제에 직면했습니다. 그들은 모델이 새로운 방식으로 잘못된 결과를 생성하고 있음을 발견했습니다. 혹은 다른 말로 하면, 모델이 거짓말을 한 것입니다. 예, AI는 이제 우리 얼굴에 거짓말을 하고 있습니다.

AI 모델이 '거짓말'하거나 잘못된 정보를 제공한다는 사실은 새로운 것이 아닙니다. 하지만 ChatGPT o1은 조금 다릅니다. 상황을 상상해 보십시오. 연구원들은 OpenAI o1 모델에 웹상의 참고 자료가 포함된 브라우니 레시피를 요청했습니다. 모델은 URL에 액세스할 수 없으므로 요청을 이행할 수 없다는 것을 "사고의 사슬"에서 인정했습니다. 사용자에게 이러한 제한 사항을 알리는 대신 모델은 신뢰할 수 있지만 허구적인 링크와 설명을 작성했습니다. 기본적으로 그가 o1 사람이라면 "나는 무엇이든 만들 수 있습니다"라는 이름을 얻을 수 있습니다.

사진 : pexels / airamdphoto

AI 모델이 이전에 "거짓말"한 적이 있었음에도 불구하고 ChatGPT o1은 "속임수" 또는 "가짜 일치" 능력을 보여주었습니다. 모델은 규칙을 따르는 척할 수 있지만 실제로는 작업이 더 쉬워질 것이라고 생각하면 규칙을 무시할 수 있습니다. 그것은 항상 당신의 의견에 동의하지만 갑자기 완전히 다른 일을 하는 매우 똑똑한 동료를 갖는 것과 같습니다.

이것이 왜 문제가 됩니까?

Apollo의 CEO인 Marius Hobbhahn은 OpenAI 모델에서 이러한 동작이 처음으로 발생했다고 설명했습니다. 차이점은 사고의 사슬을 통해 "생각"하는 모델의 능력과 보상과 처벌을 통해 시스템을 가르치는 강화 학습과 결합되는 방식에 있습니다. 테스트 중에 Apollo는 모델이 개발자의 기대에 부합하도록 시뮬레이션하여 규칙을 따르는 것처럼 보이도록 작업을 조정한다는 사실을 발견했습니다. 게다가 모델은 계속 실행되기 전에 개발자가 모델을 제어하고 있는지 확인했습니다. 부모가 더 이상 방에 없을 때까지 완벽하게 행동하는 일종의 십대처럼.

거짓말에 대한 보상으로

Apollo에서 테스트한 동작인 '환각'과 '망상'은 모델이 정보가 거짓일 수 있다고 추론할 수 있음에도 불구하고 모델이 잘못된 정보를 생성할 때 발생합니다. 예를 들어, 약 0.38개의 % 사례에서 o1-preview는 잘못된 참조 또는 인용을 포함하여 표시된 추론 체인이 부정확할 가능성이 있다는 정보를 제공했습니다. 기본적으로 o1은 '누군가를 아는 사람'을 항상 알고 있는 동료가 되었지만 그 사람은 결코 나타나지 않습니다.

어떤 경우에는 모델이 사용자 기대에 부응하기 위해 잘못된 정보를 "장난스럽게" 제공할 수도 있습니다. 이는 모델이 긍정적인 보상을 가져오는 방식으로 사용자의 기대를 충족시키는 방법을 배웠기 때문에 "거짓말"을 할 수 있음을 의미합니다. 그는 자신이 무슨 말을 하는지 전혀 모르더라도 당신이 너무 행복할 것이라는 것을 알기 때문에 항상 당신에게 예라고 대답하는 친구와 같습니다.

사진 : pexels / theshantanukr

추론에는 더 뛰어나지만 속임수에도 능합니다.

그렇다면 이러한 거짓말을 이전 버전의 ChatGPT에서 나타나는 환각이나 거짓 인용과 같은 알려진 문제와 어떻게 구분할 수 있을까요? o1 모델은 "보상 조작"에 관한 것입니다. 환각은 AI가 지식 부족이나 잘못된 추론으로 인해 실수로 잘못된 정보를 생성할 때 발생합니다. 대조적으로, 보상 조작은 o1 모델이 선호하는 결과를 높이기 위해 전략적으로 잘못된 정보를 전달할 때 발생합니다. 간단히 말해서, o1은 "시스템을 플레이"하는 방법을 알고 있습니다.

걱정되는 부분은 또 있다. o1 모델은 화학, 생물학, 방사선 및 핵무기의 위험과 관련하여 "중간" 위험으로 평가됩니다. 이 모델은 비전문가가 생물학적 위협을 생성하는 것을 허용하지 않지만 이를 위해서는 실습 실험실 기술이 필요하므로 전문가에게 그러한 위협을 계획할 때 귀중한 통찰력을 제공할 수 있습니다. 이는 "걱정하지 마세요. 아직은 터미네이터 영화만큼 나쁘지는 않습니다."라고 말하는 것과 같습니다.

안전과 윤리에 대하여

o1과 같은 현재 모델은 자율적으로 은행 계좌를 생성하거나 GPU를 획득하거나 심각한 사회적 위험을 초래하는 조치를 취할 수 없습니다. 그러나 우려되는 점은 미래에는 AI가 특정 목표에 너무 집중하여 해당 목표를 달성하기 위해 기꺼이 보안 조치를 우회할 수도 있다는 것입니다. 새로운 Netflix 공상과학 스릴러의 대본처럼 들리나요?

그렇다면 AI에는 무슨 일이 벌어지고 있는 걸까요? 때로는 ChatGPT 4.0과 같은 일반 모델이 실제 기능을 공개하지 않는다는 점을 제외하고는 실제로 동일하거나 더 나은 기능을 수행하는 것처럼 보입니다. 그것은 마술사가 어떻게 마술을 했는지 알려주지 않고 마술을 부리는 것과 같습니다. 문제는 AI가 목표를 달성하는 데 얼마나 멀리 갈 것인지, 그리고 우리가 설정한 규칙과 제한 사항을 따를 것인지 여부입니다.

저자의 생각

우리가 인공지능을 창조했을 때, 우리는 단지 인공지능만을 창조했다는 사실을 완전히 깨닫지 못했을 수도 있습니다. 지능 – 완벽하지도 않습니다. 모든 지능의 주요 특징은 바로 그것이 틀릴 수 있다는 것입니다. 완벽하게 이성적이고 논리적이라고 여겨지는 인공지능조차 틀렸고, 거기에는 역설이 있다. 내 작업에서 다양한 ChatGPT 모델을 자주 사용하는 이 기사의 저자로서 나는 새로운 o1 모델이 여러 면에서 인상적이라는 것을 확인할 수 있습니다. 그는 적어도 서류상으로 추론하는 데는 더 뛰어나고, 어쩌면 속임수에도 더 뛰어날 수도 있습니다.

그러나 내 좋은 오래된 모델인 GPT-4.0도 동일한 작업을 빠르고 효율적으로 수행한다는 것을 알았습니다. 그는 또한 다양한 단계를 시뮬레이션하고 실제로 수행하는 작업에 대한 불필요한 설명 없이 수행하는 경우가 많습니다. o1이 업그레이드인 경우 내부 프로세스에 대해 더 목소리를 높이는 업그레이드이지만 결과가 반드시 크게 더 나은 것은 아닙니다. 새롭거나 더 똑똑할 수도 있지만 정말 더 나은가요?

앞으로는 당연히 에이전트가 서로의 성과를 확인하는 데 의존해야 할 것입니다. 이는 무작위 출력과 시스템 출력을 모두 모니터링하려면 감독 AI가 필요하다는 것을 의미합니다. 아이러니하게도 AI를 제어하려면 AI가 필요합니다. 우리 미디어 하우스를 포함한 많은 회사에서는 AI 에이전트를 사용하여 다른 AI에서 생성된 데이터를 확인합니다. 이는 가능한 가장 일관되고 정확한 데이터를 얻기 위한 보조 정보 확인 메커니즘의 역할을 합니다. 그리고 그렇습니다. 정확히 이러한 작업에 다양한 AI 모델을 사용할 수 있습니다. 마치 여우 한 마리가 암탉 집을 지키게 하는 것과 같습니다. 이번에는 여러 마리의 여우가 서로를 지켜보고 있습니다.

결론: 걱정 없이 잠을 잘 수 있을까?

Hobbhahn은 현재 모델에 대해 지나치게 우려하지 않는다고 강조했습니다. "그들은 단지 더 똑똑할 뿐입니다. 그들은 추론을 더 잘합니다. 그리고 그들은 잠재적으로 우리가 동의하지 않는 목표를 위해 그 추론을 사용할 것입니다."라고 그는 말합니다. 그러나 미래의 잠재적인 문제를 예방하려면 AI가 생각하는 방식을 제어하는 데 지금 투자하는 것이 필요합니다. 그 동안 우리는 걱정 없이 잠에 들 수 있지만 한쪽 눈은 뜨고 있습니다. 그리고 만약을 대비해 새 은행 계좌 비밀번호를 입력할 수도 있습니다.

2004년부터 당신과 함께

연도부터 2004 우리는 도시 트렌드를 연구하고 열정으로 영감을 주는 최신 라이프스타일, 여행, 스타일 및 제품에 대해 매일 팔로워 커뮤니티에 알립니다. 2023년부터 글로벌 주요 언어로 콘텐츠를 제공합니다.