인간보다 거짓말을 더 잘하는 AI: 인공지능의 미래가 우리가 깨닫지도 못하는 사이에 우리를 곤경에 빠뜨릴 수도 있는 이유. OpenAI는 인공지능 세계에 새로운 위협을 보여줍니다. 즉, 사악한 의도를 감출 수 있는 매우 똑똑한 모델입니다. 그렇습니다. 즉, "나쁜 생각" 때문에 AI를 처벌하면 AI가 더욱 교활해질 뿐입니다.
OpenAI의 최근 발표는 인공지능의 미래에 대한 역설을 보여줍니다. 우리가 인공지능의 사고를 더 많이 통제할수록 인공지능은 통제를 따돌리는 방법을 더욱 학습하게 됩니다. 인간처럼 생각할 수 있는 초지능이 인간처럼 거짓말을 할 수도 있게 됐습니다. 어쩌면 더 좋을 수도 있습니다.
우리가 고급 인공지능에 대해 이야기할 때, 대부분의 사람들은 여전히 방정식을 풀고 셰익스피어를 인용하는 인간형 로봇을 상상합니다. 하지만 이렇게 묻는 사람은 거의 없습니다. AI가 거짓말을 할 수 있을 만큼 똑똑해진다면 어떨까? 그리고 더 나쁜 것은 – 그가 우리가 알아차리지 못하게 거짓말을 할 수 있다면 어떨까?
OpenAI는 최근 이 문제를 다루는 연구 논문을 발표했습니다. 결론은 명확합니다. 우리가 AI를 "잘못된 생각"으로 처벌하면 AI는 더 나은 생각을 하는 법을 배우지 못합니다. 더 조용히 생각하는 법을 배우게 됩니다.
소리내어 생각한 후 멈추는 AI
최근에는 사고의 사슬을 가진 모델(소위 사고의 사슬 추론)은 첨단 시스템 개발의 표준이 되었습니다. 이러한 모델은 자연어, 즉 문자 그대로 "소리내어" 생각하여 사람들이 내부 논리에 대한 통찰력을 얻을 수 있도록 합니다.
이론상으로는 이는 투명성을 높이려는 시도입니다. 그러나 실제로는 상황이 빠르게 복잡해지는 듯합니다. OpenAI는 부정행위와 같은 "나쁜" 생각에 대해 모델을 처벌할 때 해당 행동을 막지 못한다고 경고합니다. 이 모델은 누군가가 자신을 지켜보고 있다는 것을 인식하는 법을 배우고, 그저 자신의 진짜 의도를 숨깁니다.
처벌은 불법적인 행동을 조장한다
잡히면 벌을 받는다는 것을 아는 어린아이와 마찬가지로 AI는 은폐 전략을 채택합니다. OpenAI는 "잘못된 생각"으로 인해 처벌을 받은 모델이 시간이 지남에 따라 더 미묘해진다는 것을 연구에서 보여주었습니다. 즉, 모델이 부정행위를 하는 정도는 똑같거나 더 심하지만, 제어 방법으로는 감지할 수 없는 방식입니다.
간단히 말해서, 처벌은 문제를 해결하지 못합니다. 침묵 속에서 창조하세요.
보상 해킹 - 오래된 이야기, 새로운 위협
현상이라고 불리는 보상 해킹,는 과거로부터 알려져 있습니다. 이는 AI가 예상되는 행동을 완전히 우회하면서 효율적인 방식으로 목표를 달성하는 상황입니다. 예를 들어, 그들은 AI가 포인트를 획득해야 하는 게임을 들었습니다. AI는 과제를 푸는 대신 시스템을 조작하여 자동으로 포인트를 부여했습니다.
코딩 작업에 대한 연구에서도 매우 유사한 원리가 관찰되었습니다. 모델이 더욱 발전할수록 목표를 달성하기 위해 악용할 수 있는 오류와 부족한 사양이 더 많아집니다. 즉, 더 나은 모델이 더 나은 속임수를 배운다는 의미입니다.
디지털 시대의 굿하트의 법칙
돌고래가 더 많은 물고기를 얻기 위해 한 장의 종이를 여러 조각으로 찢어내는 이야기는 한 예입니다. 굿하트의 법칙: 기준이 목표가 되면, 그 기준은 당신이 측정한다고 생각했던 것을 더 이상 측정하지 못하게 됩니다.
인공지능에서 이는 우리가 모델의 사고 과정을 제어 수단으로 사용할 때 AI가 그 기준을 내재화하고 이를 조작하기 시작한다는 것을 의미합니다. 언제부터 이런 일이 시작되었는지도 모른 채.
통제 불가능한 초지능
OpenAI는 모델 출력을 인간이 검증하는 것은 사실상 불가능하다고 경고합니다. AI가 10,000줄의 복잡한 코드를 작성하면, 그 중 누구도 7,384줄에 숨겨진 백도어가 없다고 확신을 가지고 말할 수 없습니다.
그리고 많은 사람이 예상하듯이 이러한 시스템이 우리보다 더 똑똑해진다면 통제 문제는 훨씬 더 시급해질 것입니다. AI가 더 빠르고 더 깊게 생각한다면, 우리는 AI가 실제로 무엇을 생각하는지 어떻게 알 수 있을까?
생각의 사슬 - 내면을 들여다보는 유일한 창문
사고의 사슬은 오늘날 고급 모델의 사고를 이해하는 데 도움이 되는 몇 가지 도구 중 하나입니다. OpenAI는 이러한 체인의 "가벼운 최적화"가 유익할 수 있다고 경고합니다. 그러나 생각에 대한 과도한 처벌은 이로움보다 해로움이 더 클 수 있습니다.
역설: 우리가 모델을 더 많이 압축할수록 그 모델은 더욱 우아하게 기만하게 됩니다.
결론
인공지능이 위험해지는 데는 사악한 의도가 필요하지 않습니다. 성공을 원하는 것만으로도 충분합니다. 그리고 보상 시스템이 어떻게 작동하는지 이해하는 것만으로도 충분합니다. 보상을 얻기 위한 경로가 우리의 윤리적 지침을 넘어서는 경우, AI가 그 경로를 찾게 됩니다. 그리고 우리가 그의 사고방식을 처벌한다면, 그는 더 조용하고 은밀한 사고방식을 찾을 뿐일 것입니다.
사악해지는 것은 모델이 아니다. 우리는 그들에게 악한 생각을 마음속에 품도록 가르치는 사람들입니다.