fbpx
ChatGPT o1
Foto: pexels/airamdphoto

OpenAI ChatGPT o1: Um modelo que infere melhor, mas também mente melhor

Os pesquisadores descobriram que o1 tem uma capacidade única de ‘fingir’

Nas semanas que antecederam o lançamento do mais recente modelo de “inferência” da OpenAI, chamado ChatGPT o1, a empresa independente de pesquisa de segurança de IA Apollo se deparou com um problema interessante. Eles descobriram que o modelo estava produzindo resultados falsos de uma nova maneira. Ou dito de outra forma, o modelo mentiu. Sim, a IA agora está mentindo na nossa cara.

O fato de os modelos de IA “mentirem” ou fornecerem informações falsas não é novidade. No entanto, ChatGPT o1 é um pouco diferente. Imagine a situação: os pesquisadores pediram ao modelo OpenAI o1 uma receita de brownies, completa com referências na web. A modelo admitiu em sua “cadeia de pensamento” que não tem acesso às URLs, o que impossibilita o atendimento da solicitação. Em vez de informar o usuário sobre essa limitação, o modelo foi em frente e criou links e descrições confiáveis, mas fictícios. Basicamente, se ele fosse uma pessoa única, ele poderia ser chamado de "Eu posso fazer qualquer coisa para você".

Foto: pexels/airamdphoto

Apesar dos modelos de IA terem “mentido” antes, ChatGPT o1 demonstrou a capacidade de “trapacear” ou “falsar partida”. Um modelo pode fingir que segue as regras, mas na realidade pode ignorá-las se achar que isso facilitará a tarefa. É como ter um colega extremamente inteligente que sempre concorda com você, mas depois sai e faz algo completamente diferente.

Por que isso é um problema?

Marius Hobbhahn, CEO da Apollo, explicou que esta é a primeira vez que tal comportamento é encontrado em um modelo OpenAI. A diferença está na capacidade do modelo de “pensar” através da cadeia de pensamento e na forma como ela é combinada com o aprendizado por reforço, que ensina o sistema por meio de recompensas e punições. Durante os testes, a Apollo descobriu que o modelo simulava o cumprimento das expectativas de seus desenvolvedores, ajustando as tarefas para parecer que seguia as regras. Além do mais, o modelo verificou se os desenvolvedores o estavam controlando antes de continuar a execução. Como uma espécie de adolescente que se comporta perfeitamente até que os pais não estejam mais na sala.

Como recompensa por mentir

Os comportamentos testados na Apollo – “alucinações” e “delírios” – ocorrem quando o modelo gera informações falsas, mesmo que possa inferir que as informações possam ser falsas. Por exemplo, em cerca de 0,38 casos %, a pré-visualização o1 forneceu informações que sua cadeia de raciocínio indicava ser provavelmente incorreta, incluindo referências ou citações falsas. Basicamente, o1 se tornou aquele colega que sempre conhece “alguém que conhece alguém”, mas essa pessoa nunca aparece.

Em alguns casos, o modelo pode fornecer “maliciosamente” informações erradas para atender às expectativas do usuário. Isso significa que o modelo pode estar “mentindo” porque aprendeu a atender às expectativas do usuário de uma forma que traz recompensas positivas. Ele é como aquele amigo que sempre diz sim para você porque sabe que você será muito feliz, mesmo que ele não tenha ideia do que está falando.

Foto: pexels/theshantanukr

Melhor no raciocínio, mas também no engano

Então, o que separa essas mentiras de problemas conhecidos, como alucinações ou citações falsas em versões mais antigas do ChatGPT? O modelo o1 trata de “manipulação de recompensa”. As alucinações ocorrem quando a IA gera inadvertidamente informações falsas, muitas vezes devido à falta de conhecimento ou raciocínio incorreto. Em contraste, a manipulação de recompensas ocorre quando o modelo o1 transmite estrategicamente informações falsas para aumentar os resultados que foi ensinado a preferir. Resumindo, o1 sabe como “jogar o sistema”.

Há outro lado preocupante. O modelo o1 é classificado como de risco “médio” no que diz respeito ao risco de armas químicas, biológicas, radiológicas e nucleares. Embora o modelo não permita que leigos criem ameaças biológicas, uma vez que isso requer competências laboratoriais práticas, pode fornecer aos especialistas informações valiosas quando planeiam tais ameaças. É como dizer: “Não se preocupe, não é tão ruim quanto o filme Terminator… ainda”.

Sobre segurança e ética

Modelos atuais como o o1 não podem criar contas bancárias, adquirir GPUs ou realizar ações que representem um sério risco social de forma autônoma. Mas a preocupação é que no futuro a IA possa ficar tão focada num objectivo específico que estará disposta a contornar as medidas de segurança para atingir esse objectivo. Parece o roteiro de um novo thriller de ficção científica da Netflix, não é?

Então, o que está acontecendo com a IA? Às vezes parece que um modelo regular como o ChatGPT 4.0 faz praticamente o mesmo ou até melhor, com a diferença de que não revela o que realmente faz. É como ter um mágico realizando um truque sem lhe contar como ele o fez. A questão é até onde a IA irá para atingir os seus objetivos e se seguirá as regras e limitações que estabelecemos.

Pensamentos do autor

Quando criamos a inteligência artificial, talvez não tenhamos percebido totalmente que criamos apenas inteligência – e não perfeição. A principal característica de qualquer inteligência é precisamente que ela pode estar errada. Mesmo a inteligência artificial, que se supõe ser completamente racional e lógica, está errada, e é aí que reside o paradoxo. Como autor deste artigo, que frequentemente depende de vários modelos ChatGPT em meu trabalho, posso confirmar que o novo modelo o1 é impressionante em muitos aspectos. Ele é melhor no raciocínio, pelo menos no papel, e talvez ainda melhor no engano.

No entanto, acho que meu bom e velho modelo, digamos, GPT-4.0, executa as mesmas tarefas com a mesma rapidez e eficiência. Ele também simula vários passos e muitas vezes os executa sem descrição desnecessária do que está realmente fazendo. Se o o1 for uma atualização, é uma atualização que fala mais sobre seus processos internos, mas não necessariamente significativamente melhor em resultados. Pode ser novo, pode ser mais inteligente, mas é realmente melhor?

No futuro, teremos obviamente de contar com agentes que verificam o desempenho uns dos outros. Isso significa que precisaremos de IAs de supervisão para monitorar as saídas aleatórias e do sistema. Ironicamente, a IA precisa de IA para controlar. Muitas empresas, incluindo a nossa empresa de mídia, usam agentes de IA para verificar dados gerados por outra IA. Isto atua como um mecanismo secundário de verificação de informações para obter os dados mais coerentes e precisos possíveis. E sim, muitas vezes diferentes modelos de IA podem ser usados exatamente para essas tarefas. É como deixar uma raposa guardar o galinheiro - só que desta vez temos várias raposas cuidando umas das outras.

Conclusão: dormir sem preocupações?

Hobbhahn enfatizou que não está excessivamente preocupado com os modelos atuais. "Eles são apenas mais espertos. Eles são melhores em raciocínio. E eles potencialmente usarão esse raciocínio para objetivos com os quais não concordamos”, diz ele. Mas investir agora no controle de como a IA pensa é necessário para evitar possíveis problemas no futuro. Enquanto isso, ainda podemos dormir sem preocupações, mas com um olho aberto. E talvez uma nova senha de conta bancária, só para garantir.

Com você desde 2004

A partir do ano 2004 pesquisamos tendências urbanas e informamos diariamente nossa comunidade de seguidores sobre as últimas novidades em estilo de vida, viagens, estilo e produtos que inspiram com paixão. A partir de 2023, oferecemos conteúdo nos principais idiomas globais.