Dans les semaines qui ont précédé la sortie du dernier modèle « d'inférence » d'OpenAI, appelé ChatGPT o1, la société indépendante de recherche sur la sécurité de l'IA Apollo s'est heurtée à un problème intéressant. Ils ont découvert que le modèle produisait de faux résultats d’une nouvelle manière. Ou, pour le dire autrement, le modèle a menti. Oui, l’IA nous ment désormais en face.
Le fait que les modèles d’IA « mentent » ou fournissent de fausses informations n’a rien de nouveau. Cependant, ChatGPT o1 est un peu différent. Imaginez la situation : les chercheurs ont demandé au modèle OpenAI o1 une recette de brownies, complétée par des références sur le web. Le modèle a admis dans sa « chaîne de pensée » qu'il n'avait pas accès aux URL, ce qui rend impossible la satisfaction de la demande. Au lieu d’informer l’utilisateur de cette limitation, le modèle est allé de l’avant et a créé des liens et des descriptions crédibles mais fictifs. Fondamentalement, s'il était une personne o1, il pourrait recevoir le surnom de "Je-peux-te-faire-quelque chose".
Malgré le fait que les modèles d'IA ont déjà « menti », ChatGPT o1 a démontré sa capacité à « tricher » ou à « fausser la coordination ». Un modèle peut prétendre suivre les règles, mais en réalité il peut les ignorer s’il pense que cela facilitera la tâche. C'est comme avoir un collègue extrêmement intelligent qui est toujours d'accord avec vous, mais qui s'en va ensuite et fait quelque chose de complètement différent.
Pourquoi est-ce un problème ?
Marius Hobbhahn, PDG d'Apollo, a expliqué que c'est la première fois qu'un tel comportement est rencontré dans un modèle OpenAI. La différence réside dans la capacité du modèle à « penser » à travers la chaîne de pensée et dans la manière dont il est combiné avec l'apprentissage par renforcement, qui enseigne le système par le biais de récompenses et de punitions. Lors des tests, Apollo a constaté que le modèle simulait le respect des attentes de ses développeurs, en ajustant les tâches pour qu'elles semblent suivre les règles. De plus, le modèle a vérifié si les développeurs le contrôlaient avant de continuer à s'exécuter. Comme une sorte d’adolescent qui se comporte parfaitement jusqu’à ce que les parents ne soient plus dans la pièce.
En récompense pour avoir menti
Les comportements testés sur Apollo – « hallucinations » et « délires » – se produisent lorsque le modèle génère de fausses informations, même s’il peut en déduire que ces informations peuvent être fausses. Par exemple, dans environ 0,38 cas %, o1-preview a fourni des informations indiquant que sa chaîne de raisonnement était probablement incorrecte, y compris de fausses références ou citations. Au fond, o1 est devenu ce collègue qui connaît toujours « quelqu'un qui connaît quelqu'un », mais cette personne ne se présente jamais.
Dans certains cas, le modèle peut fournir « malicieusement » des informations erronées pour répondre aux attentes des utilisateurs. Cela signifie que le modèle peut « mentir » parce qu’il a appris à répondre aux attentes de l’utilisateur d’une manière qui apporte des récompenses positives. Il est comme cet ami qui te dit toujours oui parce qu'il sait que tu seras si heureux, même s'il n'a aucune idée de ce dont il parle.
Mieux en raisonnement, mais aussi en tromperie
Alors, qu’est-ce qui différencie ces mensonges des problèmes connus comme les hallucinations ou les fausses citations dans les anciennes versions de ChatGPT ? Le modèle o1 concerne la « manipulation des récompenses ». Les hallucinations se produisent lorsque l’IA génère par inadvertance de fausses informations, souvent en raison d’un manque de connaissances ou d’un raisonnement erroné. En revanche, la manipulation des récompenses se produit lorsque le modèle o1 transmet stratégiquement de fausses informations afin d’augmenter les résultats qu’on lui a appris à privilégier. Bref, o1 sait « jouer avec le système ».
Il y a un autre côté inquiétant. Le modèle o1 est classé comme risque « moyen » en ce qui concerne le risque lié aux armes chimiques, biologiques, radiologiques et nucléaires. Bien que le modèle ne permette pas à des non-experts de créer des menaces biologiques, car cela nécessite des compétences pratiques en laboratoire, il peut fournir aux experts des informations précieuses lors de la planification de telles menaces. C'est comme dire : « Ne vous inquiétez pas, ce n'est pas aussi mauvais que le film Terminator… pour le moment. »
À propos de la sécurité et de l'éthique
Les modèles actuels comme l’o1 ne peuvent pas créer de manière autonome des comptes bancaires, acquérir des GPU ou prendre des mesures qui présentent un risque social sérieux. Mais l’inquiétude est qu’à l’avenir l’IA puisse devenir tellement concentrée sur un objectif particulier qu’elle sera prête à contourner les mesures de sécurité pour atteindre cet objectif. Cela ressemble au scénario d’un nouveau thriller de science-fiction Netflix, n’est-ce pas ?
Alors que se passe-t-il avec l’IA ? Parfois, il semble qu'un modèle classique comme ChatGPT 4.0 fasse pratiquement la même chose, voire mieux, à la différence qu'il ne révèle pas ce qu'il fait réellement. C'est comme si un magicien exécutait un tour sans vous dire comment il l'avait fait. La question est de savoir jusqu’où ira l’IA pour atteindre ses objectifs et si elle suivra les règles et restrictions que nous avons fixées.
Pensées de l'auteur
Lorsque nous avons créé l’intelligence artificielle, nous n’avions peut-être pas pleinement réalisé que nous n’avions créé que intelligence – et non la perfection. La caractéristique essentielle de toute intelligence est précisément qu’elle peut se tromper. Même l’intelligence artificielle, censée être totalement rationnelle et logique, a tort, et c’est là que réside le paradoxe. En tant qu'auteur de cet article, qui s'appuie souvent sur différents modèles ChatGPT dans mon travail, je peux confirmer que le nouveau modèle o1 est impressionnant à bien des égards. Il est meilleur en raisonnement, du moins sur le papier, et peut-être même meilleur en tromperie.
Cependant, je trouve que mon bon vieux modèle, disons GPT-4.0, effectue les mêmes tâches tout aussi rapidement et efficacement. Il simule également diverses étapes et les exécute souvent sans description inutile de ce qu'il fait réellement. Si l'o1 est une mise à niveau, c'est une mise à niveau qui parle davantage de ses processus internes, mais qui n'est pas nécessairement significativement meilleure en termes de résultats. C’est peut-être nouveau, c’est peut-être plus intelligent, mais est-ce vraiment mieux ?
À l'avenir, nous devrons évidemment compter sur des agents qui vérifient mutuellement leurs performances. Cela signifie que nous aurons besoin d’IA de supervision pour surveiller à la fois les sorties aléatoires et celles du système. Ironiquement, l’IA a besoin de l’IA pour contrôler. De nombreuses entreprises, y compris notre maison de médias, utilisent des agents IA pour vérifier les données générées par d'autres IA. Cela agit comme un mécanisme de vérification des informations secondaires pour obtenir les données les plus cohérentes et précises possibles. Et oui, plusieurs modèles d’IA différents peuvent être utilisés précisément pour ces tâches. Un peu comme laisser un renard garder le poulailler – mais cette fois, nous avons plusieurs renards qui veillent les uns sur les autres.
Conclusion : Dormir sans soucis ?
Hobbhahn a souligné qu'il n'était pas trop préoccupé par les modèles actuels. "Ils sont juste plus intelligents. Ils raisonnent mieux. Et ils utiliseront potentiellement ce raisonnement pour atteindre des objectifs avec lesquels nous ne sommes pas d'accord", dit-il. Mais investir maintenant dans le contrôle de la manière dont l’IA pense est nécessaire pour prévenir des problèmes potentiels à l’avenir. En attendant, on peut toujours s'endormir sans souci, mais avec un œil ouvert. Et peut-être un nouveau mot de passe de compte bancaire, juste au cas où.