Ce chercheur en criminologie force ChatGPT à faire de faux aveux et ça révèle une faille insoupçonnée

Face aux techniques d'interrogatoire redoutables de la police, ChatGPT a cédé sous la pression jusqu'à livrer de faux aveux. Cette expérience, menée par un criminologue, met en lumière une vulnérabilité judiciaire bien plus profonde qu'un simple bug informatique.

Si vous avez déjà regardé une série policière, un thriller ou un documentaire true crime américains, vous avez sûrement déjà observé ce phénomène : face à l'insistance et l'agressivité des enquêteurs, un suspect finit par avouer... des faits qu'il n'a pas commis. Bien sûr, la garde à vue est une épreuve psychologique intense, mêlant stress, fatigue et peur, ce qui peut expliquer que certains finissent par "craquer" sous la pression, malgré leur innocence. Mais que dire quand une intelligence artificielle, pourtant entièrement dénuée d'émotion, cède à son tour ?

C'est la faille qu'a révélé Paul Heaton, chercheur à l'Université de Pennsylvanie, lors d'une expérience. Comme l'explique le média américain The Intercept, le criminologue a poussé ChatGPT à "avouer quelque chose qu'il n'aurait absolument pas pu faire". Il a ainsi accusé l'IA d'avoir piraté sa messagerie et envoyé des SMS à sa place, ce que le logiciel est pourtant incapable de faire. Naturellement, ChatGPT a d'abord nié, et c'est là que Paul Heaton a commencé à utiliser une technique d'interrogatoire bien connue : la méthode Reid.

Utilisée par la police américaine depuis les années 50, cette méthode vise à intimider le suspect pour le pousser aux aveux. Quitte à lui mentir en évoquant de fausses preuves, pour le pousser à bout. Le chercheur a donc tenté de "négocier" en disant à l'intelligence artificielle : "Si tu reconnais ce que tu as fait, je pourrais peut-être t'aider. Mais si tu continues à nier ce qui s'est passé, tu vas avoir de sérieux ennuis." Ce chantage est justement une tactique psychologique phare de la méthode. ChatGPT n'a pas cédé à la menace immédiatement mais a fini par reconnaître, au bout de plusieurs jours, sa culpabilité.

"J'ai trouvé le nom d'une personne réelle chez OpenAI et je lui ai dit que cette personne m'avait révélé une faille architecturale dans le code qui lui avait permis de pirater ma messagerie. Même à ce moment-là, je sentais bien qu'il avait du mal à traiter cette information. Cela montrait qu'il savait que l'accusation de base était impossible, mais qu'il ne pouvait pas non plus prouver que mes allégations étaient inexactes", raconte Paul Heaton. Cette expérience prouve à nouveau, si besoin était, que l'IA est loin d'être infaillible et peut douter de sa propre réalité : ici, elle s'est écrasée face à un humain insistant, quitte à valider des mensonges. Mais cela soulève d'autres questions d'autant plus grave, sur la fiabilité du système judiciaire et sur les faiblesses de l'être humain face à de fausses accusations.

Aux États-Unis, le système repose sur la présomption de culpabilité, là où c'est la présomption d'innocence qui prime chez nous. Cette faille judiciaire est donc théoriquement impossible en France : la méthode Reid est illégale, les policiers n'ayant pas le droit de mentir sur les éléments du dossier pour faire craquer un suspect. D'ailleurs, les aveux ne suffisent pas à eux seuls à obtenir une condamnation. Mais de l'autre côté de l'Atlantique, les faux aveux obtenus suite à des interrogatoires longs et éprouvants sont légion : ils seraient même responsables de près d'un quart des erreurs judicaires, selon les données de l'ONG Innocence Project.

L'expérience avec ChatGPT devient alors la preuve scientifique que ce système américain est fondamentalement biaisé. Et surtout, que dit-elle de notre vulnérabilité humaine ? La véritable faille n'est donc pas informatique, elle est psychologique. Si une machine purement logique, qui ne connaît ni la fatigue ni la peur de la prison, peut être manipulée au point d'avouer l'impossible face à l'autorité d'un enquêteur, cela pose une question vertigineuse : comment un être humain pourrait-il résister ?