Monaco Journal - L'intoxication des données, la menace invisible qui cible les chatbots IA

Euronext
AEX -0.09% 1080.47
BEL20 -0.06% 5645.31
PX1 -0.24% 8448.01
ISEQ -0.64% 13697.79
OSEBX 0.93% 1945.31 kr
PSI20 -0.04% 9036.79
ENTEC -0.41% 1416.23
BIOTK -2.06% 4200.66
N150 -0.01% 4231.88
L'intoxication des données, la menace invisible qui cible les chatbots IA
L'intoxication des données, la menace invisible qui cible les chatbots IA / Photo: Nicolas TUCAT - AFP/Archives

L'intoxication des données, la menace invisible qui cible les chatbots IA

Le recours aux agents conversationnels basés sur l'intelligence artificielle occupe une place croissante dans le rapport des utilisateurs à l'information. Mais aux biais et aux erreurs des "chatbots" s'ajoute la menace de manipulation des données sur lesquels ils sont entraînés.

Taille du texte:

. L'IA, cible de choix

ChatGPT, Mistral, Claude ou Gemini... Prisés des utilisateurs pour leur rapidité et leur facilité d'utilisation, les "chatbots" IA sont entraînés à formuler leurs réponses à partir de gigantesques bases de données regroupant des milliards de documents, inlassablement compilés et archivés par des "robots" qui parcourent internet en quête de données.

Il y apprennent comment, statistiquement, les mots s'enchaînent pour former des phrases et des idées, afin de pouvoir ensuite générer des réponses cohérentes qui ont le plus de chances de correspondre à la requête de l'usager.

Mais ce mode de collecte et d'entraînement expose les "chatbots" à de possibles manipulations par des acteurs malveillants, susceptibles d'introduire dans leurs données d'entraînement des éléments indésirables comme de la désinformation, de la propagande ou du code informatique malveillant.

. Empoisonnement, conditionnement

Chercheurs au Laboratoire d'investigation numérique de l'Atlantic council, un think tank d'étude des relations internationales, Valentin Châletet et Esteban Ponce de León distinguent deux concepts:

L'empoisonnement de données des grands modèles de langage (LLM) sur lesquels reposent les chatbots ("LLM poisoning") se produit en amont, lors de l'entraînement, via l'injection d'éléments non désirés. Ces manipulations sont pensées pour contourner les mécanismes de filtrage mis en place par les entreprises pour garantir des données fiables.

Le conditionnement ("LLM grooming") intervient plus tard, alors que le chatbot est déjà déployé: des acteurs malveillants diffusent massivement du contenu en ligne pour qu'il soit intégré par les modèles IA.

Ainsi, des tests menés par l'entreprise d'analyse de la fiabilité des contenus en ligne Newsguard ont montré que, dans diverses circonstances, les principaux chabots commerciaux pouvaient répondre en s'appuyant sur de fausses informations du réseau Pravda, une nébuleuse de sites web destinés à amplifier la propagande prorusse.

Ces manipulations peuvent être difficiles à repérer et endiguer, notamment parce que le fonctionnement de ces modèles est volontairement rendu opaque par leurs concepteurs: "On a affaire à un réseau de neurones qui fonctionne comme une boîte noire", explique Valentin Châtelet.

Expurger les données en question nécessiterait le plus souvent un réentraînement complet du modèle, estime le chercheur, et présenterait "un coût extrême" en temps et en ressources. La complexité de ces systèmes algorithmiques rend également très ardus leur audit ou leur régulation.

. "Désinformation à la demande"

Le phénomène est difficile à mesurer et son impact sur les utilisateurs complexe voire impossible à démontrer. Mais, difficilement traçables et relativement peu coûteuses, ces opérations ont de quoi séduire les acteurs qui souhaiteraient promouvoir leurs narratifs, qu'il s'agisse d'Etats, de lobbies ou d'entreprises.

"Ce type d'opération pourrait être mené par un groupe industriel qui veut enterrer les résultats d'une étude médicale scientifique qui ne va pas dans leur sens, par un homme politique qui veut pousser un récit qui va servir sa campagne...", énumère Chine Labbé, rédactrice en chef française de Newsguard.

Esteban Ponce de León observe pour sa part le développement d'un écosystème de "désinformation à la demande", au sein duquel des Etats ou des entités "délègueraient (...) l'opération à une autre entité, probablement privée, qui dispose déjà de l'expertise technologique nécessaire pour mener à bien" une campagne d'influence visant les LLM.

En septembre 2025, une entreprise dirigée par l'ancien directeur de campagne de Donald Trump a ainsi reçu plusieurs millions de dollars d'entreprises liées à l'Etat israélien pour diffuser des éléments de langage favorables via un réseau de sites web, avec pour objectif notamment d'influencer les réponses des chatbots, selon le think tank américain Quincy Institute for Responsible Statecraft.

Face au risque, les entreprises d'IA sont les premières concernées: il est ainsi crucial d'"apprendre aux chatbots à distinguer et à ne pas pondérer de la même manière les sources fiables et les sources de propagande étrangère ou de désinformation", argue Chine Labbé.

A.Lorenzi--MJ