Cybersécurité

Quid de la (cyber)sécurité des systèmes à base d’IA ?

28 mai 2019

author:

Quid de la (cyber)sécurité des systèmes à base d’IA ?

L’intelligence artificielle (IA), malgré tout ce qui peut être dit, reste une technologie. Bien que son caractère cognitif fasse écho à la pensée humaine, c’est avant tout une manière de faire et de produire du logiciel intelligent. Elle obéit à un certain nombre de lois qui conditionnent à la fois son évolution et la façon dont elle est appréhendée. Elle escalade l’échelle de maturité : son TRL, (Technology Readiness Level) et fait l’objet d’un intérêt qui fluctue au gré du “hype cycle” théorisé par Gartner.

L’IA traversait le “Pic des attentes exagérées” avec la promesse de l’arrivée des robots et de voitures autonomes. Elle a ensuite fait face au “Gouffre des désillusions”, alors que les premiers retours de terrain ne se montrent pas à la hauteur des attentes précédentes. Néanmoins, il y a tout lieu de croire qu’elle est maintenant arrivée au pied de la “Pente de la Raison”.

La ministre des Armées annonçait début avril une vision de l’IA pour les Armées ancrée dans une rationalité et un humanisme dont ne sont exempts ni puissance ni volonté. Plus tôt au mois de mars, la présentation du défi “Sécurisation, fiabilisation et certification des systèmes à base d’IA” par le Conseil de l’Innovation montrait lui aussi l’inscription dans un axe de développement de l’IA concret et ambitieux, du moins au niveau national.

Quelle sécurité pour les systèmes apprenants ?

Dans ce contexte, la question de l’IA appliquée à la cybersécurité intrigue car elle présage d’une évolution de la posture réactive vers une posture proactive, voire même prédictive. La sécurité des systèmes à base d’IA est une question sérieuse, plus pragmatique que théorique : elle est incontournable pour les spécialistes du secteur, remédie et apaise toute angoisse suscitée par des prévisions trop sensationnelles. Elle doit surtout être posée pour garantir autant que possible que la capacité octroyée aux machines ne puisse se retourner contre les intérêts de ceux qui les développent et les utilisent.

L’IA, rappelons-le, n’est pas nouvelle. Ce qui est nouveau c’est sa capacité à l’apprentissage automatique (autrement appelé ML pour “Machine Learning”), qui mène à un début, certes restreint, d’intelligence des machines (plutôt qu’une intelligence-machine). Cela nous amène à poser une première évidence : l’IA, au stade où nous en sommes, c’est de l’informatique, du logiciel. Toutes les bonnes pratiques de sécurisation, de fiabilisation et de certification du logiciel s’y appliquent donc. L’utilisation d’une IA devrait donc, entre autres, requérir une Gestion des Accès et des Identités. La véritable question devient alors “quelle sécurité pour les systèmes logiciels apprenants” ?    

Sécuriser les accès

L’IA apprenante doit son apparition à trois facteurs qui constituent autant de vecteurs d’attaque potentiels : des algorithmes “neuronaux”, de la donnée en masse, et des capacités de calcul parallèle. Tous trois se présentent comme des axes à la réflexion concernant la sécurité de l’IA, dont on peut rechercher les intersections avec les questions de confidentialité, d’intégrité, de disponibilité et de traçabilité. Niveau algorithme, un algorithme de ML est une certitude d’explicabilité limitée, voire nulle. D’une part, l’espace analysé est multi-dimensionnel, et donc déjà difficile à appréhender en soi par un humain dont la compréhension est limitée à trois. D’autre part, le calcul lui-même est typiquement non-linéaire : au-delà d’un certain point, impossible de prédire le comportement d’un tel système, et donc d’expliquer a posteriori la causalité d’un résultat. Dans ces conditions, cette algorithmie si puissante est incompatible, en l’état, avec le principe de Traçabilité. C’est par exemple pour cette raison que le DARPA a choisi d’y dédier un programme de recherche complet (“Explainable AI “).

Côté matériel et capacités de calcul, il n’aura échappé à personne que les grandes offres d’IA aujourd’hui se manifestent à travers des services web. La tendance à se tourner vers des architectures de type “Cloud” est amplifiée par les besoins en temps de calcul, en mémoire de stockage et de calcul qui accompagnent le déploiement de systèmes apprenants. Avec son offre “Cloud TPU” orientée strictement ML, Google permet par exemple d’accéder à des ressources computationnelles de l’ordre de plusieurs pétaflops. Déployer dans le Cloud soulève toutefois deux problèmes en termes de cybersécurité : celui de la disponibilité du service (sans accès à internet, ou en cas de déni de service, pas d’accès à la ressource logicielle) ainsi que celui de la confidentialité (quelles sont les autres personnes qui ont accès à la donnée hébergée ailleurs que dans l’entreprise). La mise en place de capacités de type “Sécurité du Cloud”, qui existe déjà dans le monde informatique classique, s’impose comme un prérequis dans le cas d’une IA déployée à distance.

Garantir l’intégrité de la donnée

Enfin, c’est au niveau de la donnée elle-même que l’IA présente un caractère remarquablement innovant en termes de cybersécurité. La capacité des IAs apprenantes à construire leur propre représentation d’un problème dépend de la quantité et de la qualité de la donnée fournie à l’apprentissage. Une fois appris, le modèle est figé et déployé dans un environnement que l’on espère représentatif. Nous savons aussi qu’une IA n’est a priori pas parfaite et susceptible de commettre des erreurs. Le risque vient de ce qui peut, dans un premier temps, causer l’erreur, voire dans un second temps la contrôler, en modifiant même légèrement la donnée analysée par le système. L’exemple des travaux de Nicolas Papernot chez Google Brain sur le “Data Poisoning” en est une bonne illustration. Il s’agit là d’une faiblesse intrinsèque à l’IA apprenante qui pose la question de l’intégrité de la donnée exploitée. Sans garantie à ce niveau, toute organisation s’appuyant sur cette donnée pour en en extraire une plus-value prend le risque que le calcul effectué ne reflète pas la réalité du terrain et produise un résultat contre-productif, voire létal. Par exemple, à travers une manipulation de la donnée en entrée d’un système de maintenance prédictive, il est possible de comprendre que la sécurité d’un système d’IA apprenant nécessite une approche dédiée à la sécurisation des données.

Dans ce contexte, qu’attendre d’une IA apprenante à ce jour ? Une des lois empiriques qui a cours dans le milieu de l’Apprentissage Automatique est celle de la seconde de réflexion : “on peut automatiser par Machine Learning ce qui prend à un humain une seconde de réflexion à résoudre, pourvu qu’une quantité massive de données soit disponible”.  

L’IA apprenante s’appuie sur un triangle défini par l’Algorithmie, la capacité de Calcul et la Donnée (le triangle ACD). Chacun de ses piliers présentent des faiblesses. Toutes ne sont pas liées à la sécurité, et se retrouvent à des niveaux techniques ou fonctionnels. Il est aujourd’hui question de prise de conscience et de mobilisation par rapport aux enjeux et au potentiel de l’IA, qu’il s’agirait d’encadrer de manière éthique, il faudrait donc commencer plutôt par nous pencher sur la question de sa sécurité. Trop longtemps reléguée au second rôle, la sécurité des systèmes informatiques est un moyen simple, concret et somme toute naturel de s’assurer que l’IA fasse ce qui est attendue d’elle. L’apparition de l’IA annonce peut-être un replacement de la cybersécurité au centre des préoccupations de développement.

Computational Neurosciences PhD, Rudy Guyonneau joined Sopra Steria to lead the Data Science effort in cybersecurity and co-animate Sopra Steria’s innovation projects.
Leave a comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *