Sécurité sociale (branche famille) Données massives (big data) Conduite de projet La mise en place du big data à la Caisse nationale des allocations familiales Stéphane Donné Stéphane Donné Publié le 21/10/25 L'auteur Stéphane Donnée est responsable du département des statistiques, systèmes d’information et Big Data (BIGSTAT) à la Direction des statistiques, des études et de la Recherche (DSER) de la CNAF. Fermer L'auteur Stéphane Donnée est responsable du département des statistiques, systèmes d’information et Big Data (BIGSTAT) à la Direction des statistiques, des études et de la Recherche (DSER) de la CNAF. Dans la branche famille de la sécurité sociale, les techniques de datamining ont permis de classer des dossiers à risque. Appliquées initialement aux indus (trop perçus pour les allocataires) et à la problématique de leur recouvrement, ces techniques de traitement de données ont été étendues à la problématique de l’accès aux droits. Aujourd’hui, le terme de data science englobe l’ensemble des techniques statistiques habituelles en les utilisant parfois de manière différente. Ainsi, l’apprentissage machine (machine learning) peut faire appel aux modèles statistiques dits de régression connus depuis longtemps. Nous pourrions donc renommer le datamining en apprentissage machine supervisé ! Mais il inclut également des techniques plus nouvelles comme l’analyse textuelle ou d’images, la recherche de données sur le web pour les exploiter (web mining) ou la datavisualisation dotée de tableaux de bord interactifs. Ces technologies dites du big data, que l’on souhaite mettre en œuvre sans savoir pour autant ce qu’elles recouvrent, ont pour dominateur commun le traitement de données très volumineuses et/ou de nature très variée (textes, images, etc.) dans une application ou pour produire de la connaissance. On parle communément des 3 V : le Volume qui permet de traiter des masses de données qui ne peuvent l’être qu’avec les technologies actuelles, en utilisant des architectures adaptées et des méthodes statistiques particulières ; la Variété avec une diversité de la donnée : textes, vidéos, graphes, audios, sons, journaux de navigation (les traces laissées sur les sites internet) ; la Vitesse avec la problématique du traitement en temps réel (être capable pour la CNAF de détecter la fraude à l’instant t). La mise en place de la démarche Cinq principes ont guidé le lancement de la démarche dont la mise en place a été engagée en 2017, à la suite d’une réflexion initiée en 2016. 1. L’adoption d’une démarche collective Les porteurs du projet ont souhaité impliquer largement le personnel. Le big data ne doit pas être réservé à des initiés car les besoins à couvrir peuvent toucher absolument tout le monde dans l’organisation. 2. Une mise en œuvre dans la durée Le projet s’inscrit dans un temps long (plusieurs années), avec beaucoup d’énergie consacrée à l’explication la démarche, à la rencontre et la sensibilisation des collègues. 3. Une démarche pilotée en dehors de la direction informatique La démarche ne devait pas être initiée par la DSI et cela pour une raison simple : il ne faut pas prendre le big data à travers l’angle des outils. La clé d’entrée est celle des besoins. 4. Un choix raisonné : passer par des projets expérimentaux Ce choix était stratégique afin de ne pas condamner la démarche à terme. Un projet expérimental trop ambitieux risquait de ruiner la démarche et sa démonstration. Cinq projets ont été retenus, en sachant très bien que toutes les expériences ne réussiraient pas. Assez vite, les projets non prometteurs ont été abandonnés pour se concentrer sur un projet phare. 5. Une réflexion sur les profils des nouveaux métiers Dans le monde « d’avant », il y avait les statisticiens puis sont arrivés les data scientists, les data architectes, le monde s’est complexifié. Dans notre cas, il a été nécessaire de définir ces nouveaux métiers en termes de rémunérations et de compétences. Il a fallu créer de nouvelles grilles d’évaluation en interne dans le cadre de la démarche de recrutement. De solides rémunérations sont proposées dans le secteur privé. La CNAF connaît les contraintes du public. Cela a conduit à s’interroger sur les atouts à mettre en avant pour attirer les data scientists dont la CAF avait besoin. Les équipes sont parvenues à la conclusion suivante : dans le privé, on offre de la recommandation en ligne, la CAF offre pour sa part des applications professionnelles dans des domaines sociaux pour des jeunes en quête de sens. Une autre réflexion a dû être menée autour de la crainte que très vite ces métiers ne soient remplacés : comment expliquer les impacts du big data sur les emplois ? Les échanges ont permis de conclure que les algorithmes savent très bien réaliser des tâches très ciblées, mais ne prennent pas en charge des tâches transversales et conventionnelles. L’évolution des métiers de la CAF passe aussi par le CSE. Le sujet de l’adhésion des agents en passant par le CSE est indispensable. Un exemple de réalisation : l’outil de repérage de la fraude à enjeu, GrafAlloc GraffAlloc est l’« outil de proue » du contrôle de la fraude organisée. La CNAF doit combattre deux types de fraude : la fraude individuelle pour laquelle le contrôle est pratiqué depuis longtemps, et la fraude en réseau qui est aujourd’hui une fraude « à enjeu ». Dans la lutte contre ce second type de fraude, un prestataire externe a constaté en 2015 qu’il n’était pas possible de relier les bases entre elles et de croiser une série de données. Traiter cette problématique grâce au big data a fait son chemin et l’outil GraffAlloc a vu le jour. Il vise à préparer le travail des contrôleurs. En leur fournissant des indices et des configurations sur lesquelles ils souhaitent travailler, il permet d’orienter leur action. La plateforme s’appuie sur des principes de fraudes, par exemple, les démarches en ligne depuis l’étranger, l’utilisation du téléphone. Le même numéro de téléphone peut être repéré en utilisation unique en quelques secondes sur l’ensemble du territoire. Le lien avec les activités et les données personnelles des exploitants de l’ensemble de ce numéro de téléphone peut être identifié. Autres exemples : l’application produit un rapport graphique mensuel sur les trop perçus, l’analyse des parcours possibles. Avec cet outil très puissant, les contrôleurs (une trentaine sur les 38 000 salariés que compte la CNAF) peuvent explorer les données et soumettent des cas. Les data scientists font évoluer l’outil en fonction des requêtes informatiques qui leur sont adressées (sous forme de tableaux ou de graphes). Des données très volumineuses sont ainsi exploitées de manière très visuelle grâce à des techniques pointues. La poursuite de la démarche : mise en perspective Après cette première période de mise en place, correspondant à la période couverte par la convention d’objectifs et de moyens liant la branche famille de la sécurité sociale et l’Etat, une nouvelle période de cinq ans s’ouvre. Plusieurs questions structurantes se posent. Le rythme de développement : faut-il poursuivre selon un rythme prudent, consistant à utiliser la première moitié de la période à venir pour mettre en place les fondamentaux et la seconde partie pour industrialiser certains prototypes ? Ou est-il préférable d’accélérer plus tôt avec des actions plus visibles en acceptant des risques d’échecs partiels ? Les moyens engagés : sujet corollaire du précédent, comment doter la branche de moyens supplémentaires pour développer cette nouvelle activité ? Comment attirer et fidéliser les data scientists ? Comment leur créer des conditions de travail favorables, en particulier un accès très large aux données et, si possible, un fonctionnement souple. Dans quelles conditions faire appel à des prestataires externes, pour des projets complets ou de manière mixte avec des data scientists de la branche ? Comment attirer des stagiaires, des personnes en alternance ? Le choix des sujets à traiter : quels domaines traiter en priorité ? plutôt des sujets internes de back office, par exemple la gestion des flux de courriels, pour optimiser les procédures et réduire les risques en cas d’échec ? Ou bien des thèmes orientés plus directement vers les allocataires, mais plus risqués ? Est-il envisageable de traiter des sujets exploitant les données en temps réel ou faut-il s’attacher aux domaines permettant d’exploiter les données de manière plus différée ? Le choix des infrastructures techniques : faut-il traiter la totalité des projets de big data dans une infrastructure distante (cloud) afin d’espérer limiter les coûts ? Est-il envisageable de conserver une installation sur site pour des sujets sensibles et pour des enjeux de souveraineté numérique ? Le pilotage de la démarche : comment construire une comitologie adaptée ? Faut-il opter pour une architecture classique avec comités stratégiques et opérationnels ? Ou faut-il bâtir une structure plus souple ? L’association des caisses locales : est-il préférable de retenir une organisation centralisée avec la participation des CAF à des projets innovants ? Ou davantage décentralisée ? Le lien avec les autres branches de la sécurité sociale : aujourd’hui limité à des partages d’expérience, comment l’intensifier ? En développant des projets transversaux qui nécessiteront de résoudre des obstacles juridiques, techniques et organisationnels ? En travaillant plus séparément, mais sur des bases de données mutualisées ? La communication autour du projet : comment la réaliser auprès du réseau ? À l’extérieur de la branche famille? Faut-il organiser des événements du type hackathon pour permettre à des data scientists extérieurs d’exploiter les données ? Article précédent Article suivant Article précédent Une brève histoire de l’information dans le monde bancaire à partir d’une expérience singulière Article suivant Transformations numériques du travail et régulations organisationnelles : quelques illustrations Ceci pourrait vous intéresser Les principaux usages de l’IA en GRH au Québec L’IA en RH au Québec améliore recrutement, gestion des talents et compétences, mais l’usage génératif pour rédiger des documents suscite des inquiétudes en raison des risques liés à un usage trop rapi... Québec Qu’entend-on par gestion algorithmique des salariés ? ... Québec Relever le défi de l’industrie 4.0 dans l’aérospatiale au Québec : quel est le point clef retenir ? ... Québec Tout découvrir