Le fichier SIRENE est probablement la base de données B2B la plus sous-exploitée par les équipes growth françaises. Tenu par l'INSEE, il recense officiellement chaque entreprise et établissement actif en France, avec une mise à jour quotidienne et un accès 100% gratuit via API. Pourtant, la plupart des SDR continuent d'acheter des bases tierces sans réaliser que leur source amont, c'est SIRENE. Ce guide démonte la mécanique : structure d'un enregistrement, accès API, filtres ICP, conformité RGPD, et comment l'enrichir avec Apollo, Pharow ou Dropcontact.
TL;DR : SIRENE en 30 secondes
Le fichier SIRENE, c'est le référentiel officiel des entreprises françaises tenu par l'INSEE. Accès gratuit via API, 39M d'établissements, mise à jour quotidienne. Base amont de 90% des outils de prospection FR.
Points clés
- SIRENE = Système Informatique pour le Répertoire des Entreprises (INSEE, 2026).
- Volume : ~39M d'établissements, dont ~13,3M actifs début 2026 (INSEE).
- Accès gratuit : API Sirene v3.11 sur api.insee.fr et fichiers stocks sur data.gouv.fr.
- Champs exploitables : SIREN, SIRET, NAF/APE, tranche d'effectif, date de création, géolocalisation.
- Légalité prospection B2B : intérêt légitime RGPD, sous conditions strictes (CNIL).
Qu'est-ce que le fichier SIRENE et qui le maintient ?
Le fichier SIRENE est le répertoire officiel des entreprises françaises géré par l'INSEE depuis 1973. Il contient 39 millions d'établissements (actifs et fermés) et environ 13,3 millions d'établissements actifs début 2026 selon les statistiques INSEE. Chaque entité reçoit un identifiant unique, le SIREN ou SIRET, dès son immatriculation.
L'acronyme signifie Système Informatique pour le Répertoire des Entreprises et de leurs Établissements. Concrètement, c'est la source amont qui alimente l'INPI, les greffes, l'URSSAF et la plupart des outils de data B2B FR. Quand Pappers ou Societe.com affichent une fiche entreprise, ils consomment SIRENE en arrière-plan.
SIREN vs SIRET : la confusion à éviter
Le SIREN identifie l'entité juridique sur 9 chiffres. Le SIRET identifie un établissement physique sur 14 chiffres (SIREN + 5 chiffres NIC). Une entreprise multi-sites a un seul SIREN mais plusieurs SIRET. Cette distinction change tout pour le ciblage géographique : prospecter une enseigne de retail au niveau SIRET, oui ; au niveau SIREN, vous tapez le siège social uniquement.
Comment accéder gratuitement au fichier SIRENE ?
L'accès est intégralement gratuit depuis l'ouverture en open data du répertoire en janvier 2017, suite à la loi pour une République numérique de 2016. Trois canaux coexistent selon votre besoin volumétrique : l'API Sirene pour des requêtes ciblées, les fichiers stock complets, et l'interface de recherche unitaire.
API Sirene v3.11 : pour les requêtes structurées
L'API Sirene permet 30 requêtes par minute en accès anonyme et jusqu'à 500 par minute après création d'un compte développeur. Elle expose les endpoints /siren, /siret et /informations. La syntaxe de requête supporte les filtres logiques (ET, OU) sur tous les champs : code NAF, tranche effectif, département, statut actif.
Fichiers stock sur data.gouv.fr
Pour ingérer la base entière, data.gouv.fr publie chaque mois un dump complet (StockEtablissement, StockUniteLegale) au format CSV. Comptez ~12 Go décompressé pour le stock établissements. Solution préférée pour bâtir un data warehouse interne et croiser avec d'autres signaux (levées de fonds, recrutements, web traffic).
Quelles données contient un enregistrement SIRENE ?
Une fiche établissement contient une centaine de variables exploitables, dont la documentation officielle INSEE liste 95 champs pour StockEtablissement et 47 pour StockUniteLegale. La majorité sont déclaratifs (mis à jour par l'entreprise) mais certains sont calculés par l'INSEE comme la catégorie juridique ou la tranche d'effectif.
Les champs critiques pour le growth
- SIREN/SIRET : clé de jointure universelle avec tout autre dataset FR.
- Code NAF/APE (5 caractères) : nomenclature d'activité française, ~730 codes, mappable sur SIC ou NACE.
- Tranche effectif salarié : 13 tranches (de 0 salarié à 10000+), basée sur la déclaration sociale nominative.
- Date de création : précieux pour cibler les jeunes entreprises (signal d'achat outils SaaS).
- Adresse géocodée : commune, département, région, coordonnées Lambert 93.
- État administratif : actif (A) ou cessé (C). Toujours filtrer sur A pour la prospection.
Ce que SIRENE ne contient pas : chiffre d'affaires, résultat net, dirigeants, emails. Pour ces données, il faut croiser avec les comptes annuels de l'INPI (Registre National des Entreprises) ou les API d'enrichissement.
Comment utiliser SIRENE pour la prospection B2B ?
SIRENE devient un levier growth quand on l'utilise comme couche de filtrage ICP avant enrichissement. Selon une étude HubSpot publiée en 2025, 50% des prospects ne sont pas adaptés au produit. Filtrer en amont sur SIRENE divise par deux le coût d'enrichissement aval et améliore mécaniquement les taux de réponse cold email.
Workflow type d'une équipe sales B2B
Étape 1 : définir l'ICP en codes NAF (ex : 6201Z programmation informatique, 7022Z conseil pour les affaires). Étape 2 : extraire le sous-ensemble SIRENE correspondant (filtres effectif + département + état actif). Étape 3 : enrichir avec Pharow, Apollo ou Dropcontact pour récupérer décideurs, emails et signaux d'intent. Étape 4 : router vers la séquence cold email ou LinkedIn Ads.
Les filtres ICP qui marchent vraiment
Trois combos rentables observés sur des dizaines de campagnes : (1) NAF + tranche effectif 10-49 = sweet spot SaaS midmarket ; (2) date de création < 24 mois + département IDF = early adopters ; (3) NAF retail + multi-établissements (>5 SIRET) = comptes ABM grands comptes. Les codes NAF mal renseignés restent un piège classique. Toujours valider sur 50 fiches manuellement avant de scaler.
La prospection sur SIRENE est-elle légale au regard du RGPD ?
Oui, sous conditions. La CNIL autorise la prospection B2B sur la base de l'intérêt légitime, à condition que le message soit en lien avec la fonction professionnelle du destinataire. Pas besoin d'opt-in préalable pour un email pro, contrairement au B2C. Mais l'opt-out doit être visible et fonctionnel sur chaque message.
Trois règles non négociables : informer le prospect de la source des données dès le premier contact, proposer un lien de désinscription opérationnel, traiter toute demande d'effacement sous 30 jours. SIRENE étant une base publique, vous êtes couverts pour la légalité de la collecte. La friction réglementaire se déplace sur l'enrichissement aval, notamment quand vous récupérez des emails nominatifs scrappés.
Données personnelles dans SIRENE : le cas des entrepreneurs individuels
Depuis avril 2022, l'INSEE applique un droit d'opposition pour les entrepreneurs individuels et micro-entrepreneurs. Environ 2,5 millions de personnes physiques ont coché la case non-diffusion. Vous devez exclure ces enregistrements de toute prospection commerciale, sous peine de sanction CNIL. Filtrer sur le champ statutDiffusionUniteLegale = O (oui, diffusable).
Quelles alternatives au fichier SIRENE en 2026 ?
SIRENE reste la source amont, mais son interface brute rebute les non-techniques. Plusieurs acteurs ont bâti des couches UX au-dessus, tous reposent sur les mêmes données INSEE. Selon le Journal du Net, les trois interfaces les plus consultées par les commerciaux FR sont Pappers, Societe.com et Infogreffe.
Pappers, Societe.com, Infogreffe : que choisir ?
- Pappers : interface moderne, API freemium, comptes annuels intégrés. Le plus utilisé par les sales en 2026.
- Societe.com : historique du marché, mais UX datée et nombreux contenus payants masqués.
- Infogreffe : source officielle des greffes, parfait pour Kbis et actes juridiques, mais prix au document.
- API Sirene directe : la seule option si vous bâtissez un produit ou un data warehouse à >100k requêtes/mois.
Le bon arbitrage dépend du volume. Sous 10k fiches/mois, Pappers gratuit suffit. Au-dessus, l'API INSEE directe reste imbattable côté coût (zéro) et fraîcheur (J+1). Pour une stratégie growth marketing data-driven, l'ingestion directe SIRENE crée un avantage durable.
FAQ
Comment télécharger gratuitement le fichier SIRENE complet ?
Rendez-vous sur data.gouv.fr, section base SIRENE. Téléchargez StockEtablissement.zip (~3 Go compressé) et StockUniteLegale.zip. Mise à jour mensuelle, format CSV UTF-8. Aucune inscription nécessaire. Pour le delta quotidien, abonnez-vous au flux StockEtablissementHistorique.
Quelle différence entre fichier SIRENE et registre du commerce ?
SIRENE recense toutes les entreprises (commerçants, artisans, libéraux, associations employeuses), soit 13,3M d'établissements actifs. Le registre du commerce et des sociétés (RCS) ne contient que les commerçants et sociétés commerciales, environ 6M d'entités. SIRENE est plus large, le RCS plus juridique avec actes et statuts.
Peut-on faire du cold email sur des contacts extraits via SIRENE ?
SIRENE ne fournit pas d'emails nominatifs. Vous devez enrichir via Dropcontact, Kaspr ou Apollo. Le cold email B2B est légal sous intérêt légitime RGPD, à condition d'opt-out visible et de ciblage par fonction. La CNIL recommande de mentionner la source dès le premier message.
Combien d'entreprises sont créées chaque année selon SIRENE ?
L'INSEE a enregistré 1 111 200 créations d'entreprises en 2024 en France, dont 64% de micro-entreprises. Ce flux alimente SIRENE en quasi-temps réel via les CFE. Pour les SaaS B2B, la cohorte des sociétés commerciales (hors micro) reste le segment activable, soit ~400k créations annuelles.
L'API Sirene a-t-elle une limite de requêtes ?
Oui : 30 requêtes/minute en anonyme, 500/minute avec compte développeur sur api.insee.fr. Pas de quota journalier. Pour des volumes >1M de fiches, préférez le téléchargement du stock mensuel sur data.gouv.fr puis ingestion locale. La latence API monte à 200-400ms par requête, donc inadaptée au scraping massif.
Passer de la donnée brute à la pipeline qualifiée
SIRENE n'est pas une solution clé en main, c'est une matière première. Sa vraie valeur émerge quand vous le couplez à une couche d'enrichissement (emails, signaux d'intent) et à un workflow d'activation propre. Les équipes growth qui gagnent en 2026 ne sont pas celles qui paient le plus cher leur data B2B, ce sont celles qui l'ingèrent à la source et la qualifient finement.
Si vous voulez transformer cette base en pipeline qualifié, l'enjeu se déplace sur le ciblage ICP, la séquence de contact et la conformité. Notre équipe accompagne des scale-ups B2B sur ce stack exact, de l'extraction SIRENE jusqu'à la séquence cold email opérée. Pour aller plus loin, parcourez les autres articles du blog Uclic sur l'outbound data-driven.



