Sources de données

13 jeux publics agrégés. Pour chaque source : organisme, URL canonique, format, snapshot, couverture, script de prep.

Toutes les sources sont publiques, ouvertes (data.gouv.fr ou portails open data des opérateurs publics), et téléchargeables sans authentification. Aucune donnée individuelle.

13
sources data.gouv
~1,4 GB
de raw downloaded
15
scripts R de prep
35 798
communes couvertes
2018-2026
amplitude snapshots

Récapitulatif des 13 sources

Source Organisme Couverture Snapshot Script
🗳️ Législatives 2024 (T2 + T1 fallback) Min. Intérieur ~35 000 communes 2024-07-10 02_elections.R
🏛️ Municipales 2026 (T1 + T2) Min. Intérieur ~3 300 communes 2026-03-23 12_municipales_2026.R
🏠 DVF Demandes de Valeurs Foncières DGFiP / Etalab 655 495 ventes 2021-2024 03_dvf_aggregate.R
🌬️ Indice ATMO qualité de l'air Atmo France ~25 000 communes 30 j glissants 04_air_atmo.R
🚨 SSMSI Délinquance + BAAC Accidents Min. Intérieur (SSMSI) + ONISR ~18 000 + 11 099 communes 2025 / 2024 07_ssmsi_dgfip.R, 11_baac.R
💶 Comptes communaux DGFiP DGFiP ~35 000 communes 2024 07_ssmsi_dgfip.R
⚕️ APL 5 professions DREES DREES ~35 000 communes 2023 08_drees_apl.R
⚕️ Espérance de vie INSEE INSEE ~28 000 communes 2024 09_esperance_vie.R
📊 FiLoSoFi Revenus disponibles INSEE ~30 000 communes 2021 10_filosofi_densite_defm.R
👥 Populations + Grille densité INSEE INSEE ~35 000 communes 2017-2024 06_insee_populations.R, 10_…
🏭 DEFM Chômage cat. A+B+C DARES ~7 400 communes 1 trimestre 10_filosofi_densite_defm.R
🔥 Empreinte carbone par habitant RARE / CITEPA ~34 800 communes 2018 (base) 13_energie_carbone.R
🚗 MOBPRO mobilité domicile-travail INSEE (RP 2019) ~34 800 communes 2019 (publié 2023) 14_mobilite.R, 16_mobilite_flows.R
🌱 Agence Bio surfaces + opérateurs Agence Bio 23 100 communes 2024 15_agriculture_bio.R

🗺️ Contours géographiques

Polygones IGN/OSM simplifiés pour les cartes leaflet.

Contours départements

IGN / OpenStreetMap (dépôt gregoiredavid)
URLfrance-geojson.gregoiredavid.fr/repo/departements.geojson (métropole) + 5 fichiers DROM séparés
FormatGeoJSON, EPSG:4326 (WGS84)
TraitementSimplification Visvalingam-Whyatt via rmapshaper::ms_simplify(keep = 0.20) → 96 + 5 = 101 polygones, ~299 KB.
Scriptscripts/01_geo_boundaries.R
L'endpoint officiel geo.api.gouv.fr/departements?geometry=contour&format=geojson ignore geometry et renvoie les attributs sans géométries. D'où l'usage du dépôt gregoiredavid (standard dans la communauté data science francophone).

Contours communes

IGN / OpenStreetMap (dépôt gregoiredavid)
FormatGeoJSON, EPSG:4326
Traitementrmapshaper::ms_simplify(keep = 0.04) → 35 927 polygones, ~16 MB (vs 23 MB en entrée).
Scriptscripts/01_geo_boundaries.R

🏛️ Politique

Élections nationales et locales par commune, codes nuances Ministère de l’Intérieur.

Législatives 2024 — 2nd tour par commune

Ministère de l'Intérieur · data.gouv.fr
DatasetElections législatives des 30 juin et 7 juillet 2024 - Résultats définitifs du 2nd tour
URL stablestatic.data.gouv.fr/resources/elections-legislatives-…/resultats-definitifs-par-commune.csv (11.6 MB)
FormatCSV ; séparateur ; ; décimales , ; UTF-8 ; structure wide (1 ligne / commune, blocs de colonnes par candidat 1…25)
Couverture31 392 communes au T2 + 6 026 T1-only via fallback = ~37 400 entrées
Snapshot2024-07-10 (publication MI)
Scriptscripts/02_elections.R
Les ~6 000 communes décidées au 1er tour sont récupérées via le fichier T1 (~77 MB) et basculées sur le résultat T1. La colonne tour trace la nature du résultat affiché.

Municipales 2026 — T1 + T2

Ministère de l'Intérieur · data.gouv.fr
Dataset ID T14feeef01-24f7-4d5a-914f-8aa806f31ec2 (13.8 MB CSV)
Dataset ID T26ff67a28-01bf-459e-beca-dd7aa8132dc1 (873 KB CSV)
StratégieT2 prioritaire (1 526 communes) + T1 fallback (1 779 décidées au 1er tour) = 3 305 communes ≥ 1 000 hab. Colonne tour trace le tour décisif.
Snapshot2026-03-23
Scriptscripts/12_municipales_2026.R
Les ~32 000 communes < 1 000 hab. utilisent le scrutin majoritaire individuel et n'apparaissent pas dans le fichier source. Affichées en beige neutre sur la carte.

💶 Économie

Immobilier (DVF), finances communales (DGFiP), revenus des ménages (FiLoSoFi INSEE).

DVF — Demandes de Valeurs Foncières géolocalisées

DGFiP · Etalab · 4 années 2021-2024
URLfiles.data.gouv.fr/geo-dvf/latest/csv/{YYYY}/full.csv.gz (50-120 MB par année compressé)
Filtres
  • nature_mutation = "Vente"
  • type_local ∈ {"Appartement", "Maison"}
  • surface_reelle_bati > 9 m²
  • Bornes prix/m² : [200, 30 000] €/m²
  • Mutations mono-local uniquement
AgrégationMédiane par commune × année × type → 148 019 lignes sur 655 495 ventes filtrées. N < 5 ventes/an → estimation_insuffisante.
Scriptscripts/03_dvf_aggregate.R (duckdb stream)
DVF ne couvre pas Mayotte (régime fiscal spécifique). Alsace-Moselle a un régime de publicité foncière distinct → couverture imparfaite en Bas-Rhin et Haut-Rhin.

DGFiP — Comptes individuels des collectivités

DGFiP · Direction Générale des Finances Publiques · 2024
VariablesRecettes, charges, dette, CAF (capacité auto-financement) en €/habitant. Taux de 3 taxes locales : habitation, foncier bâti, foncier non bâti.
Couverture~35 000 communes
Scriptscripts/07_ssmsi_dgfip.R

FiLoSoFi — Fichier Localisé Social et Fiscal

INSEE · revenu fiscal des ménages · 2021
VariablesRevenu disponible médian, déciles D1 et D9, indice de Gini, % ménages imposés, part des prestations sociales, part de l'activité dans le revenu.
FormatCSV séparateur ; (français), UTF-8
Couverture~30 000 communes (secret stat pour les très petites)
Scriptscripts/10_filosofi_densite_defm.R

🌍 Environnement

Qualité de l’air (Atmo France) et empreinte carbone consommation (RARE/CITEPA).

Indice ATMO — qualité de l'air quotidien

Atmo France · data.gouv.fr
Variablescode_qual (ATMO global 1-6), sous-indices NO₂, O₃, PM₁₀, PM₂.₅, source AASQA, coordonnées station.
SnapshotAgrégé sur 30 jours glissants (vs jour J brut, trop volatil)
EPCI expansionBretagne (Air Breizh), Occitanie (Atmo Occitanie), Pays de la Loire (Air PdL) publient par EPCI → on étend la valeur sur les communes membres.
Couverture~25 000 communes (métropole + Guadeloupe + Martinique seulement pour DROM)
Scriptscripts/04_air_atmo.R
Guyane, Réunion, Mayotte non couvertes par les AASQA → absentes des cartes air.

Empreinte carbone territorialisée — approche conso

RARE (Réseau Agences Régionales Énergie/Environnement) · CITEPA · 2026
Dataset ID698324c8e8ca100aa8807fd2
Resource CSV404b1641-8ad7-4eb1-b70b-51b48a8829eb (27 MB)
MéthodeEXIOBASE 2018 (input-output multi-régional) × inventaire CITEPA, alloué par commune via structures de revenu/dépense locales.
Variablescarb_hab_total (tCO₂eq/hab/an, empreinte consommation). Médiane FR ≈ 7,9. Cible Accord de Paris : 2 t/hab d'ici 2050.
FormatCSV long (CODGEO, NOM_INDIC, VALEUR_INDIC, UNITE_INDIC), pivoté en wide à l'import.
Couverture34 816 communes (DROM partiel)
Snapshot2026-02-04 (publication), base 2018
Scriptscripts/13_energie_carbone.R
Empreinte conso ≠ émissions territoriales. Reflète le mode de vie des habitants (logement, transport, alimentation), pas la localisation des usines. Outliers > 50 tCO₂eq/hab = très petites communes au profil de consommation atypique.

🚨 Sécurité

Délinquance enregistrée et accidents corporels, deux sources Min. Intérieur.

SSMSI — Délinquance enregistrée par commune

Service Statistique Ministériel de la Sécurité Intérieure · 2025
Variables8 indicateurs ‰ habitants : cambriolages, vols personnes, vols véhicules, violences sexuelles, dégradations, trafic stupéfiants, usage stupéfiants, total.
Couverture~18 000 communes (après secret stat)
Scriptscripts/07_ssmsi_dgfip.R
Secret statistique : taux non publié si moins de 5 faits cumulés sur 3 ans. Les ~17 000 communes les plus petites sont en "non publié" (gris sur la carte).

BAAC — Bulletin d'analyse des accidents corporels

ONISR / Min. Intérieur · 2024
VariablesCompte d'accidents corporels par commune, normalisé en ‰ habitants (joint avec pop_latest).
Couverture11 099 communes ayant ≥ 1 accident en 2024
Scriptscripts/11_baac.R

⚕️ Santé

Accès aux soins (DREES) et espérance de vie (INSEE).

APL — Accessibilité Potentielle Localisée (5 professions)

DREES · Direction Recherche, Études, Évaluation, Statistiques · 2023
Professions
  • Médecins généralistes (tous + ≤65 ans pour soutenabilité future)
  • Infirmières
  • Sages-femmes
  • Dentistes
  • Kinésithérapeutes
UnitéMédecins : consultations/an/habitant. Seuil désert médical < 2,5 (DREES). Autres pros : ETP/100k habitants.
Couverture~35 000 communes
Scriptscripts/08_drees_apl.R

Espérance de vie INSEE par commune

INSEE · 2024
VariableEspérance de vie à la naissance, années, par commune. Médiane nationale ~83 ans.
Couverture~28 000 communes (81,6% match)
Scriptscripts/09_esperance_vie.R
INSEE ne publie pas le code commune INSEE dans ce fichier. Join par nom commune + département normalisé → 81,6% de taux de match. Les 18,4% non-match sont les communes au nom homonyme ou avec un nom INSEE différent du nom usuel.

👥 Population & social

Démographie INSEE (recensement + grille densité) et chômage DARES.

Populations INSEE — recensement

INSEE · recensement 2017-2021
Variablespop_latest (recensement le plus récent disponible), strate de taille (5 niveaux : Très petite < 500, Rurale 500-2 000, Bourg / périurbain 2 000-10 000, Ville moyenne 10 000-50 000, Grande ville ≥ 50 000).
Couverture~35 000 communes
UsageBase de stratification dans l'Explorer (corrélations × 5 strates). Variable population fournit le dénominateur pour tous les taux ‰.
Scriptscripts/06_insee_populations.R

Grille de densité INSEE — typologie 6 niveaux

INSEE · 2024
Niveaux
  1. Rural non périurbain
  2. Rural périurbain
  3. Petites villes
  4. Centres urbains intermédiaires
  5. Ceintures urbaines
  6. Grands centres urbains
UsagePalette catégorielle sur la page Démographie + variable continue densite_rang (1-6) dans Explorer et Bivariée.
Scriptscripts/10_filosofi_densite_defm.R

DEFM — Chômage cat. A+B+C par commune

DARES · Direction Animation Recherche Études Statistiques
VariableDemandeurs d'Emploi en Fin de Mois, catégories A (sans activité) + B (réduite courte) + C (réduite longue). Normalisé en taux ‰ habitants.
Couverture~7 400 communes seulement (DARES ne publie pas pour les plus petites)
Scriptscripts/10_filosofi_densite_defm.R

MOBPRO — Mobilité domicile-travail (RP 2019)

INSEE · Recensement de la population · 2019 (publié 2023)
Dataset ID63db95ccf8de145951fa5fa3
Resource ZIPf3f22487-22d0-45f4-b250-af36fc56ccd0 (82 MB ZIP → ~500 MB CSV)
Format sourceFichier détail : ~5 M lignes, 1 ligne = 1 actif occupé pondéré (IPONDI).
Variables clés
  • COMMUNE = commune de résidence
  • DCLT = commune lieu de travail
  • IPONDI = pondération individuelle
  • TRANS = mode (RP 2019 : 1=pas, 2=marche, 3=vélo, 4=2RM, 5=voiture, 6=TC)
AgrégationVia duckdb : mob_pct_emploi_local, mob_pct_voiture/tc/velo/pied, mob_top_dest_code/flux. Pour le Sankey, consolidation PLM (script 16_mobilite_flows.R).
Couverture34 850 communes de résidence
Scriptsscripts/14_mobilite.R + scripts/16_mobilite_flows.R
⚠ INSEE a révisé le codage TRANS au RP 2017+ : le mode 5 = voiture (pas TC comme dans les anciens RP). Bug initial a confondu, fix documenté dans decisions.html.

🌱 Agriculture

Agriculture biologique certifiée (Agence Bio).

Agence Bio — Surfaces, opérateurs, cheptels

Agence Bio · données communales certifiées 2008-2024
Dataset ID61a6250d8660681353681fa8
Resources
  • SAU bio (33 MB CSV séparateur virgule) : b7ce51bf-5675-4843-b618-247ef209416d
  • Opérateurs (89 MB CSV séparateur point-virgule) : 130c2031-0b6a-45b2-aa42-23114f21a730
Variables
  • bio_surface_ha : AB certifiée + en conversion (C1+C2+C3), ha
  • bio_surface_ab : certifiée AB seule
  • bio_n_exploit : nombre d'exploitations bio
  • bio_n_operateurs : exploitations + transformateurs + distributeurs
Couverture23 100 communes en 2024 (les ~12 000 sans aucune exploitation bio n'apparaissent pas dans le fichier source).
Scriptscripts/15_agriculture_bio.R
Fichier opérateurs en long (1 ligne par production × activité) → on agrège par sum(nboperateur) par commune × année avant l'analyse. Distribution skewée : médiane 47 ha, max 16 817 ha → échelle log_quantile sur la carte.

🔬 Données dérivées (Explorer + Bivariée)

Artefacts construits à partir des 13 sources brutes pour les pages d’analyse.

Commune merged + corrélations + bivariate bins

Pipeline interne · merge de toutes les sources
Source amontToutes les sources ci-dessus, jointes sur code_commune (PLM répercuté via plm_map).
Artefacts
  • commune_merged.parquet — 1 ligne / commune × 49 variables
  • correlations.parquet — paires × méthode × strate (15 912 lignes : 49×49/2 × {Spearman, Pearson} × 6 niveaux)
  • bivariate_bins.parquet — terciles × terciles pour 16 paires (571 712 lignes)
Stratification5 strates INSEE pop (Très petite → Grande ville) + fallback proxy inscrits.
Filtre tautologiesTop 25 Explorer exclut les paires intra-thématique (ex. del_X × del_Y, fin_X × fin_Y). 12 groupes thématiques servent de filtre.
Scriptscripts/05_merge_and_explore.R