Un jeu de données libre, complet et à jour des codes postaux n’existe pas vraiment actuellement. L’utilité d’un tel fichier ne saute pas aux yeux, et pourtant, ce besoin se fait sentir régulièrement et particulièrement pour la cartographie. À chaque fois que j’ai besoin de géolocaliser des informations au niveau d’une ville, j’utilise un jeu de données qui contient les noms de villes, les codes INSEE, les numéros et les noms de départements que j’indexe dans un Solr (moteur de recherche libre) d’une manière un peu particulière afin de limiter le taux d’erreur, pour l’interroger ensuite avec les informations déterminantes de chacune des lignes du jeu de données à traiter.
Le préalable pour utiliser cette technique est que les noms de villes et les numéros ou noms de départements soient présents dans le jeu de données à géolocaliser (cela m’a servi pour la réserve parlementaire et certains décrets par exemple), le résultat est que les informations ressortent ensuite associées à leur code INSEE. S’il y a plusieurs résultats, l’outil tente une égalité sur les noms de villes en les normalisant et indique la liste complète des couples codes INSEE/noms de villes possibles en cas d’échec. Même si cela fonctionne plutôt bien, cela peut donc demander pas mal de vérifications manuelles sur des jeux de données volumineux et/ou anciens.
Pour les marchés publics (voir section « L’information à posteriori »), l’information code postal des prestataires est présente mais pas toujours avec le nom de leur ville. Pour réaliser la même opération, il faut donc disposer des correspondances codes INSEE/codes postaux. Ce besoin s’étant fait sentir également (à des fins de vérification) sur la liste de discussion française d’OpenStreetMap, je me suis donc amusé à regarder ce qu’on pouvait reconstituer via les codes postaux des adresses des organismes présents sur Service-Public.fr (fichier mis à jour pour l’occasion) et les codes INSEE liés en excluant les CEDEX.
On y trouve 6 383 codes postaux concernant 37 356 communes (France métropolitaine et outre mer). Ce premier résultat n’est pas mauvais mais il est incomplet et comporte quelques erreurs provenant des codes INSEE des villes sièges associés à certains organismes (exemple: une adresse utilise 21800 en code postal et est référencée par le code INSEE de Dijon), il parait néanmoins possible de détecter ces cas avec le fichier des correspondances ci dessous et ce sera ma prochaine étape. Ce qu’il y a de bien avec l’Open Data c’est que chacun peut améliorer, ne vous gênez donc pas si cela vous intéresse (histoire de ne pas faire le même travail chacun dans son coin, je veux bien être tenu au courant par mail ou twitter, les commentaires étant désactivés sur ce blog pour cause de spam et de changement de moteur de blog imminent).
La source officielle pour ce genre d’information est la Poste (avouez que vous vous en doutiez), mais ils ne fournissent pas encore ce fichier librement. Le seul moyen de vérification officiel fourni est donc un formulaire sur leur site, avec des CGU peu propices au scraping. Vivement que la Poste nous permette d’arrêter ces acrobaties en libérant plus de choses…
Les zones entourées par un trait noir sur fond vert représentent l’agrégation des communes du Geofla de l’IGN utilisant le même code postal. Les zones plus vertes sont celles ou plusieurs codes postaux sont utilisés (et contiennent certains des cas cités plus haut). Des traits fins et verts représentent les limites communales du Geofla. Les « trous » sont les communes ou l’information du code postal est manquante. Il est possible de combler ces manques avec ce fichier (dont les codes postaux sont issus de Wikipedia). À noter qu’un petit bug d’affichage des labels sur la carte me fait penser qu’il est temps que je mette à jour ma version de Geoserver.
Mise à jour du 06/05/13 : précisions sur les organismes non représentés.
Libérée sous Licence Ouverte il y a à peine plus d’un an et mise à jour très régulièrement depuis, cette base de données contient actuellement 59 348 services publics géolocalisés avec leurs horaires (86%) et les adresses de leurs sites internet (95%) entre autres informations utiles (au moment d’écrire ces lignes, la version date du 28/03/13). Rien que pour cela, celle ci est déjà des plus intéressantes mais ce n’est pas tout…
Provenance des données
Sur 1 540 éditeurs, les deux plus importants en terme de volume sont la Documentation française (49%) et la DILA (38.6%). Viennent ensuite le Ministère de l’intérieur (6.7%) et le Ministère de la Justice (3%), les 2.7% restants provenant des guichets eux mêmes à l’exception notable du Conseil Régional de Lorraine qui semble centraliser les coordonnées des EPCI sur son territoire.
Historique et fraîcheur des informations
Rien ne permet de juger de la période d’apparition d’un établissement dans la base mais les dates de mises à jour sont présentes pour chacun d’eux ce qui est bien suffisant pour nous renseigner :
Année de mise à jour
établissements
2002
1
2003
97
2004
1040
2005
356
2006
616
2007
6040
2008
245
2009
841
2010
808
2011
21187
2012
10403
2013
17714
Détail pour cette année :
Mois de mise à jour (2013)
établissements
Janvier
10046
Février
4913
Mars
2755
On constate donc que le projet est bien vivant, et même particulièrement actif ce premier trimestre avec quasiment autant d’éditions que durant l’année 2012 uniquement pour le mois de janvier.
Qualité de la géolocalisation
En complément des codes insee et adresses physiques présentes pour chaque établissement, on dispose des coordonnées géographiques accompagnées d’une indication de précision les concernant. La documentation technique nous fournit l’information suivante :
La précision est un entier compris entre 0 et 9 qui indique la précision avec laquelle l’adresse a été géocodée ou géolocalisée. Nous utilisons les mêmes valeurs que Google Maps : http://code.google.com/apis/maps/documentation/reference.html#GGeoAddressAccuracy. Les valeurs inférieures strictement à 4 ou égales à 5 ne doivent pas être positionnées sur une carte, car trop imprécises. Note : la localisation de niveau 5 (code postal) est en France moins bonne qu’une localisation au niveau 4 (commune).
Premise (building name, property name, shopping center, etc.) level accuracy.
Il n’y a pas d’explication sur l’origine de l’information en elle même mais si on part du principe qu’il n’y a que l’échelle des niveaux de précision qui a été empruntée à google, en l’état les niveaux de précisions 8 et 9 sont utilisables. Ce qui nous fait 28.5% de la base. Cela donne des envies de crowdsourcing pour cet été, en plus des adresses textuelles, les niveaux 6 et 7 pourront faciliter grandement la tâche.
Un inventaire des services publiques en France ?
Au vu des efforts récents de centralisation des informations dans ce fichier, il est fort probable que l’on n’en soit pas loin pour les services concernés par cette base. Ce document (daté du 29/01/13) peut aider à se faire une opinion : liste des types d’organismes; par recoupement, il nous permet de connaître les services qui ne sont pas concernés par cette mise à disposition.
Non présent dans la base
Agence de l’eau
Agence départementale d’insertion
Agence régionale de santé (ARS)
Conseil départemental d’accès au droit
Centre départemental de documentation pédagogique
Conseil économique, social et environnemental régional
Centre en route de la navigation aérienne
Conseil de la culture, de l’éducation et de l’environnement
Chambre régionale ou territoriale des comptes
Centre régional de documentation pédagogique
Centre régional d’éducation populaire et de sports (CREPS)
Centre ou délégation régionale de recrutement et de formation de la police nationale
Direction de l’aviation civile
Direction du contrôle fiscal
Droit des femmes et égalité, mission départementale
Direction départementale des finances publiques
Direction territoriale de la protection judiciaire de la jeunesse
Direction départementale ou service de la sécurité publique
Direction interdépartementale des routes
Direction régionale des entreprises, de la concurrence, de la consommation, du travail et de l’emploi
Direction interrégionale de la mer
Météo France, direction interrégionale
Direction interrégionale de la police judiciaire
Délégation régionale aux droits des femmes et à l’égalité
Direction régionale des finances publiques
Direction régionale et interdépartementale de l’équipement et de l’aménagement (DRIEA)
Unité territoriale de la DRIEA
Direction régionale et interdépartementale de l’environnement et de l’énergie (DRIEE)
Unité territoriale de la DRIEE
Direction régionale et interdépartementale de l’hébergement et du logement (DRIHL)
Unité territoriale de la DRIHL
Délégation régionale de l’INSEE
Direction régionale de la jeunesse, des sports et de la cohésion sociale
Délégation régionale de l’ONISEP
Direction interdépartementale ou régionale de la protection judiciaire de la jeunesse
Délégation régionale à la recherche et à la technologie
Direction interrégionale des services pénitentiaires
Direction des services fiscaux
Direction zonale de la police aux frontières
Direction régionale de l’Office national des forêts
Préfecture de région
Service territorial de l’architecture et du patrimoine
Service de la navigation
Secrétariat général pour l’administration de la police (SGAP)
Pour la plupart de ces organismes, on comprend aisément leur absence d’un annuaire public (usage inter-administrations). Néanmoins pour certains comme les Préfectures de région c’est moins évident, et si le critère d’extraction de la base principale de Service-Public.fr est la portée territoriale, c’est donc possiblement une erreur. A noter que les Ministères, Institutions ou autres Autorités indépendantes et Centres d’appel et de contact ne sont pas non plus représentés, c’est un peu dommage mais c’est relativement normal, puisqu’il s’agit de la « Base de données locales v2″.
Voyons maintenant ce que nous avons :
établissements
Nombre
Agence de l’environnement et de la maîtrise de l’énergie (ADEME), réseau local
26
Agence départementale pour l’information sur le logement (ADIL)
105
Association nationale pour la formation professionnelle des adultes (AFPA), réseau local
381
Association de gestion du fonds pour l’insertion des personnes handicapées (AGEFIPH)
20
Agence nationale de l’habitat (ANAH), réseau local
101
Association pour l’emploi des cadres (APEC)
46
Association pour l’emploi des cadres, ingénieurs et techniciens de l’agriculture et de l’agroalimentaire (APECITA), réseau local
17
Délégation territoriale de l’Agence régionale de santé
12
Banque de France, succursale
217
Bureau d’aide aux victimes
166
Bureau ou centre du service national
31
Cour administrative d’appel
8
Caisse d’allocations familiales (CAF)
1352
Caisse d’assurance retraite et de la santé au travail (CARSAT)
31
Chambre de commerce et d’industrie (CCI)
154
Centre de gestion de la fonction publique territoriale
92
Centre de détention
25
Centre des impôts foncier et cadastre
268
Centre pénitentiaire
45
Conseil général
101
Chambre d’agriculture
94
Chambre de métiers et de l’artisanat
105
Centre d’information de conseil et d’accueil des salariés (CICAS)
101
Centre d’information sur les droits des femmes et des familles (CIDFF)
117
Information jeunesse, réseau local
1489
Centre d’information et d’orientation (CIO)
562
Commission d’indemnisation des victimes d’infraction
185
Centre national de la fonction publique territoriale (CNFPT), réseau local
98
Commissariat de police
628
Commission départementale de conciliation
107
Cour d’appel
38
Caisse primaire d’assurance maladie (CPAM)
1153
Conseil régional
26
Centre de ressources et d’information des bénévoles (CRIB)
170
CROUS et ses antennes
96
Centre de semi-liberté
11
Direction départementale de la cohésion sociale (DDCS)
50
Direction départementale de la cohésion sociale et de la protection des populations (DDCSPP)
46
Protection des populations (direction départementale, DDPP)
50
Direction départementale des territoires -et de la mer- (DDT)
90
Défenseur des droits
419
Unité territoriale de la DIRECCTE
6
Délégation à la mer et au littoral
35
Direction régionale des affaires culturelles
26
Direction régionale de l’alimentation, de l’agriculture et de la forêt (DRAAF)
26
Direction interrégionale et régionale des douanes
44
Direction régionale de l’environnement, de l’aménagement et du logement (DREAL)
21
Unité territoriale de la DREAL
2
Intercommunalité (EPCI)
2512
Etablissement spécialisé pour mineurs
6
Fédération départementale pour la pêche et la protection du milieu aquatique
93
Fédération départementale des chasseurs
95
Fongecif
26
Brigade de gendarmerie
3324
Greta
220
Service de publicité foncière (ex-Conservation des hypothèques)
357
Direction des services départementaux de l’Éducation nationale, ex-Inspection académique
97
Mission d’accueil et d’information des associations (MAIA)
100
Mairie
36720
Mairie (collectivités d’outre-mer)
1
Maison d’arrêt
99
Maison centrale
6
Maison départementale des personnes handicapées (MDPH)
105
Mission locale et Permanence d’accueil, d’information et d’orientation (PAIO)
727
Maison de justice et du droit
139
Mutualité sociale agricole (MSA), réseau local
202
Office français de l’immigration et de l’intégration (ex ANAEM), réseau local
28
Office national des anciens combattants (ONAC), réseau local
101
Préfecture de police de Paris, certificat d’immatriculation
1
Préfecture de police de Paris, permis de conduire
1
Permanence juridique
850
Point info famille
430
Centre de protection maternelle et infantile (PMI)
1299
Pôle emploi (ex ANPE et ASSEDIC)
944
Préfecture de police de Paris
1
Préfecture de police de Paris, antenne d’arrondissement
26
Préfecture
101
Conseil de prud’hommes
216
Rectorat
35
Centre des finances publiques (SIE)
53
Centre des finances publiques (SIP)
58
Centre des finances publiques (SIP-SIE)
22
Sous-préfecture
241
Service pénitentiaire d’insertion et de probation
103
Service universitaire d’information et d’orientation
92
Tribunal administratif
33
Tribunal pour enfants
156
Tribunal de grande instance
169
Tribunal d’instance
303
Tribunal de commerce
152
Urssaf
111
Cette base constitue donc tout de même une très bonne source pour qui veut évaluer certaines politiques publiques car non seulement chacun de ces organismes comporte les codes insee des villes les hébergeant mais chacune des 36 827 villes françaises identifiées également par leur code insee comporte la liste des organismes dont leurs habitants dépendent. Ce qui nous donne environ 4 millions de relations dont un maximum de 304 par ville avec Lille en tête et un minimum de 7 dans certaines collectivités d’outre mer avec une moyenne à 107.8 et une médiane à 100 tout rond.
D’autres infos intéressantes
Accessibilité
Nombre
Oui
12501
Sur demande
932
Non
5352
Non renseigné
40563
Une bonne surprise que la présence de cette information ! On regrettera que celle ci ne soit pas renseignée systématiquement. Dans un autre registre, une bonne idée aurait été d’ajouter les codes SIRET/SIREN lorsqu’applicable, cela permettrait de contextualiser avec d’autres jeux de données les utilisant. Sinon la liste des sites internet (16 226 URL différentes) contient quelques perles, notamment un prestataire en création de site qui semble avoir trouvé là un bon moyen de se faire de la pub gratuite… (15 fois, pour l’indice).
Une base peu ré-utilisée
Malgré des conditions de ré-utilisations minimales et l’intérêt que présentent les données qu’elle contient, cette base semble être plutôt peu réutilisée en dehors du co-marquage, qui avait cours bien avant cela. Ceci est sans doute dû au format de mise à disposition (96 175 fichiers xml distincts) qui pour être parfait pour un développeur nécessite des connaissances et quelques jours de travail pour rendre tout cela exploitable facilement avec d’autres jeux de données.
Mise à disposition en CSV sous ODbL
Comme j’utilise cette source pour certains projets dont je vous parlerais très bientôt, et qu’il fallait bien inaugurer dignement ce blog, j’ai décidé de mettre à disposition les données ainsi re-formatées et mises à jour automatiquement ici même :