L’Open Data peut-il améliorer la sécurité routière ?

Vous allez finir par le savoir mais j’adore l’Open Data. Même si, cela n’a rien à voir avec des données personnelles non anonymisées, chose que l’on a pas fini de rappeler, c’est quand même un peu notre quantified self collectif : Un outil de connaissance et de décision par excellence.

Dans le cadre de l’OpenDataCamp organisé par Etalab et Devoxx du 16 avril dernier, j’ai participé à l’atelier portant sur la réutilisation du jeu de données concernant les accidents corporels survenus de 2006 à 2011 inclus. Celui-ci était fourni en CSV, mais dans une variante non standard, ce qui empêchait de le charger directement dans le SGBD choisi pour l’occasion (Postgresql + Postgis). Notre petit groupe a donc perdu beaucoup de temps à rendre cela possible, ce qui fait que nous en avons eu trop peu pour analyser vraiment le contenu. Partis pour faire la moyenne de l’indice de gravité par départements et par communes, cela se révéla finalement être peu signifiant en réalité. Mais l’objet d’un BarCamp n’est-il pas aussi de susciter des suites ? De toutes façons, une seule journée n’aurait jamais suffit tant ce jeu de données est riche en enseignements.

Je suis donc resté sur ma faim à l’issue de l’évènement mais avec plein d’idées pour tenter de faire parler ces données. Ayant découvert le sujet en même temps que le jeu de données et au risque de porter des conclusions sans aucun recul, j’ai préféré fournir un moyen d’explorer les données.

Voir la carte en plein écran

Qualité des données

Pour rendre possible la réalisation de cet outil, il a fallu vérifier un tant soit peu les données et leur qualité. Première chose, les données ne sont pas horodatées, à minima il faudrait fournir les dates puisqu’une indication sur la luminosité est fournie. Une indication sur la cause des accidents telle que vitesse, alcool, etc. serait souhaitable également lorsque c’est possible. Ensuite, les référentiels utilisés par les différents collecteurs de ces données ne sont pas toujours à jour. On constate par exemple que différents millésimes du COG sont utilisés. Ce qui n’est pas très étonnant certes à l’échelle de la France mais on trouve tout de même des codes INSEE n’ayant plus cours depuis 1973. Sont présents également des codes postaux en guise de codes INSEE et cela majoritairement sur Paris. Ville pour laquelle il a été facile de corriger, une fois dissipé le doute quant à l’utilisation d’un COG datant d’avant 1968 par la préfecture (à l’époque 75001 était le code INSEE d’Alfortville, etc.) grâce à l’analyse des noms de rues. Pour les villes à arrondissements, seul le cas de Marseille dont la majorité des accidents étaient attribués au code INSEE général de la ville (13055) n’a pas pu être traité dans cette granularité.

À la fin des diverses corrections effectuées en France métropolitaine, il reste seulement 419 accidents sur 440 695 qui n’ont pas pu être pris en compte dans l’outil. Bien entendu, j’ai fait remonter toutes les anomalies constatées via la fonction de signalement de Data.Gouv.fr (qui encourage cette interaction entre société civile et administrations) ainsi qu’en produisant une liste des collecteurs posant soucis. Nul doute que la mise en Open Data de ces données va permettre d’améliorer les choses à ce niveau.

Agrégation par libellés de voies et types d’intersections

Au delà de la visualisation de la somme de l’indice de gravité par villes, qui augmente forcément avec le trafic sur les différentes voies, j’ai choisi de faire une agrégation de leurs libellés et types d’intersections pour déceler les voies les plus problématiques. Étant entendu que la période analysée est 2006-2011 et que les accidents ne sont pas non plus datés précisément, il est impossible d’observer si des améliorations ont été apportées par d’éventuels aménagements ayant étés réalisés depuis. Au moins, et c’est ce qui importe, les connaissances locales des élus et des habitants devraient pouvoir pallier cet inconvénient s’ils souhaitent se saisir de l’outil. Les libellés, lorsqu’ils sont présents, ne sont pas toujours homogènes mais un moyen de les filtrer est fourni grâce à DataTables.


filtrer avec datatables

Et après ?

Plusieurs pistes se présentent. Grâce à Etalab, des données plus complètes sur le trafic et les zones de vigilance devraient être ajoutées bientôt. Pour l’instant seul la fréquentation du réseau national non concédé en 2011 est présente. Les emplacements des radars fixes vont également être ajoutés (sans certitude de pouvoir obtenir les dates de mises en service) afin de voir si leurs emplacements sont pertinents. Et enfin, je dois permettre l’accès aux données brutes non agrégées par voies (100 259 accidents possèdent des coordonnées géographiques plus précises encore non exploitées) ainsi que les types de véhicules impliqués afin de rendre possible une analyse locale encore plus fine. Bien sûr j’attends également que les dates et causes soient ajoutées par le Ministère de l’Intérieur aux données initiales, mais bref, cette application évoluera donc au fil des idées et des données publiques mises à disposition.

Si tout cela vous inspire d’autres idées, n’hésitez donc pas à me le faire savoir !

Un pad recensant les idées est disponible ici

Télécharger

Base de données des accidents corporels de la circulation 2006-2011

Municipales 2014 – Territoires conquis selon les nuances politiques

Mise à jour du 08/04/14 : La carte présente désormais le détail des élus. Les données des élus ont été enrichies avec les nuances, têtes de listes, codes INSEE, etc. et sont mises à disposition en bas de cette page.

Les municipales 2014 ont été pour moi l’occasion de travailler sur les données électorales fournies par le Ministère de l’Intérieur. En effet, cette fois ci, on peut dire qu’ils ont bien fait les choses en ouvrant l’accès à leurs flux XML, ce qui était d’habitude réservé aux grands médias. Je me suis donc occupé de faciliter l’accès à ces données en les mettant à la disposition de la communauté au format CSV.

Nuances politiques des listes élues au premier et second tour

Tout d’abord, il convient d’éclaircir un point. Les nuances politiques des élus des communes de moins de 1 000 habitants ne sont pas connues, d’ailleurs le plus souvent, elles n’en ont tout simplement pas. Leur mode de scrutin est dit « Majoritaire ». Ces petites communes sont 27 014 et représentent 9.5M d’habitants. Les 9 848 communes de plus de 1 000 habitants quant à elles représentent 58M de français, ce sont donc celles-ci qui sont étudiées ici.

Les couleurs politiques retenues sont celles des listes majoritaires élues au premier et deuxième tour.

Voir la carte en plein écran

Population et surface des territoires

Il est assez difficile de représenter des valeurs à la fois très hautes et très basse grâce à des graphiques basiques. Le « meilleur » compromis a été de mettre à part les valeurs concernant les communes de moins de mille habitants.


Note : 9 466 954 français résident dans les communes de moins de 1000 habitants

.


Note : Les communes de moins de 1000 habitants représentent 349 260,60 km2

Télécharger les données enrichies

La mention obligatoire d’attribution doit être « Licence ODbL © IdeesLibres.org 04/2014, Ministère de l’Intérieur 04/2014 » avec les liens indiqués lors d’une publication en ligne.

Élus municipaux 2014

Nos candidats aux municipales 2014, nuances, prénoms et patronymes

Mise à jour du 22/03 19h : ajout du fichier du 21/03

En supplément des données publiées sur Data.gouv.fr, le Ministère de l’Intérieur fournit également des données plus complètes au format XML sur son site. Je me suis donc occupé d’en faire une version CSV. L’Intérieur ayant communiqué sur les chiffres temporaires le 06 mars dernier (926 068 candidats), je me suis fait confirmer que le nombre de candidats obtenu du XML était bien exact : 932 464 candidats au 15 mars. On m’a également prévenu de quelques modifications/corrections à venir. Effectivement une mise à jour a eu lieu le 17 mars vers 16h (932 465 candidats), et une autre aujourd’hui même à midi. Le nombre de candidats se porte désormais à 932 405.

Premier constat, les données sont de bien meilleure qualité que celles de 2008. Les raisons en sont qu’à l’époque les candidats des communes de moins de 3 500 habitants n’avaient pas l’obligation de se déclarer préalablement en préfecture et que de nouveaux formulaires Cerfa éditables par ordinateur ont étés élaborés depuis. De meilleures sources donc et de surcroît un important travail de vérification et mise en cohérence sur la plupart des variables aurait été réalisé.

Télécharger les versions complètes :
Intitulés des colonnes disponibles
Candidats au 21 mars 2014
Candidats au 20 mars 2014
Candidats au 17 mars 2014
Candidats au 15 mars 2014
Ces fichiers étant volumineux (167Mo chacun une fois décompressés), n’espérez pas les ouvrir avec un tableur classique. Un SGBD est requis.
Licence et attribution.

Les nuances politiques

La récente polémique sur l’attribution des nuances politiques a engendré quelques changements.

Nb au 15/03 Nb au 20/03 Différence
Total 932 464 932 405 -59
Moins de 1 000 habitants 406 349 406 354 5
Liste Divers droite 152 014 149 035 -2 979
Liste Divers gauche 110 720 108 610 -2 110
Liste Divers 80 285 86 629 6 344
Liste Union de la Gauche 30 209 30 288 79
Liste Socialiste 29 872 29 339 -533
Liste Union pour un Mouvement Populaire 23 740 23 046 -694
Liste Union de la Droite 21 115 21 143 28
Liste Front National 20 218 20 191 -27
Liste Front de Gauche 12 801 13 739 938
Liste Union Démocrates et Indépendants 13 472 13 384 -88
Liste Extrême gauche 12 877 12 809 -68
Liste Europe-Ecologie-Les Verts 5 471 5 334 -137
Liste du Parti communiste français 5 127 4 678 -449
Liste Modem 2 890 2 848 -42
Liste Union du Centre 2 406 2 377 -29
Liste du Parti de Gauche 2 123 1 826 -297
Liste Extrême droite 775 775 0

Télécharger le nuancier et ses définitions
Nuancier politique du Ministère de l’Intérieur

Parité

Genre Nb %
Masculin 532 490 57
Féminin 399 915 43

Graphique sur la parité

Les prénoms les plus représentés par genre

Le fichier des conseillers municipaux qu’on m’avait fourni précédemment comportait les dates de naissances des élus mais aussi quelques incohérences dans celles-ci (principalement dans les communes de moins de 3500 habitants : la faute au mode de collecte de l’époque).

Les dates de naissance des candidats n’étant mises à disposition nulle part, il reste les prénoms pour se faire une idée.

1 Michel 17498 Isabelle 9006
2 Philippe 14987 Nathalie 8588
3 Alain 14497 Catherine 8587
4 Christian 10975 Sylvie 8319
5 Patrick 10711 Martine 7141
6 Bernard 10641 Françoise 6937
7 Daniel 9918 Christine 6721
8 Jean-Pierre 9105 Valérie 5682
9 Christophe 8999 Véronique 5431
10 Pierre 8729 Sandrine 5329
11 Gérard 8576 Chantal 4766
12 Pascal 8376 Monique 4660
13 Thierry 8299 Brigitte 4441
14 Laurent 7965 Sophie 4406
15 Jacques 7635 Nicole 4387
16 Eric 7474 Patricia 4382
17 Claude 7311 Laurence 4191
18 Jean-Claude 7170 Stéphanie 4183
19 Dominique 7067 Annie 4076
20 Frédéric 7029 Dominique 3978
21 Didier 7009 Céline 3892
22 Olivier 6422 Corinne 3851
23 Stéphane 6407 Anne 3739
24 Jean 5986 Christelle 3603
25 François 5900 Florence 3384
26 David 5574 Michèle 3267
27 Sébastien 5549 Marie 3052
28 Bruno 5456 Virginie 3028
29 André 5418 Jacqueline 2946
30 Nicolas 5262 Christiane 2875
31 Gilles 5066 Nadine 2873
32 Serge 4979 Béatrice 2808
33 Jean-Luc 4962 Anne-Marie 2801
34 Marc 4912 Hélène 2787
35 Guy 4907 Karine 2754
36 Yves 4460 Elisabeth 2733
37 Jean-Paul 4420 Evelyne 2672
38 Denis 4372 Pascale 2661
39 Jérôme 4178 Claudine 2543
40 Jean-Louis 4135 Danielle 2514
41 Vincent 3999 Fabienne 2487
42 Francis 3970 Delphine 2397
43 Jean-François 3962 Cécile 2383
44 Joël 3879 Caroline 2309
45 Hervé 3872 Marie-Christine 2213
46 Franck 3828 Carole 2196
47 Jean-Michel 3806 Annick 2184
48 Patrice 3733 Agnès 2104
49 Jean-Marie 3623 Séverine 2077
50 Jean-Marc 3491 Bernadette 2017

Télécharger les fichiers des prénoms
Tous les prénoms
Tous les prénoms par département
Ceux des conseillers actuels sont disponibles en bas de cette page.
Licence et attribution.

Les patronymes les plus représentés

Conseillers élus en 2008 Candidats 2014
1 MARTIN 1782 MARTIN 3101
2 BERNARD 1061 BERNARD 1695
3 PETIT 901 PETIT 1511
4 THOMAS 879 THOMAS 1416
5 DURAND 851 RICHARD 1337
6 RICHARD 800 ROBERT 1328
7 DUBOIS 798 DUBOIS 1317
8 LAURENT 778 DURAND 1297
9 MOREAU 709 LAURENT 1227
10 ROBERT 708 SIMON 1215
11 MICHEL 703 MOREAU 1164
12 SIMON 684 MICHEL 1137
13 LEROY 655 LEFEBVRE 1125
14 LEFEBVRE 597 LEROY 1099
15 BERTRAND 594 FOURNIER 983
16 GIRARD 579 ROUX 951
17 ROUX 570 BERTRAND 951
18 MOREL 564 LAMBERT 911
19 FOURNIER 544 MOREL 904
20 LAMBERT 538 GIRARD 866
21 BONNET 535 VINCENT 863
22 DUPONT 528 GARCIA 853
23 ROUSSEAU 522 DUPONT 846
24 VINCENT 516 DAVID 830
25 GARNIER 514 BONNET 812
26 LEFEVRE 507 ROUSSEAU 798
27 DAVID 501 BLANC 794
28 MERCIER 493 FAURE 780
29 FAURE 493 GARNIER 779
30 BLANC 484 MERCIER 773
31 GUERIN 475 LEFEVRE 770
32 MULLER 474 PERRIN 760
33 MATHIEU 469 LEGRAND 760
34 HENRY 467 HENRY 757
35 ROUSSEL 467 ROUSSEL 756
36 GAUTHIER 467 DUVAL 742
37 PERRIN 464 GAUTHIER 741
38 ANDRE 463 MULLER 729
39 CLEMENT 458 CHEVALIER 727
40 LEGRAND 438 FONTAINE 718
41 FRANCOIS 424 ROBIN 709
42 DUVAL 421 MORIN 706
43 ROBIN 418 MASSON 705
44 MORIN 405 MATHIEU 692
45 GARCIA 404 GUERIN 668
46 CHEVALIER 403 MARTINEZ 667
47 MASSON 401 NICOLAS 665
48 GERARD 385 BOYER 648
49 GAUTIER 385 GAUTIER 634
50 BLANCHARD 380 DUFOUR 631

Télécharger les fichiers des patronymes
Candidats :
Tous les patronymes
Tous les patronymes par département
Conseillers municipaux actuels :
Tous les patronymes
Tous les patronymes par département

Licence

La mention obligatoire d’attribution doit être « Licence ODbL © IdeesLibres.org 03/2014, Ministère de l’Intérieur 03/2014 » avec les liens indiqués lors d’une publication en ligne.