Vous allez finir par le savoir mais j’adore l’Open Data. Même si, cela n’a rien à voir avec des données personnelles non anonymisées, chose que l’on a pas fini de rappeler, c’est quand même un peu notre quantified self collectif : Un outil de connaissance et de décision par excellence.
Dans le cadre de l’OpenDataCamp organisé par Etalab et Devoxx du 16 avril dernier, j’ai participé à l’atelier portant sur la réutilisation du jeu de données concernant les accidents corporels survenus de 2006 à 2011 inclus. Celui-ci était fourni en CSV, mais dans une variante non standard, ce qui empêchait de le charger directement dans le SGBD choisi pour l’occasion (Postgresql + Postgis). Notre petit groupe a donc perdu beaucoup de temps à rendre cela possible, ce qui fait que nous en avons eu trop peu pour analyser vraiment le contenu. Partis pour faire la moyenne de l’indice de gravité par départements et par communes, cela se révéla finalement être peu signifiant en réalité. Mais l’objet d’un BarCamp n’est-il pas aussi de susciter des suites ? De toutes façons, une seule journée n’aurait jamais suffit tant ce jeu de données est riche en enseignements.
Je suis donc resté sur ma faim à l’issue de l’évènement mais avec plein d’idées pour tenter de faire parler ces données. Ayant découvert le sujet en même temps que le jeu de données et au risque de porter des conclusions sans aucun recul, j’ai préféré fournir un moyen d’explorer les données.
Qualité des données
Pour rendre possible la réalisation de cet outil, il a fallu vérifier un tant soit peu les données et leur qualité. Première chose, les données ne sont pas horodatées, à minima il faudrait fournir les dates puisqu’une indication sur la luminosité est fournie. Une indication sur la cause des accidents telle que vitesse, alcool, etc. serait souhaitable également lorsque c’est possible. Ensuite, les référentiels utilisés par les différents collecteurs de ces données ne sont pas toujours à jour. On constate par exemple que différents millésimes du COG sont utilisés. Ce qui n’est pas très étonnant certes à l’échelle de la France mais on trouve tout de même des codes INSEE n’ayant plus cours depuis 1973. Sont présents également des codes postaux en guise de codes INSEE et cela majoritairement sur Paris. Ville pour laquelle il a été facile de corriger, une fois dissipé le doute quant à l’utilisation d’un COG datant d’avant 1968 par la préfecture (à l’époque 75001 était le code INSEE d’Alfortville, etc.) grâce à l’analyse des noms de rues. Pour les villes à arrondissements, seul le cas de Marseille dont la majorité des accidents étaient attribués au code INSEE général de la ville (13055) n’a pas pu être traité dans cette granularité.
À la fin des diverses corrections effectuées en France métropolitaine, il reste seulement 419 accidents sur 440 695 qui n’ont pas pu être pris en compte dans l’outil. Bien entendu, j’ai fait remonter toutes les anomalies constatées via la fonction de signalement de Data.Gouv.fr (qui encourage cette interaction entre société civile et administrations) ainsi qu’en produisant une liste des collecteurs posant soucis. Nul doute que la mise en Open Data de ces données va permettre d’améliorer les choses à ce niveau.
Agrégation par libellés de voies et types d’intersections
Au delà de la visualisation de la somme de l’indice de gravité par villes, qui augmente forcément avec le trafic sur les différentes voies, j’ai choisi de faire une agrégation de leurs libellés et types d’intersections pour déceler les voies les plus problématiques. Étant entendu que la période analysée est 2006-2011 et que les accidents ne sont pas non plus datés précisément, il est impossible d’observer si des améliorations ont été apportées par d’éventuels aménagements ayant étés réalisés depuis. Au moins, et c’est ce qui importe, les connaissances locales des élus et des habitants devraient pouvoir pallier cet inconvénient s’ils souhaitent se saisir de l’outil. Les libellés, lorsqu’ils sont présents, ne sont pas toujours homogènes mais un moyen de les filtrer est fourni grâce à DataTables.
Et après ?
Plusieurs pistes se présentent. Grâce à Etalab, des données plus complètes sur le trafic et les zones de vigilance devraient être ajoutées bientôt. Pour l’instant seul la fréquentation du réseau national non concédé en 2011 est présente. Les emplacements des radars fixes vont également être ajoutés (sans certitude de pouvoir obtenir les dates de mises en service) afin de voir si leurs emplacements sont pertinents. Et enfin, je dois permettre l’accès aux données brutes non agrégées par voies (100 259 accidents possèdent des coordonnées géographiques plus précises encore non exploitées) ainsi que les types de véhicules impliqués afin de rendre possible une analyse locale encore plus fine. Bien sûr j’attends également que les dates et causes soient ajoutées par le Ministère de l’Intérieur aux données initiales, mais bref, cette application évoluera donc au fil des idées et des données publiques mises à disposition.
Si tout cela vous inspire d’autres idées, n’hésitez donc pas à me le faire savoir !
Un pad recensant les idées est disponible ici
Télécharger
Base de données des accidents corporels de la circulation 2006-2011