Lors de ma série d’article « Data Bilan », j’ai rencontré pas mal de problématiques intéressantes. Si je n’ai pas fait de bilan des « Data Bilan », je souhaite revenir ici sur une visualisation que j’ai faite et que je n’ai pas publiée car celle-ci était trompeuse.
C’est sur le « Data Bilan » sur les données ouvertes que j’ai rencontré cette problématique. J’avais fait une visualisation cool, en reprenant des données brutes que j’avais seulement regroupées par année et pourtant je ne l’ai pas publiée. Avec cette visualisation, on pouvait pourtant faire une analyse « qui allait dans le sens du vent » : celle-ci était cohérente et pouvait sembler triviale. Voici le graphique :
On y voit une forte augmentation des nouveaux jeux de données publiés. Si on regarde rapidement, on peut se dire : "en 2020, on a beaucoup parlé ouverture des données car il y a eu un enjeu important avec les données du Covid, alors c'est logique de voir cette augmentation sur ce graphique". Cependant, pas du tout ! Cette augmentation est en réalité plutôt artificielle.
Pour tenter de percer le mystère de ces données, j'ai tenté plusieurs choses. Ce qui m'intéressait d’abord c'était le type de fichier. En effet, pour publier des données ouvertes, on utilise beaucoup le format CSV, les format JSON ou bien le format XML. Je me disais qu'il serais marrant dans mon "Data-Bilan" de faire un classement des formats (alors qu'on sait tous quel est le mieux !). Quel ne fut pas ma stupeur quand je vis qu'il y avait un très grand nombre de fichiers qui n'avaient ni l'un des ces format, ni un autre assez courant et qu'il était assez compliqué de détecter le format avec les méta-données des fichiers sur DataGouv. Ça montre qu'il y a quelque chose de louche avec ces données…
Pour comprendre, il ne faut pas se plonger dans les données mais dans la méthode de production de ces données. J'ai ici utilisé les données sur les "ressources" publiées sur DataGouv (depuis les jeux de données officiels de DataGouv). Mais c'est quoi au juste les "ressources" ? Les ressources ce sont les fichiers ajoutés sur la plateforme à un jeu de données. Plusieurs fichiers peuvent être ajouté à un même jeu de données. En y regardant de plus près, on remarque un champ "filetype" qui peut prendre uniquement deux valeurs : soit "remote", soit "file". En faisant une visualisation avec ce champ, on peut voir une forte part de "remote" mais ça ne répond pas vraiment à notre question : pourquoi il y a un énorme pic en 2020 ? Alors, j'ai posé la question aux producteurs de ces données : Etalab directement.
Conclusion
Les personnes en charge de la plateforme m'ont donné plusieurs pistes et réponses. Tout d'abord, il faut faire attention à la valeur des jeux données. C'est assez subjectif mais des menus de la cantine d'une petite commune va représenter un jeu de données sur DataGouv tout comme la Base Adresse Nationale qui est un gigantesque fichier de toutes les adresses de France. Ensuite, il y a une question de moissonnage et d'organisation. Certains producteurs de données utilise une fonctionnalité de récupération automatique qui peut créer pas mal de fichier et puis ensuite décider d'une réorganisation des données et de rassembler les données dans un seul fichier. Dans les statistiques on aura donc moins de jeux de données ou de fichiers alors qu'en réalité ils ont simplement été rassemblés. C'est, en simplifiant, le pourquoi du comment ces statistiques ne sont pas très utile si on ne fait qu'une visualisation à la va-vite comme je faisais dans mes "Data-Bilan". Pour conclure, on m'a répondu que chez Etalab "nous avons tendance à qualifier cette métrique comme métrique de vanité qui ne permet pas réellement de mesurer l’impact".
Attention donc avec les données analysée purement avec des méthodes quantitatives ! En faisant une analyse plus qualitative, en se penchant sur le fonctionnement de DataGouv, on comprend que plus de fichiers ne veulent pas forcément dire qu'il y a plus de données et de bonne qualité. Il faut inscrire les données dans leur environnement. Lors d'une table ronde à la NEC 2021, le chercheur Antoine Courmont cite l'exemple d'un fichier des toilettes publiques qui ne comportait que 3 toilettes alors qu'il y en avait beaucoup plus en réalité. Après enquête, il s'est rendu compte que le fichier avait été constitué par les équipes de nettoyage et que les toilettes auto-nettoyantes n'étaient donc pas dans leur fichier !