Au propos du traitement des données

13 avril 2017

Récemment, nous avons eu l’occasion d’échanger avec un candidat à la maîtrise en gestion de l’information, notamment pour discuter du traitement des données: d’un côté les bonnes pratiques des données ouvertes consistent à produire les données au plus proche de leur source, aussi “brutes” que possible. D’un autre côté, ces données brutes peuvent comporter des erreurs et nécessiter d’importants traitements pour être utilisables, traitement qui ne sont pas nécessairement à la portée de tous les utilisateurs.

Lors d’échanges avec des utilisateurs des données, on nous mentionne  à l’occasion que nos données sont visiblement nettoyées, supprimant ainsi des informations qui pourraient être intéressantes et faisant perdre de la profondeur aux données. D’autres utilisateurs critiquent assez sévèrement les erreurs dans les données qui sont toutefois inévitables: aucune donnée n’est parfaite.

La question est donc de savoir quel équilibre trouver entre traitement avant publication et publication des données brutes.

Un exemple: les colmatages de nids-de-poules

Lors de la publication récente des données de colmatage mécanisé des nids-de-poule, les équipes impliquées dans la publication ont analysé les données pour découvrir que certains points étaient très éloignés des rues ou dans certains cas hors de Montréal ou encore que certains colmatages apparaissent dans des intervalles de temps très courts. Que faire?

Les erreurs peuvent avoir plusieurs sources: dans ce cas précis, la prise de position est déclenchée manuellement par l’opérateur du véhicule de colmatage, la position étant déterminée par positionnement GPS. Les sources d’erreurs sont multiples: manque de précision du GPS (généralement de quelques mètres, mais qui peut être bien plus en zone très dense) ou erreur de manipulation de l’opérateur pour ne citer que ces deux-là.

La décision a été prise d’exclure les données qui ne sont pas sur le territoire de Montréal. C’est un critère assez simple permettant d’enlever des données clairement erronées. La question des colmatages très rapprochées dans le temps est plus difficile: à partir de quel seuil considère-t-on des données erronées, sachant que le temps de colmatage varie selon plusieurs paramètres. Par ailleurs, en supprimant cette donnée, on masque une partie de la réalité de terrain, incluant les erreurs de manipulation qu’il peut être intéressant d’analyser. Dans ce cas-ci, les données ont été laissées en l’état quitte à contenir quelques incongruités.

Des bonnes pratiques en développement

Sur base de l’expérience que nous acquérons et des commentaires des utilisateurs, nous améliorons constamment des bonnes pratiques de traitement à réaliser. Par exemple, bon nombre de données sont localisées par adresse, information généralement suffisante pour l’usage opérationnel, mais insuffisante dans un contexte de données ouvertes où une position géospatiale est demandée par les utilisateurs. Lorsqu’une position géographique existe dans les systèmes, elle est souvent dans un référentiel géospatial peu connu du grand public (en l’occurrence une transverse universelle de Mercator connue sous le code NAD83/MTM Zone 8 représenté en mètres et utilisé en ingénierie plutôt que le classique positionnement GPS représenté en degrés). Donc pour faciliter l’utilisation des données, les adresses sont généralement géocodées et les positions géospatiales transformées en latitude et longitude.

Toutefois, l’ajout de transformations spécifiques à chaque ensemble de données prend rapidement beaucoup temps: détecter les enjeux, évaluer les changements à réaliser et mettre en oeuvre une transformation. Cela n’est donc réalisé que pour les enjeux majeurs faute de quoi les efforts pour la publication des données seraient fortement accrus, dans un contexte où les ressources ne sont pas infinies.

Au cours de la discussion avec le candidat à la maîtrise et d’autres utilisateurs de données, des approches ont été discutées pour fournir des données améliorées mais limitant la perte de profondeur des données. Dans les mois à venir, nous souhaitons expérimenter certaines de ces approches tout en continuant à publier des données en suivant la démarche actuelle.