Structure de métadonnées

Les métadonnées représentent l’ensemble des attributs décrivant les fichiers de données. Les métadonnées sont autant importantes que les données en elles-mêmes: sans métadonnées, les données peuvent être sujettes à des mauvaises interprétations. Il est donc important pour les auteurs de données de documenter leurs ensembles de données aussi précisément que possible et pour les utilisateurs de données de prendre connaissance des métadonnées.

À noter que l’outil de gestion des données scinde l’information en deux :

  • La ressource: un fichier de données ou encore un lien vers interface programmable
  • L’ensemble de données:  une ou plusieurs ressources avec des métadonnées communes.

L’ensemble de données contient la majorité des métadonnées, mais chaque ressource possède également quelques métadonnées spécifiques. Les tableaux ci-dessous résume la structure de métadonnées du portail de données ouvertes de la Ville de Montréal. Cette structure est inspirée du standard DCAT et a été développée en commun avec le Gouvernement du Québec.

Métadonnées des ensembles de données

Attribut Présence Description
Titre obligatoire

Nom de l’ensemble de données. Soyez concis, mais suffisamment explicite pour que des personnes non-expertes puissent comprendre ce qu’on retrouve dans l’ensemble de données.

Si le jeu de donnée est republié chaque année et à chaque fois dans un nouvel ensemble de données, mettre l’année dans le titre.

Par exemple : Budget opérationnel 2015

Description obligatoire

Texte de quelques lignes permettant de compléter et préciser la nature de l’ensemble de données. Les exemples d’informations pouvant être fournies sont: les raisons pour lesquelles la données a été collectées, un avertissement concernant les données, les types d’utilisations possibles.

Mots-clés obligatoire

Liste de mots-clés pertinents pour le jeu de données. Un mot-clé est un terme qui peut être composé d’un ou plusieurs mots. Tous les mots-clés sont au singulier, sauf exception.

Par exemple : Agriculture, Balcon, Jardin communautaire, Fleur, Développement durable

Licence obligatoire

Correspond à la licence d’utilisation des données. La licence de la Ville de Montréal (Creative Commons 4.0 avec attribution) devrait être sélectionnée par défaut dans l’outil.

Organisation obligatoire

Correspond à l’organisation publiant les données. L’organisation Ville de Montréal devrait être sélectionnée par défaut dans l’outil.

Visibilité obligatoire

Privée signifie que seul les employés de la ville avec un compte utilisateur sur la plateforme de données ouvertes peuvent accéder à l’ensemble de données.

Publique signifie que que le jeu de données est disponible pour tous sur le Portail de données ouvertes.

Les ensembles de données sont créés en mode privé et rendus publics par l’équipe de données ouvertes.

Publieur obligatoire

Nom du service, de l’unité administrative ou la direction responsable de l’ensemble de données. Peut aussi contenir la mention « Arrondissements » ou le nom d’une organisation externe.

Ne pas utiliser des acronymes ou des abréviations.

Par exemple : Bureau de la Ville Intelligente et Numérique plutôt que BVIN.

Courriel obligatoire

L’adresse courriel de l’équipe des données ouvertes est sélectionnée par défaut dans l’outil.

Cet attribut n’est pas affiché sur le Portail de données ouvertes de la Ville de Montréal, mais sera affichée sur le Portail de données ouvertes du Québec.

Fréquence de mise à jour obligatoire

Inscrire la fréquence planifiée de publication ou de mise à jour des données sur le portail.

Choisir “irrégulier” si ce sont des données dont la fréquence est imprévisible ou qui n’ont pas de raison d’avoir des mises à jour. Notamment dans le cas de données historiques.

Langue obligatoire

Langue dans laquelle les données sont produites. Par défaut Français.

Couverture géographique obligatoire

Territoire de la Ville de Montréal devrait être sélectionnée par défaut dans l’outil. Cet attribut est utilisé sur le Portail de données ouvertes du Québec.

Couverture temporelle optionnel

Période couverte par les données publiées au format ISO8601: dates de début et de fin au format AAAA-MM-JJ séparés par une barre oblique.

À remplir uniquement si les données contiennent une couverture temporelle, notamment si un champ date existe dans les données.

Territoire obligatoire

L’attribut territoire permet de spécifier les zones géographiques sur l’île de Montréal concernées par les données.

Choisir “Montréal” ou “Agglomération” ou les arrondissements concernés ou une combinaison.

Méthodologie optionnel

Éléments techniques importants à connaître concernant l’ensemble de données. Cette section peut entrer dans les détails techniques:

  • Méthode de collecte ou d’extraction des données
  • Limitations ou zones aveugles connues de l’ensemble de données
  • Dictionnaire des différents champs utilisés dans le(s) fichier(s) et les différentes listes de valeurs connues (p.ex. si un champ peut prendre une value 0 ou 1 et que ces valeurs ont une signification, elles devraient être expliquées).

Note: le dictionnaire de données peut également être fournit sous forme d’une ressource, surtout s’il est complexe.

Source optionnel

Adresse web complète (URL) d’une page web expliquant les données ou de l’utilisation des données.

Date de création Automatique

La date de création de l’ensemble de données est gérée automatiquement par la plateforme de gestion des données.

Dernière date de mise à jour Automatique

La dernière date de mises à jour est gérée automatiquement par la plateforme de gestion des données. Cette date est modifiée dès qu’une ressource ou un attribut de métadonnées de l’ensemble est modifié.

Métadonnées des ressources

Attribut Présence Description
Titre obligatoire

Titre concis du fichier, il va souvent être le même ou similaire au titre de l’ensemble de données.

Description du fichier optionnel

Description spécifique au fichier. Normalement la majorité des éléments descriptifs devrait aller dans la description de l’ensemble de données. La description de la ressource devrait être utilisée pour les éléments spécifiques au fichier en cours, par exemple si le fichier a une structure de données différente de l’ensemble de données.

Format obligatoire

Identifiant du format utilisé, p.ex CSV. Les formats à utiliser et la valeur à mettre dans le portail de données sont décrits dans le document sur les formats de données. Lors de la saisie, l’outil propose les valeurs déjà utilisées sur la plateforme.

Date de création Automatique

La date de création de l’ensemble de données est gérée automatiquement par la plateforme de gestion des données.

Dernière date de mise à jour Automatique

La dernière date de mises à jour est gérée automatiquement par la plateforme de gestion des données. Cette date est modifiée dès qu’une ressource ou un attribut de métadonnées de l’ensemble est modifié.

Structure de fichiers

Le portail de données ouvertes permet de mettre plusieurs fichiers dans un ensemble de données. Ceci pose des questions de structuration de données: selon quel critère rassemble-t-on plusieurs fichiers dans un seul ensemble? Comment assurer une cohérence entre les différents ensembles de données.

Voici quelques grandes lignes

    • Ne pas dépasser 20 fichiers, idéalement pas plus 4-5.
    • Favoriser plusieurs formats (csv, excel, etc.) d’une même donnée (voir la page sur les formats de données)
    • Éviter les “séries” temporelles ou géographiques (p.ex. la même donnée pour différents mois ou pour différentes régions dans plusieurs fichiers). Dans la mesure du possible essayer de fusionner le tout dans un fichier.
    • Éviter des données différentes dans un même ensemble de données, c’est-à-dire des fichiers avec un contenu différent (p. ex. structure différentes, information différentes).

Cas spéciaux:

  • Arrondissements: de manière générale, les données de différents arrondissements devraient être fusionnées dans un seul fichier avec, notamment, un champ désignant l’arrondissement dans la structure de données.
  • Séries temporelles
    • Pour des données annuelles qui s’agrègent difficilement ou pour lesquelles il peut être important de faire ressortir l’année calendaire et financière, faire un ensemble de données par année (p.ex. Budget de fonctionnement 2013, etc).
    • Pour les données qui s’agrègent bien selon le temps, fusionner l’ensemble des données dans un seul fichier (e.g Contrats des fonctionnaires depuis 2011), avec un champ date.