CRGGID Automatisation du processus
d'enregistrement des publications web au dépôt légal - Cas MRCI-1
(document de travail)
Problématique
Peut-on automatiser le processus d'enregistrement des publications
gouvernementales diffusées sur Internet ? Est-il possible de développer un
mécanisme capable de détecter, lors de l'enregistrement institutionnel d'un
document, la nature du document enregistré et de déclencher un processus
automatique d'enregistrement au dépôt légal lorsque le document enregistré est
identifié comme étant une "publication gouvernementale diffusée sur Internet et
soumise au dépôt légal" .
En résumé: Il s'agit de relever les métadonnées pouvant
permettre d'identifier les monographies et les publications gouvernementales
diffusées gratuitement sur Internet et soumises au dépôt légal. (voir plus bas
« Documents utilisés - Critères d'admissibilité »)
Procédure
- Identification des métadonnées gouvernementales susceptibles de
permettre l'identification du type de document.
- Formulation d'une équation
- Réflexions/remarques
Documents utilisés
Métadonnées ne permettant pas d'identifier la ressource comme répondant
aux critères
- - Titre (01)
- - Créateur (02)
- - Signataire (03)
- - Collaborateur (05)
- Même s'il s'agit d'un ministère, cela ne veut pas dire que c'est lui
qui publie le document.
- - Tierces parties (06)
- Voir Collaborateur
- - Date (07)
- - Destinataire (08)
- - Domaine/objet (09)
- - Mot-clé (10)
- À moins qu'il n'y ait un mot-clé identifiant le genre. Ex:
publication web
- - Couverture (11)
- - Activité (13)
- - Programme/service (15)
- - Résumé (16)
- - Identifiant (18)
- - Langue (19)
- - Relation (22)
- - Droits d'utilisation (23)
- - Limite d'accès (24)
- - Auditoire (25)
- - Règle de conservation (26)
- - Signature numérique (27)
Métadonnées pouvant permettre d'identifier la ressource comme répondant
aux critères
- Éditeur (4)
- Obligatoire = L'éditeur doit être un Ministère ou un organisme
gouvernemental
- Type de document (14)
- Facultatif = Pourrait permettre de procéder par
élimination : ce qui n'est pas un document de type monographie ou publication
en série pourrait être éliminé. Il faudrait que quelqu'un parcourt tout ce
qu'on peut mettre dans ce champ afin d'éliminer les types de documents
soustraits au
dépôt légal (Note: cliquez sur le lien dans le haut de la page)
- Statut (17)
- Obligatoire = Statut officiel
- Format (20)
- Facultatif = format numérique
- Localisation (21)
- Obligatoire = Cette métadonnée indiquant la localisation de la
ressource, lorsqu'il s'agit d'une publication difusée sur Internet, la
localisation sera obligatoirement une adresse URL.
- [ Modification horodatée de l'entrée ( Métadonnée
administrative 4.3) ]
- [ Facultatif = le système pourrait détecter s'il
s'agit d'une publication correspondant aux critères et envoyer automatiquement
à la BNQ l'entrée modifiée ]
Formulation d'une équation
((editeur == ministere || organisme) && (typeDoc == publication)
[ && (format = numerique) ] && (statut == officiel) &&
(localisation == URL))
Réflexions
- Il faudrait que MRCI-1 puisse tester que l'URL de l'indentifiant
et/ou localisation répond bien.
- Après avoir envisagé de retenir la métadonnée
Identifiant (celle-ci pouvant contenir une URL correspondant à
la localisation) nous en sommes venus à la conclusion que la métadonnée
Localisation était suffisante puisqu'une publication diffusée
sur Internet aura nécessairement une adresse URL à placer dans ce champ.
- Question : la BNQ est-elle prête à recevoir possiblement du bruit?
Parce qu'il est impossible de détecter si une publication gouvernementale
diffusée sur Internet est soumise au dépôt légal (les monographies de moins de
5 pages, par exemple, ne le sont pas).
- La métadonnée Type de document pose problème. Il n'y
a peut-être rien qui indique dans les termes du thésaurus du gouvernement que
la ressource décrite est une publication. Si plusieurs types de documents sont
considérés comme des publications, on pourrait peut-être attribuer un poids à
certains éléments. Chaque "type de doc" dans la facette "type de doc"
possèderait un poids équivalent à la probabilité d'être une publication. On
calculerait la possibilité que ce soit une publication Web avec la
probabilité.
- L'idée a été lançé d'intégrer les métadonnées dans les URL des
documents déposés.
Remarques sur les métadonnées gouvernementales
- Métadonnée Relation: ambiguïté entre les éléments
"est format de" et "a pour format". Quelle différence entre les deux? (Il
semblerait qu'il faut les utiliser dans le sens de "une DTD est format de" et
"une ressource a pour format une DTD", mais ce n'est pas clair dans les
profils). Aussi, dans la partie enrichissement, on parle d'identifiant
de schéma (ce qui correspond au "namespace") et dans la section
Exemple, on donne l'adresse URL d'un schéma.???
- Confusion entre les métadonnées Identifiant et
Localisation pour l'adressse URL : quand utiliser l'URL comme
identifiant ou comme localisation? Les explications dans le document
ProfilMetaDoc-04 du 26 mai03.doc ne sont pas claires à ce sujet.