Annonce octobre 2014 : Mai 2012 - Je vous avais parlé du TAG (Thésaurus de l'activité gouvernementale) du Québec. Octobre 2014 : diffusion au format skos de ce thésaurus : http://www.thesaurus.gouv.qc.ca/tag/consultation/oa.do.
Adresse de déchargement direct - http://www.thesaurus.gouv.qc.ca/tag/tag_skos.xml
Nous avons présenté dans un précédent billet, le TAG, le thésaurus de l'activité gouvernementale du Québec. Nous avions pris contact avec les éditeurs qui ont bien voulu - à distance et par écrit - témoigner de leur expérience, en particulier sur de l'association de ce thésaurus avec KEA++ utilisés pour guider l’indexation automatique et des projets de mettre cette ressource dans le web (de données).
Merci à eux.
Je vous présente donc Danielle Parent et Richard Parent (historique de la fabrication du thésaurus).
Qu’est-ce qui a motivé le développement du TAG?
À l’origine des travaux vers 2003, ce sont les besoins de classification par sujet du contenu des documents et des dossiers en gestion des documents et des archives qui ont servi de moteur à l’élaboration de quelques schèmes de classification.
Un schème de classification étant constitué d’une collection de termes, une structure de thésaurus nous a paru la plus appropriée pour en gérer le cycle de vie, tant son utilisation que son édition. Le contexte était donc assez classiquement de servir de vocabulaire contrôlé à l’indexation de contenu en milieu administratif. Les efforts en ce sens ont toutefois eu un succès mitigé en raison des difficultés à faire progresser les pratiques en gestion des documents et des archives. Un projet de ¨politique d’indexation ¨ tentant de convaincre les personnes à contribuer à la saisie de métadonnées de documents créés et reçus apparaît toujours comme l’inaccessible étoile. Les responsables administratifs ne veulent pas s’engager dans cette voie, d’autant moins que les pratiques de gestion documentaire sont assez peu exemplaires et peu valorisées dans notre milieu administratif. Alors la métadonnée de classification par sujet est peu visible sur de nombreux écrans radar… et l’atout que constitue un vocabulaire contrôlé n’est pas partagé très largement, la perception dominante étant que trop de documents sont continûment créés pour qu’on aie le loisir d’en annoter le contenu avec des descripteurs.
Cet écueil vous a-t-il conduit à modifier votre démarche?
Aujourd’hui donc, les utilisateurs humains du thésaurus sont toujours visés par nos efforts. Le principe d’annoter les ressources avec un vocabulaire contrôlé est en effet préservé, mais le principal bénéfice attendu se situe maintenant dans la capacité qu’ont les moteurs de recherche d’exploiter la richesse sémantique du TAG grâce au véhicule de structure conceptuelle qu’offre le standard SKOS. Les travaux menés en Nouvelle-Zélande sur KEA++ permettent en effet de guider utilement l’indexation automatique effectuée par l’algorithme statistique de calcul de pertinence avec l’aide des associations, en particulier hiérarchiques. On parle d’indexation supervisée soit pour exclure, avant le calcul vectoriel à la base du calcul de pertinence, des chaînes de caractères extraites du corpus, soit pour pondérer plus fortement des similitudes de collocation entre corpus et thésaurus; on parle aussi de catégorisation automatique des résultats en regroupant les éléments de résultat en fonction de la structure hiérarchique du thésaurus.
Cette perspective nous a menés à rechercher un jeu d’entraînement le plus riche possible : un tel jeu d’entraînement doit être constitué d’un corpus de documents déjà indexés par des humains de sorte que l’algorithme puisse se construire des vecteurs pour les descripteurs. Un corpus déjà indexé avec un vocabulaire de portée comparable au TAG existe sous la forme du Journal des Débats de l’Assemblée Nationale du Québec. Afin de s’en servir comme jeu d’entraînement, et comme il existe un Thésaurus du Journal des Débats, un travail d’alignement sémantique entre ce thésaurus et le TAG a été entrepris. Ce travail est en cours de réalisation; la proximité est grande entre ces deux thésaurus de sorte que nous sommes en voie de procéder à un enrichissement du TAG par intégration de l’autre thésaurus sous forme de nouveaux descripteurs, mais surtout de nouveaux non-descripteurs. Lorsque cette intégration aura été complétée, le Journal des Débats, comprenant des dizaines de milliers de pages indexées par des professionnels servira de jeu d’entraînement pour notre moteur de recherche. Une fois cette étape franchie, l’ensemble des documents gouvernementaux du Québec sera l’objet d’indexation automatique avec les vecteurs des descripteurs alimentés par le Journal des Débats. Parmi les bénéfices escomptés se situe la catégorisation automatique des résultats d’une recherche qui offre une capacité de sélection par sujet à la personne qui effectue un repérage.
Quels sont vos autres projets?
Notre capacité à produire un fichier SKOS conforme est en voie de transition de Java à C++ pour des motifs de disponibilité de compétences accessibles à notre modeste projet. D’ici quelques mois, le TAG sous forme de fichier SKOS sera rendu disponible sur le site du TAG. D’ici deux ans, nous comptons aller plus loin et introduire le TAG dans le `Web sémantique ` en travaillant sur deux alignements sémantiques, d’une part avec le Thésaurus des sujets du gouvernement du Canada et d’autre part avec Eurovoc. Dans les deux cas, il s’agit bien sûr de documenter l’alignement avec la version en français. SKOS servira à la mise en réseau de ces alignements dans le but de tirer profit de ce moyen pour poursuivre l’interopérabilité sémantique. Dans le même temps, nous procéderons à l’adoption de SPARQL dans un double but : éditer le TAG à-la-Web 3.0 en le situant dans le nuage des données ouvertes liées (LOD cloud ).
Pouvez-vous nous parler un peu de vous deux, les coéditeurs de ce thésaurus ?
Richard Parent a une formation en psychologie avec une orientation cognitive (Université de Montréal). Danielle Parent a une formation en sciences- mathématiques, en lettres et en pédagogie. Après avoir enseigné, pendant près de dix années, le français langue seconde à la Commission de la Fonction publique du Canada et à l’université Laval à Québec, elle amorce une carrière dans la fonction publique du gouvernement du Québec, notamment comme rédactrice et édimestre pour le Répertoire des services gouvernementaux du Québec. La responsabilité de mise à jour de cet index a amené Danielle à s’intéresser au contrôle de vocabulaire. Elle partage depuis le début la responsabilité de l’élaboration et de la mise à jour du TAG à titre de coéditrice.
Que conseilleriez-vous à des professionnels de l’information documentaire souhaitant s’engager dans ce type de réalisation?
Le lieu organisationnel de cette réalisation comporte un important volet de soutien technique : comment le mieux tirer profit d’un environnement technique complexe? Les exigences de continuité sur une longue période font que l’aspect langue et cognition sont les plus essentiels : avoir l’amour des mots et de la langue française, doublé d’un esprit cartésien et d’un bon jugement sont des atouts pour la réussite de ce type de réalisation. Ensuite, de la minutie, de la patience et de la passion pour le travail bien fait augmente les chances de réussite. Enfin, avoir un bon domaine à décortiquer, de bons outils et l’appui de notre organisation assureront une expérience motivante et inoubliable.
Merci infiniment à Danièle et Richard, et bonne suite dans vos projets !
Les commentaires récents