« septembre 2005 | Accueil | novembre 2005 »

22 octobre 2005

La nouvelle norme américaine sur les vocabulaires contrôlés (NISO Z39.19-200x)

La proposition d'évolution de la norme sur les thésaurus faite par la NISO (National Information Standards Organization) a été approuvée en Juillet 2005 par l'ANSI (American National Standards Institute).
Elle est encore en accès libre (et gratuit) sur le site de la NISO avant publication officielle (elle sera alors payante ;-).

La NISO  "repère, développe, maintien et publie des normes techniques pour le management de l'information dans un environnement évolutif et toujours plus numérique qu'est le notre (libre traduction de About NISO)". NISO représente les USA auprès de l'ISO/TC46 (Information & documentation).
Bref un regroupement professionnel autonome par rapport à la structure officielle de normalisation.

Une vaste étude avait été engagée dès 1999 au sein de l'ANSI. Les résultats montraient  qu'un simple "toilettage" de la norme n'était pas suffisant. D'où des changements importants :

  • D'abord sur le territoire de la norme : du thésaurus, on passe à une prise en charge des vocabulaires contrôlés, c'est-à-dire des thésaurus mais aussi des lexiques, listes de synonymes et taxonomies, les règles portant sur les termes étant considérés comme identiques pour ces différents vocabulaires. D'où le titre de la nouvelle norme Z39.19 : "Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies".
  • Rigueur et précision dans la présentation du coeur de la norme (les termes, leurs relations);
  • Officialisation, sous la forme d'une notation spécifique, des relations partitives (TGP/TSP) et d'instance (TSI/TGI).
  • Une prise en compte de la diversité des publics : gestionnaire/éditeur ou utilisateur final, et de celle des supports (papier, écran, Web) pour la présentation des vocabulaires.
  • Les questions liées à l'interopérabilité fait l'objet d'un chapitre autonome.
  • Un autre chapitre traite de la construction et de la maintenance des vocabulaires contrôlés. Ce dernier inclut une liste de fonctionnalités que devraient posséder les outils informatiques de gestion des langages.

Complétée par de nombreux exemples (qui ne sont pas officiellement inclus dans la norme) et rédigée avec un souci de clarification voire pédagogique, la norme ainsi enrichie, totalise.... 188 pages.
Bonne lecture !

Vous êtes concernés par Rameau : voici l’article de l’année !

Rameau : Bilan, perspectives, de Michel Mingam
BBF 2005 - Paris, t. 50, n° 5.

Une 1ère partie présente les différents étapes historiques et les choix successifs qui ont abouti à la situation actuelle. Situation présentée dans une 2ème partie : ampleur et contradictions de Rameau. Dans une 3ème partie, l'auteur fait l’analyse du langage aux trois plans terminologiques, sémantiques et syntaxiques. Des propositions très concrètes d’évolution sont à la fois articulées au sein de l’analyse et exposées en conclusion. Dont celles portant sur la simplification de la syntaxe.

Morceaux choisis :

  • « le caractère précoordonné de Rameau suscite des difficultés récurrentes dans sa mise en œuvre »
  • « le niveau syntaxique a tendance à mobiliser une part essentielle du temps, de l’énergie et de la réflexion collective, trop souvent au détriment de la question du vocabulaire »
  • Pour les pistes : 
  • « Un vocabulaire riche en termes exclus »
  • «  lier étroitement le travail sur le niveau sémantique et celui consacré au niveau terminologique»
  • « d’inverser les priorités… primauté au niveau terminologique… »
  • « L’idéal….une liste de subdivisions … en nombre restreint et d’un emploi très large … "
  • « … quelques règles de syntaxe simples d’utilisation, avec le moins possible d’exceptions. »

Tous ces axes de changement, probablement les meilleurs sur les plans fonctionnels et économiques (bien que ce terme d’économie ne soit jamais réellement utilisé), seront bien sûrs encadrés pour ne pas dire limités par le volume des corrections qui seraient à réaliser sur les catalogues existants.

Sans jamais faire usage de la terminologie propre aux normes de thésaurus (équivalents documentaires, relations hiérarchiques, relations hiérarchiques d’instance par exemple), il s’agit apparemment d’en exploiter pleinement leurs règles. Dès lors les travaux de mise en correspondance entre Rameau et d’autres langages, travaux qui nous sont régulièrement demandés, s’en trouveraient bien simplifiés aussi...

Je me voyais partir à la retraite avant que quiconque "de l'intérieur" (l'auteur est de la BNF) n’écrive un tel article ! Nous attendons avec impatience les réactions terrain !

21 octobre 2005

Des grilles d'analyse : ils en parlent.

Les "grilles d'analyse" sont exploitées dans de nombreux secteurs, et pour des usages variés.
Nous avons pu identifier des grilles pour : analyser, structurer la lecture, la recherche, la rédaction.....
La modèlisation des documents numériques et les schémas dans le cadre du XML relèvent de cette même nécessité de structurer et d'analyser, pour retrouver, comparer, ...

Ci-après des extraits de textes présentant des grilles (d'analyse, d'indexation, de lecture, de recherche...). Ces grilles associent des éléments descriptifs (titre, auteur, support, ...) et des éléments d'analyse des contenus.

Lire la suite "Des grilles d'analyse : ils en parlent." »

15 octobre 2005

Microformats

Pour le cas où vous ne vous en seraiez pas encore aperçus, le Web est en crise … de croissance : trop d’informations de toutes sortes, trop de sites, des utilisateurs noyés sous la masse des réponses faites par les moteurs,….

Dans le monde du Web, l’axe de travail privilégié pour améliorer la situation consiste à mettre de la sémantique dans le Web … en tout premier lieu à l’attention des machines !
En effet, lorsque je lis un texte qui présente le CV d'une personne ou qui correspond à une carte de visite, mais aussi à une notice bibliographique, je sais – peu ou prou – que tel mot correspond au nom de la personne présentée dans le CV, je comprends que le texte qui suit le mot « formation » concerne la formation suivie par la personne, et je peux deviner que ce numéro barbare est un ISBN…

Mais la machine, elle, ne comprend rien à tous ces mots mis à la suite les uns des autres. Il faut donc structurer ce qui ne l’est pas à son attention. Bien sûr pour qu’in fine, des robots intelligents et plutôt spécialisés, trouvent des réponses un peu plus pertinentes aux diverses questions que l’on pose sur le Web.

Avec les micro-formats, on associe des « micro-métadonnées » à du contenu non-structuré.  Techniquement, pas de schéma RDF ou de modèle complexe : ce sont des propriétés rajoutées aux balises HTML existantes. A faire bien sûr par les professionnels du codage html !
Il s’agit donc d’améliorer XHTML, sans révolutionner, ni complexifier le Web actuel : ces microformats ne perturbent pas les feuilles CSS, ni les humains d’ailleurs puisqu’ils sont conçus pour être également compris par eux. Après quelques adaptations sur les balises des pages existantes, ces dernières sont exploitables par des robots, des protocoles, (des web services ?), bref des agents informatiques devenus, par la même occasion, intelligents. Bref, le web sémantique du pauvre.

Les balises méta du langage HTML, inexploitées d'ailleurs par la majorité des auteurs et donc par les moteurs, reviennent à la mémoire de certains. Mais ces dernières se trouvaient en tête du document Web, alors qu'ici la structuration concerne bien le contenu, et pas uniquement ce que l'on pourrait appeler sa notice bibliographique. Changement majeur.

Lire la suite "Microformats" »

L'index du site...

Impossible de couper à un index pour ce site.
Le voici, à peaufiner, enrichir...
Le plan pour addictif type;-)

09 octobre 2005

Sujets, concepts et classes : des distinctions fondamentales

Il existe trois grandes familles de vocabulaires contrôlés utilisés pour l'indexation et l'accès à l'information qu'il convient de bien distinguer : listes de sujets, thésaurus et plan de classification.

Nous proposons dans cette fiche synthétique de traiter, à partir de la notion de "sujet documentaire", des fondements de ces langages : les "sujets" d'une liste de sujets, les "concepts" d'un thésaurus et les "classes" d'un plan de classification....

Lire la suite "Sujets, concepts et classes : des distinctions fondamentales" »

Interopérabilité entre langages : le projet HiLT

Le projet HiLT (High-level Thesaurus Project ou Projet de Thésaurus de haut niveau) a pour but de présenter un ensemble de recommandations concernant l’interopérabilité des accès dits matière entre systèmes documentaires, et la navigation par sujets « dans un contexte où il y a une variété de communautés, de services ainsi que de types de services ou de ressources ».

Piloté par le RSLP (Research Support Libraries Programme - http://www.rslp.ac.uk/) et JISC (Joint Information Systems Committee - http://www.jisc.ac.uk/) au Royaume-Uni, ce projet concerne les dispositifs proposés par « les archives, les services électroniques, le milieu des bibliothèques et des musées ».

Initié au début des années 2000, HiLT va bientôt entrer dans sa troisième phase :

Phase I : l’étude du contexte et des problématiques posées a conclu à l’intérêt pour des systèmes d’interopérabilité entre langages contrôlés.
Rapport final de 2001, http://hilt.cdlr.strath.ac.uk/Reports/FinalReport.html

Phase II : un pilote de mise en correspondance (mapping) terminologique entre vocabulaires documentaires a été réalisé. Il assure les échanges avec d’autres services partagés, plutôt qu’un accès direct à l’utilisateur d’où le terme de M2M pour machine-to-machine.
Le processus est initié par la requête posée sur un système A par un utilisateur ; le système A interroge le serveur terminologique pour trouver d’autres ressources. Le prototype est structuré autour de la classification décimale Dewey (quelques niveaux hiérarchiques, mais plus de niveaux que dans l’interface DeweyBrowser). Le prototype prend en compte la LCSH (liste des vedettes matières de la Library of Congress), quelques centaines de termes du thésaurus de l’Unesco ou du MeSH, dans les domaines de la santé, de la médecine et de l’éthique. La faisabilité pour le développement d’une interface SOAP adaptée a également été conduite.

Phase III : dans cette phase qui débute en novembre 2005 pour une période de 15 mois, il s’agira de développer un serveur M2M (machine-to-machine). Celui-ci offrira un accès de type service web avec le protocole SRW basé sur SOAP - des extensions possibles dans le future à d’autres protocoles comme Z39.50 ou SRU par exemple. Le dispositif exploitera le noyau SKOS pour l’encodage des vocabulaires et des réponses “classificatoires” avec des possibilités ultérieures d’exploitation d’autres formats comme Zthes ou MARC.

Ressources utilisées

Lire la suite "Interopérabilité entre langages : le projet HiLT" »

Quelques caractéristiques du schéma RDF SKOS


New_2Prise en compte de la nouvelle version du Vocabulaire SKOS de base du 6 Octobre 2005 (http://www.w3.org/2004/02/skos/core/spec/2005-10-06/)

Création : le 16 septembre 2005
Mise à jour : le 9 Octobre 2005


Le schéma RDF SKOS est modèle conceptuel pour les vocabulaires contrôlés, comme les thésaurus. Il a été proposé initialement en avril 2005. Une nouvelle version a été proposée le 6 Octobre 2005, mais ces spécifications sont restent en septembre 2005 toujours en discussion. Le schéma RDF, objet de cette note, peut donc tout à fait être encore modifié.
Mais sans attendre une version définitive, il nous semblait intéressant de faire ressortir quelques points particuliers de ce modèle, dont certains peuvent être assez différents des normes thésaurus.

Merci à Mr Vatant de Mondeca, participant actif de SKOS, pour ses éclairages sur une terminologie et des notions parfois éloignées de nos pratiques !

Lire la suite "Quelques caractéristiques du schéma RDF SKOS" »

Les notes récentes


  • Infos&Contact

Compteur

Blog powered by TypePad
Membre depuis 11/2004