Microformats

Pour le cas où vous ne vous en seraiez pas encore aperçus, le Web est en crise … de croissance : trop d’informations de toutes sortes, trop de sites, des utilisateurs noyés sous la masse des réponses faites par les moteurs,….

Dans le monde du Web, l’axe de travail privilégié pour améliorer la situation consiste à mettre de la sémantique dans le Web … en tout premier lieu à l’attention des machines !
En effet, lorsque je lis un texte qui présente le CV d'une personne ou qui correspond à une carte de visite, mais aussi à une notice bibliographique, je sais – peu ou prou – que tel mot correspond au nom de la personne présentée dans le CV, je comprends que le texte qui suit le mot « formation » concerne la formation suivie par la personne, et je peux deviner que ce numéro barbare est un ISBN…

Mais la machine, elle, ne comprend rien à tous ces mots mis à la suite les uns des autres. Il faut donc structurer ce qui ne l’est pas à son attention. Bien sûr pour qu’in fine, des robots intelligents et plutôt spécialisés, trouvent des réponses un peu plus pertinentes aux diverses questions que l’on pose sur le Web.

Avec les micro-formats, on associe des « micro-métadonnées » à du contenu non-structuré.  Techniquement, pas de schéma RDF ou de modèle complexe : ce sont des propriétés rajoutées aux balises HTML existantes. A faire bien sûr par les professionnels du codage html !
Il s’agit donc d’améliorer XHTML, sans révolutionner, ni complexifier le Web actuel : ces microformats ne perturbent pas les feuilles CSS, ni les humains d’ailleurs puisqu’ils sont conçus pour être également compris par eux. Après quelques adaptations sur les balises des pages existantes, ces dernières sont exploitables par des robots, des protocoles, (des web services ?), bref des agents informatiques devenus, par la même occasion, intelligents. Bref, le web sémantique du pauvre.

Les balises méta du langage HTML, inexploitées d'ailleurs par la majorité des auteurs et donc par les moteurs, reviennent à la mémoire de certains. Mais ces dernières se trouvaient en tête du document Web, alors qu'ici la structuration concerne bien le contenu, et pas uniquement ce que l'on pourrait appeler sa notice bibliographique. Changement majeur.

Lire la suite "Microformats" »

Sujets, concepts et classes : des distinctions fondamentales

Il existe trois grandes familles de vocabulaires contrôlés utilisés pour l'indexation et l'accès à l'information qu'il convient de bien distinguer : listes de sujets, thésaurus et plan de classification.

Nous proposons dans cette fiche synthétique de traiter, à partir de la notion de "sujet documentaire", des fondements de ces langages : les "sujets" d'une liste de sujets, les "concepts" d'un thésaurus et les "classes" d'un plan de classification....

Lire la suite "Sujets, concepts et classes : des distinctions fondamentales" »

Interopérabilité entre langages : le projet HiLT

Le projet HiLT (High-level Thesaurus Project ou Projet de Thésaurus de haut niveau) a pour but de présenter un ensemble de recommandations concernant l’interopérabilité des accès dits matière entre systèmes documentaires, et la navigation par sujets « dans un contexte où il y a une variété de communautés, de services ainsi que de types de services ou de ressources ».

Piloté par le RSLP (Research Support Libraries Programme - http://www.rslp.ac.uk/) et JISC (Joint Information Systems Committee - http://www.jisc.ac.uk/) au Royaume-Uni, ce projet concerne les dispositifs proposés par « les archives, les services électroniques, le milieu des bibliothèques et des musées ».

Initié au début des années 2000, HiLT va bientôt entrer dans sa troisième phase :

Phase I : l’étude du contexte et des problématiques posées a conclu à l’intérêt pour des systèmes d’interopérabilité entre langages contrôlés.
Rapport final de 2001, http://hilt.cdlr.strath.ac.uk/Reports/FinalReport.html

Phase II : un pilote de mise en correspondance (mapping) terminologique entre vocabulaires documentaires a été réalisé. Il assure les échanges avec d’autres services partagés, plutôt qu’un accès direct à l’utilisateur d’où le terme de M2M pour machine-to-machine.
Le processus est initié par la requête posée sur un système A par un utilisateur ; le système A interroge le serveur terminologique pour trouver d’autres ressources. Le prototype est structuré autour de la classification décimale Dewey (quelques niveaux hiérarchiques, mais plus de niveaux que dans l’interface DeweyBrowser). Le prototype prend en compte la LCSH (liste des vedettes matières de la Library of Congress), quelques centaines de termes du thésaurus de l’Unesco ou du MeSH, dans les domaines de la santé, de la médecine et de l’éthique. La faisabilité pour le développement d’une interface SOAP adaptée a également été conduite.

Phase III : dans cette phase qui débute en novembre 2005 pour une période de 15 mois, il s’agira de développer un serveur M2M (machine-to-machine). Celui-ci offrira un accès de type service web avec le protocole SRW basé sur SOAP - des extensions possibles dans le future à d’autres protocoles comme Z39.50 ou SRU par exemple. Le dispositif exploitera le noyau SKOS pour l’encodage des vocabulaires et des réponses “classificatoires” avec des possibilités ultérieures d’exploitation d’autres formats comme Zthes ou MARC.

Ressources utilisées

Lire la suite "Interopérabilité entre langages : le projet HiLT" »

Quelques caractéristiques du schéma RDF SKOS


New_2Prise en compte de la nouvelle version du Vocabulaire SKOS de base du 6 Octobre 2005 (http://www.w3.org/2004/02/skos/core/spec/2005-10-06/)

Création : le 16 septembre 2005
Mise à jour : le 9 Octobre 2005


Le schéma RDF SKOS est modèle conceptuel pour les vocabulaires contrôlés, comme les thésaurus. Il a été proposé initialement en avril 2005. Une nouvelle version a été proposée le 6 Octobre 2005, mais ces spécifications sont restent en septembre 2005 toujours en discussion. Le schéma RDF, objet de cette note, peut donc tout à fait être encore modifié.
Mais sans attendre une version définitive, il nous semblait intéressant de faire ressortir quelques points particuliers de ce modèle, dont certains peuvent être assez différents des normes thésaurus.

Merci à Mr Vatant de Mondeca, participant actif de SKOS, pour ses éclairages sur une terminologie et des notions parfois éloignées de nos pratiques !

Lire la suite "Quelques caractéristiques du schéma RDF SKOS" »

Zthes, profil Z39.50 pour la navigation dans un thésaurus


Zthes est un profil Z39.50 qui permet de naviguer et de sélectionner des termes au sein d’un thésaurus. Ce profil définit un modèle abstrait pour représenter les termes du thésaurus utilisables dans une recherche sous la forme d'une DTD XML Zthes, ainsi que les moyens pour implémenter ce modèle.
Nous présentons brièvement les finalités de Z39.50 et de ses profils, ainsi que le profil Zthes. Un extrait d'un thésaurus présenté selon la DTD Zthes est exposé à la fin de la note.


Lire la suite "Zthes, profil Z39.50 pour la navigation dans un thésaurus" »

Thésaurus et Web Sémantique : le vocabulaire RDF SKOS


Présentation synthétique de SKOS, vocabulaire RDF pour l’encodage de schémas de concepts simples, tels que les thésaurus ou les plans de classement, prenant en compte les nouvelles versions du Guide et du Vocabulaire de base, d'octobre 2005.

Création :  19 Août 2005 - Mise à jour : 9 Octobre 2005
Voir aussi la note du 16/09/2005, mise à jour le 09/10/05 : Quelques caractéristiques du schéma RDF SKOS


SKOS (Simple Knowledge Organisation System) est un vocabulaire RDF développé sous l’égide du W3C, permettant de définir selon le formalisme RDF, des systèmes d'organisation simple de la connaissance (classifications, thésaurus….).

Les langages formels comme OWL, utilisés pour la conception d'ontologie dans le cadre du Web sémantique, ont parfois une logique formelle trop stricte et rendent difficile la prise en compte par exemple de la langue naturelle et des usages. C'est dans ce contexte que SKOS a été proposé ; il permet entre autre de prendre en compte le fait qu'un même concept peut avoir plusieurs appellations et qu'une appellation peut être préférée à d'autres, toutes choses bien connues des spécialistes des langages documentaires contrôlés.

Avec SKOS, nous entrons dans le monde du Web sémantique et de son formalisme.

Lire la suite "Thésaurus et Web Sémantique : le vocabulaire RDF SKOS" »