Evoquant les thésaurus, on arrive immanquablement au Web sémantique.
Prenons un peu de temps pour dégrossir ce sujet avant de plonger dans les développement du Web qui concerne directement les vocabulaires contrôlés, tels les thésaurus, classifications et autres : le projet SKOS.
Mais qu'est-ce-que le Web sémantique ?
Une nouvelle méthode de management ? une technologie ?
Je dirais plus volontiers : un projet d'avenir, dont les propositions peuvent être exploitées comme cadre de développement de projets conduits aujourd'hui. Lorsque le projet porte sur des vocabulaires contrôlés d'accès à l'information, le Web sémantique oblige à plus de rigueur en particulier dans la sélection des concepts, des termes et des relations. Ce qui ne fait jamais de mal.
Si l'intérêt du Web sémantique dans le monde des langages est intéressant, cela nous oblige à faire un détour par le vocabulaire de ce domaine. Nous allons donc aborder URI, RDF, XML, PURL...
Le projet de Web sémantique naît de critiques adressées au Web actuel, et plus particulièrement des frustrations dans les résultats de recherche avec les moteurs. Ces problèmes sont dues pour beaucoup à l’impossibilité de lever les ambiguïtés liées aux langues ou aux cultures, et contextes. Il en résulte pour l'utilisateur un important travail de filtrage des résultats proposés. Le Web d'aujourd’hui est essentiellement destiné à être lu par des humains : il ne peut être manipulé de façon intelligente par des programmes informatiques. Voilà le projet : rendre possible des traitements automatiques.
Le Web sémantique, considéré comme un projet à long terme, doit s’analyser en prenant en compte notre environnement de travail actuel, et en particulier : une informatisation accrue dans toutes les activités humaines ; une utilisation aujourd’hui exclusive des technologies Internet et une extension de l’utilisation du Web comme moyen de partage et de communication d’information ; une prise en compte de tout objet informationnel, quels que soient leurs formats ou natures ; enfin les difficultés d’interopérabilité rencontrées entre applications rendent coûteuses, complexes voire impossibles les échanges entre ces systèmes.
C’est dans ce contexte que le projet Web sémantique est né à partir d’une idée lancée en 1998 par Tim Berners-Lee, l’inventeur du Web.
Le Web sémantique est ici envisagé comme une extension du Web
courant : il utilise toute l’infrastructure technique du Web et rien a
priori dans l’interface utilisateur n’est modifié. Par contre, des
agents logiciels en parcourant ce Web pourront réaliser des tâches sans
intervention humaine grâce à la mise à disposition d’informations
enrichies (métadonnées, vocabulaires RDF, URI, ontologies) et à des
mécanismes permettant d’effectuer des traitements automatisés au sein
et surtout entre applications (interopérabilité).
Composants du Web : métadonnée, RDF et URI
Les composants majeurs du Web sémantique sont :
- les métadonnées : leur rôle est largement amplifié par rapport à leur usage actuel, et leurs caractéristiques se complexifient en particulier leurs descriptions doivent suivre des règles de descriptions (DTD, schéma ou annotation RDF).
- RDF (Resource Definition Framework) est un langage qui sert de cadre formel pour décrire des "ressources". Dans le contexte RDF, tout ce qui est manipulé s’appelle ressource. A chaque élément décrit correspond un triplet RDF qui définit précisément cet élément. Cet ensemble d’information produite peut alors être traitée automatiquement par un programme informatique.
- Pour aller plus loin, le triplet recouvre :
- le sujet : la ressource décrite. Exemple : Article « Ontologie, thésaurus, taxonomie et Web sémantique » de Karl Dubost (http://www.la-grange.net/2004/03/19.html)
- le prédicat : propriété ou attribut. Exemple – rdf :creator
- l’objet : valeur pour telle propriété. Exemple – Karl Dubost
Une ressource spécifique au sens RDF associée à une propriété définie, ainsi que la valeur de cette propriété pour cette ressource, est appelée une déclaration RDF. - Les URI (Uniform Resource Identifier = identifiant uniforme de ressource). Talon d’Achille du web, l’URI représente les « points » de l’espace d’information qu’est le Web. Une nouvelle version de ce protocole a été émise en 2005 (RFC 3986 de janvier 2005). L’URI est le protocole qui normalise la syntaxe de la chaîne de caractères qui identifie une ressource physique (image, document sur le web) ou abstraite (concepts). Cet identificateur permet ainsi de distinguer des ressources entre elles. Parmi les URI, on peut distinguer : l’URL (Uniform resource locator – Localisation de ressource uniforme) qui localise la ressource ; l’URN (Universal Resource Name = Nom de ressource uniforme) qui l’identifie indépendamment de sa localisation ; moins connu mais déjà présents , on peut également citer l'URC (Uniform Resource Characteristic = Caractéristiques de ressource uniforme), sous-ensemble des URN non spécifiée à ce jour, qui fournit la liste des attributs de la ressources (un des attributs pouvant être son URL) et fournit des clés d’accès (attributs) pour rechercher une ressource.
Un exemple d'une description bibliographique (extrait) d’un article,
suivant les règles Dublin Core et exprimé selon un schéma (simplifié)
RDF.
================================================================
<?xml version="1.0"?>
<!DOCTYPE rdf:RDF PUBLIC "-//DUBLIN CORE//DCMES DTD 2002/07/31//EN"
"http://dublincore.org/documents/2002/07/31/dcmes-xml/dcmes-xml-dtd.dtd">
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/">
<rdf:Description rdf:about=" http://www.la-grange.net/2004/03/19.html /">
<dc:title> Ontologie, thésaurus, taxonomie et Web sémantique</dc:title>
<dc:creator>Karl Dubost</dc:creator>
<dc:publisher>La Grange.net</dc:publisher>
<dc:date>2004-03-19</dc:date>
</rdf:Description>
</rdf:RDF>
--------------------------------------------------------------------
Que reconnaît-on ?
- dc:title, dc:creator, dc:publisher, dc:date
- on peut noter la localisation de la ressource : Description rdf:about=...
Ce qui est en plus ?
- http://dublincore.org/documents/2002/07/31/dcmes-xml/dcmes-xml-dtd.dtd
La localisation où l’on peut trouver des informations sur le schéma RDF utilisé, ici un schéma RDF simplifié pour Dublin Core qui s’appuie sur la syntaxe RDF original de 1999. - http://www.w3.org/1999/02/22-rdf-syntax-ns#
La localisation (URL) du schéma RDF original - http://purl.org/dc/elements/1.1/
La localisation permanente (PURL) qui oriente vers l’URL en cours (http://dublincore.org/2003/03/24/dces#) où se trouve présenté l’ensemble des éléments composant le Dublin Core. - au début et à la fin, le balisage indiquant qu'il s'agit d'une expression RDF et d'un traitement XML
En bref, chaque métadonnée, chaque élément utilisé dans un schéma
RDF doit être décrit, documenté et localisé sur le web. Dans notre
exemple, tous les éléments présents dans la norme de métadonnée Dublin
Core (ISO 15836:2003) sont individuellement précisés selon le
formalisme RDF/XML.
===============================================================
SchémaRDF ou Vocabulaire RDF
Parmi les composants RDF, SchémaRDF constitue un élément clé.
Ce
formalisme permet de décrire des vocabulaires (au sens RDF) contrôlés,
exploités pour étiqueter, annoter, décrire les métadonnées et leur
organisation, et ceci quelles que soient ces données (un document, une
page d’accueil, mais aussi un objet précis comme un thésaurus, une
biographie, …).
Pour définir et décrire ces vocabulaires contrôlés utiles au Web sémantique, on exploite donc le modèle de schéma RDF d’où le terme de "vocabulaire RDF" que nous nous proposons d’utiliser pour le distinguer des vocabulaires contrôlés en documentation (thésaurus, liste de vedettes-matière...), faisant l'objet de normes.
Plusieurs vocabulaires RDF ont déjà été développés ou sont en projet. On peut citer :
- BIO, vocabulaire permettant de décrire des informations biographiques (http://purl.org/vocab/bio/0.1/bio-vocab-20040305)
- FOAF ("Friend of a friend"), vocabulaire RDF permettant de décrire des personnes et les relations qu'elles entretiennent entre elles (http://www.foaf-project.org/)
Pour résumer
Le Web Sémantique cherche à rendre exploitable et interprétable par
les machines, le contenu du Web, en fournissant des informations
supplémentaires. Ces informations ne sont pas générées spontanément, et
supposent une structuration et un formalisme des objets numériques ou
ressources, beaucoup plus approfondis et explicites que dans le Web
actuel.
C'est dans ce contexte que se développent le rôle et la spécialisation :
- des métadonnées : description de documents, mais aussi de personnes, de relations entre personnes, de droits sur des oeuvres, de données géospatiales, d’enquêtes, .de chacun des termes d’un thésaurus, ... (un exemple de répertoire de schémas RDF> http://www.schemas-forum.org/registry/registry.html)
- des identificateurs au sens de repère précis pour la machine avec les URN et leurs développements
- des vocabulaires RDF (Schéma RDF)
Pour en savoir un peu plus
- Introduction à RDF, Philippe Lahaye, 15 octobre 2004, http://xmlfr.org/documentations/tutoriels/041015-0001
- Qui suis-je ? une URI, Karl Dubost, mars 2004, http://www.la-grange.net/2004/03/04.html
- Hypertexte et documents numériques, Hervé Le Crosnier, 2004, http://users.info.unicaen.fr/~herve/ens0405/diaposURI/diapo1.html
Les commentaires récents