La structure conceptuelle des thésaurus - et plus largement des systèmes d'organisation de concepts (classification, schémas de métadonnées,...) - donne à voir une vision particulière de la réalité qu'ils représentent.
J'avais précédemment abordé cette question avec la représentation du concept "bois" dans plusieurs vocabulaires contrôlés. Aujourd'hui nous passons en revue le concept géographique de la France à travers 4 vocabulaires : le "Multilingual Thesaurus of Nations", le thésaurus Eurovoc, Rameau et le vocabulaire de l'INSEE.
Aucun jugement ici sur ces différents outils, mais simplement une occasion de rappeler l'obligation qui nous est faite d'étudier précisément le contexte d'usage des vocabulaires (et leur histoire) pour comprendre les modèles sous-jacents, avant de travailler sur des alignements. La dernière partie du billet évoque la modélisation et l'encodage aux couleurs du Web.1. Voici un (bon vieux) thésaurus modélisé selon les règles des années 1970.
2. Multilingual Thesaurus of Nations : les pays et leurs relations
3. Eurovoc : les pays s'inscrivent dans des divisions politiques et économiques
4. Rameau : la France, un pays en Europe
5. INSEE : la France en détail
6. Modéliser pour les machines : rdf et skos
1. Voici un (bon vieux) thésaurus modélisé selon les règles des années 1970.
Ce format peut tout à fait convenir encore aujourd'hui si vous n'avez aucun besoin d'interopérer avec d'autres contenus ...
Revenons au modèle de représentation (des parties) de thésaurus consacrés à la géographie : en fait, le même modèle que pour les autres parties d'un thésaurus. Ainsi, Europe, Nations, Paris, Union européenne ou Andorre sont traités comme des entités de même nature ; les relations qui les relient sont de nature générale : équivalente (UF - used for), générique (BT - broader term en anglais), spécifique (NT - narrow term) ou associative (RT - related term).
2. Multilingual Thesaurus of Nations : les pays et leurs relations
Dans ce thésaurus (exclusivement géographique) de couverture mondiale, les pays (France) sont répartis sur des continents (Eurasie/Europe) et localisés dans leur environnement de proximité (pays voisins et appartenance à une région administrative - Union européenne) ; les capitales sont repérées.
Travail de sémantisation réalisé par Thesaurus
Builder -
http://www.thesaurusbuilder.com/Downloads/Thesaurus%20of%20Nations%20%28with%20ontological%20relationships%29.pdf
- la relation associative (RT) a été typée en relation "a pour (pays) voisins (Neighbor) ;
- la relation associative (RT) a été transformée dans d'autres cas, en relation hiérarchique d'appartenance : "est membre de" l'Union européenne ;
- la relation générique/spécifique (BT/NT) France/Paris a été typée ici en relation "a pour capitale" (via une propriété des villes d'être une capitale) ;
- la relation générique/spécifique BT/NT) Europe occidentale/France a été transformée en une relation d'appartenance à une catégorie géographique (physique) particulière : Europe-Europe occidentale .
Le travail de sémantisation a essentiellement porté sur le typage des relations.
3. Eurovoc : les pays s'inscrivent dans des divisions politiques et économiques variées
Dans ce thésaurus de l'UE, l'environnement économique et politique des pays est particulièrement détaillé.
Eurovoc distingue ainsi la géographie économique (MT 7231) et la géographie politique (MT7236), de la structuration géographique des continents. Il reste toutefois modélisé suivant la sémantique courante des thésaurus (BT/NT de SKOS) pour relier ces concepts et les pays d'appartenance. Une sémantisation particulière de la partie géographique du thésaurus a été réalisée en 2010 : un type de concept a été défini pour les pays (eu:Country), avec une propriété particulière eu:isoCountryCode (2 caractères ISO).
Le travail de sémantisation réalisé spécifiquement par Eurovoc porte sur la mise en avant d'un type de concept particulier : le pays.
4. Rameau : la France, un pays en Europe
France dans RameauRameau offre une vision riche et (assez) précise de la France. Ceci permet à un être humain de positionner la France et Paris au sein de la France suivant les axes des divisions politiques et administratives, régionales ou départementales.
Mais la sémantique reste actuellement limitée sur deux points :
- sur le plan conceptuel et terminologique : le terme Paris (France) est le même pour deux concepts distincts : Paris (ville) et Paris (département), si l'on se restreint à l'histoire contemporaine.
- sur le plan "sémantique machine" - les noms de pays, villes ou département ne sont pas distingué des concepts généraux tels que "Division politique et administrative", "Départements" ou "Régions", et les relations restent générales.
5. INSEE : la France en détail
Citons enfin la France vue par l'INSEE.
L'Insee exploite et met à disposition un référentiel géographique très précis, le Code Officiel Géographique, utilisé dans de très nombreuses applications dans et hors l'Insee. Ce vocabulaire est utilisé pour produire et traiter des données économiques et statistiques sur la France, d'où une grande précision dans la représentation de la réalité.
Paris est ici bien identifié en tant que département et en tant que commune (2 identifiants distincts), le lien entre une Région et son chef-lieu renvoyant bien à la ville de Paris (Commune).
Mais on a "perdu" la France, qui se trouve au-dessus ou au-delà même de toutes ces données terminologiques et sémantique....La liste des pays à exporter mentionne bien la France et ses territoires mais sans identifiant... Il faudra repartir sur le serveur RAMON de l'UE pour retrouver la France parmi ses pairs...
6. Modéliser pour les machines : rdf et skos
Difficile dans un billet sur la modélisation de vocabulaire, de ne pas aborder la question des modélisation pour le Web.
Afin de permettre l'échange de données entre les humains et les machines mais plus encore entre les machines elles-mêmes, il est nécessaire de disposer d'un formalisme adapté et commun aux systèmes (informatiques). Les technologies du web nous offrent des outils standardisés. Citons :
- RDF (Resource Description Framework), un formalisme utilisé pour organiser l'information selon une logique et un formalisme qui facilitent cette interopérabilité
- SKOS, un vocabulaire en rdf, visant à représenter dans le web, les "systèmes d'organisation de concepts" comme les thésaurus. Ce standard modélise groupes de concepts, concepts, termes, relations et propriétés d'un thésaurus, et les formattent donc aux couleurs du Web.
- OWL, comme langage de modélisation, ici de l'ontologie "géo" de l'Insee.
La mise en musique en RDF (comme ici pour les données de l'Insee ou en SKOS/rdf pour le thésaurus Eurovoc) pour ces vocabulaires qui sont nés avant le Web, prend appui sur une structure conceptuelle existante - dont nous avons vu certaines caractéristiques dans ce billet.
Ainsi SKOS ne peut mettre aux couleurs du Web qu'une entité unique pour "Paris" (ville ou département) de Rameau. En conséquence un alignement entre Rameau et le vocabulaire de l'Insee conduirait à mettre en correspondance 1 "entité Rameau" avec 2 "entités Insee".
Ce portage aux couleurs du Web amène bien souvent à retravailler (affiner) le modèle initial, pour permettre ainsi des usages variés (filtre/facettes, expansions sémantiques).
Les données Insee (modélisée avec l'ontologie "geo", en RDF)
http://rdf.insee.fr/index.html
<geo:subdivision>
<geo:Region rdf:about="REG_11"> > code Insee de la région
<geo:code_region>11</geo:code_region>
<geo:nom xml:lang="fr">Île-de-France</geo:nom> > nom de la région
<geo:chef-lieu> > chef-lieu de la région
<geo:Commune rdf:about="COM_75056">
<geo:code_commune>75056</geo:code_commune>
<geo:nom xml:lang="fr">Paris</geo:nom> > commune
</geo:Commune>
</geo:chef-lieu>
<geo:subdivision>
<geo:Departement rdf:about="DEP_75">
<geo:code_departement>75</geo:code_departement>
<geo:nom xml:lang="fr">Paris</geo:nom> > département
</geo:Departement>
</geo:subdivision>
Un peu de SKOS pour finir avec Eurovoc
Ce fichier démarre par les entrées en matière habituelles répertoriant les vocabulaires utilisés :
<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:t3="http://www.mondeca.com/system/t3#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:s08="http://www.w3.org/2008/05/skos#"
xmlns:eu="http://eurovoc.europa.eu/schema#"
.......
Sont identifiées les 26 langues - listées dans chacune des versions linguistiques...
Puis pour chaque entité du thésaurus, un identifiant (unique, pérenne)
Les codes pays,
<eu:Country rdf:about="http://eurovoc.europa.eu/1085"/> (code ISO de la France)
Les domaines et les micro-thésaurus avec le terme préférentiel dans chaque langue
Puis viennent les relations entre entités - désignées uniquement par leur identifiant.
rdf:Description rdf:about="http://eurovoc.europa.eu/1085">
<s04:broader rdf:resource="http://eurovoc.europa.eu/122"/>
<s04:broader rdf:resource="http://eurovoc.europa.eu/5283"/>
<s04:broader rdf:resource="http://eurovoc.europa.eu/4590"/>
<s04:broader rdf:resource="http://eurovoc.europa.eu/2200"/>
<s04:broader rdf:resource="http://eurovoc.europa.eu/2106"/>
<s04:broader rdf:resource="http://eurovoc.europa.eu/913"/>
Puis les concepts et les termes
<eu:PreferredTerm rdf:about="http://eurovoc.europa.eu/236511"/> (France)
<eu:SimpleNonPreferredTerm rdf:about="http://eurovoc.europa.eu/236512"/> (République française)
.........
</rdf:Description>
<rdf:Description rdf:about="http://eurovoc.europa.eu/236512">
<xl:literalForm xml:lang="fr">République française</xl:literalForm>
</rdf:Description>
....
<rdf:Description rdf:about="http://eurovoc.europa.eu/236511">
<xl:literalForm xml:lang="fr">France</xl:literalForm>
</rdf:Description>
...
<rdf:Description rdf:about="http://eurovoc.europa.eu/236555">
<xl:literalForm xml:lang="fr">Île-de-France</xl:literalForm>
</rdf:Description>
<rdf:Description rdf:about="http://eurovoc.europa.eu/236512">
<eu:permutedLiteralForm>française, République</eu:permutedLiteralForm> forme permutée
</rdf:Description>
Les relations d'équivalences
<eu:EquivalenceRelationship rdf:about="http://eurovoc.europa.eu/relationship/173068">
<eu:USE rdf:resource="http://eurovoc.europa.eu/236511"/> France
<eu:UF rdf:resource="http://eurovoc.europa.eu/236512"/> République française
Les relations hiérarchiques
<rdf:Description rdf:about="http://eurovoc.europa.eu/1085"> code pays france
<s04:broader rdf:resource="http://eurovoc.europa.eu/122"/> pays du Conseil de l'Europe
<s04:broader rdf:resource="http://eurovoc.europa.eu/5283"/> Etat membre de l'UE
<s04:broader rdf:resource="http://eurovoc.europa.eu/4590"/> pays de l'UEO
<s04:broader rdf:resource="http://eurovoc.europa.eu/2200"/> pays de l'OTAN
<s04:broader rdf:resource="http://eurovoc.europa.eu/2106"/> pays de l'OCDE
<s04:broader rdf:resource="http://eurovoc.europa.eu/913"/> Europe occidentale
---------------------------------------------------------------------------------------------------
Les commentaires récents