Article rédigé pour le Dossier : Web sémantique, web de données : quelle nouvelle donne ? dont je vous avais parlé début janvier 2012, un numéro spécial de la Revue DocSI - Documentaliste, Science de l'information (ADBS)*.
Contraintes éditoriales très fortes - 13000 signes seulement dans ce dossier pour un tour d'horizon des applications en Entreprise, du web de données, de ses potentialités et contraintes ! Il y a tant de choses à dire.
L'année 2012 sera peut-être l'occasion de communiquer plus avant sur le sujet.
La 2ème édition de SemWeb Pro, pour des aspects plus techniques, c'est pour bientôt - mai 2012 sur Paris. Et nous attendons les témoignages de professionnels en Entreprise qui trempent dans ces projets pour monter une journée moins technique. N'hésitez pas !
Le modèle du Web, conçu comme un espace public, ne peut réellement s'appliquer à l'entreprise: son espace informationnel est un espace circonscrit qu'elle seule maîtrise. Toutefois, elle bénéficie depuis ses débuts, de ce qui fait le Web : les principes fondateurs (universalité, simplicité et support technique) et les technologies.
Nous proposons quelques cas d'usage, à enrichir au fur et à mesure que se développent ses techniques.
- Les espaces numériques de travail
- La rédaction numérique
- Un référentiel à usages multiples
- Plusieurs applications exploitant un référentiel commun
- Des systèmes basés sur des ontologies
Alors, le web sémantique en Entreprise ? je l'ai rencontré !
1. Les espaces numériques de travail
Les exigences du travail collaboratif ont conduit au développement de plateformes regroupant un ensemble de fonctions permettant la réalisation de tâches courantes (co-rédaction, échanges et traitements de ressources d'origines variées − profils issus d'annuaires, courriers internes/externes, dossiers d'affaires, ressources documentaires externes), dépassant ainsi les frontières des traditionnels silos applicatifs que les organisations ont créés au fil du temps.
Pour fluidifier les échanges, l'usage des microformats(1) − on peut considérer ces derniers comme du « néo-web de données » −, est ici renforcé et étendu.
Lorsque l'écrit constitue le coeur des activités, ces plateformes intègrent des dispositifs de rédaction structurée et/ou des référentiels communs.
Ces approches techniques sont progressives et donnent un nouvel élan aux projets de groupware et de gestion des connaissances.
2. La rédaction numérique
Le travail collaboratif a transformé certaines activités traditionnelles de rédaction en basculant sur des plateformes de production numérique intégrant des outils de rédaction collective, de gestion de production (workflow), de diffusion et d'archivage.
Par exemple, la (co)rédaction de comptes-rendus de réunion, rapports, bulletins, encyclopédies ou documents techniques sont produits aujourd'hui à partir de CMS, de wikis(2) ou d'outils éditoriaux plus spécialisés. Plus que de simples documents au format web, il s'agit le plus souvent de corpus numériques de données structurées et reliées les unes aux autres.
Ces dispositifs mettent en oeuvre des schémas ou « feuilles de style » qui permettent d'une part de baliser des morceaux de texte avec des éléments communs et standardisés, voire normalisés, d'autre part d'établir des relations internes ou externes aux corpus. Ces éléments de données, balisés et normés, constituent des noeuds identifiables de façon unique qui renvoient vers d'autres unités, elles-mêmes identifiées, créant un réseau hypertextuel exploitable.
Pourtant, si le principe d'une rédaction HTML* est acté, certaines techniques du web de données comme la représentation en RDF ne sont pas toujours mises en oeuvre, limitant la réutilisation de ces infrastructures au périmètre interne de l'entreprise.
Mais la présence d'identifiants uniques et pérennes, sous forme d'URI, pour de nombreux objets (titres minima, chapitres, paragraphes, parties de contenu comme des présentations de cas, des entités nommées utiles pour le métier, etc.) et la normalisation de la structuration des contenus par le biais de vocabulaires reconnus (profil d'application à partir du Dublin Core ou du LOMFR(3) dans le secteur éducatif par exemple), préparent le terrain pour des développements futurs.
À l’échelle individuelle et collective, le véritable défi vient des changements à apporter sur le plan des pratiques de rédaction et d'organisation des connaissances.
Et l’ergonomie pas toujours optimale des outils de production, maillon faible de ces dispositifs malgré d'indéniables progrès, reste un frein au déploiement de ces projets.
3. Un référentiel à usages multiples
Un autre type d'applications concerne la mise à disposition de référentiels de nature terminologique utilisables par plusieurs applications ou services, mais déconnectés de ceux-ci.
Un réservoir de concepts et de termes (thésaurus ou vedettes matière, nomenclature, classification, taxonomie) est encodé selon les règles du web de données : identifiant unique et pérenne pour chacun des concepts ou chacun des regroupements de concepts (champ sémantique), structure normalisée pour l'échange de ces concepts et termes (ici Skos(2)).
La volonté d'optimiser l'exploitation de données métier
sur des intranets, en proposant des accès fédérés et des filtres ad hoc (recherche à facettes), repose sur le partage des vocabulaires utilisés (schémas et terminologies).
Ce travail de portage aux couleurs du web de données est
systématiquement l'occasion d'une révision des vocabulaires utilisés dans les différents systèmes et de leur reconfiguration en tenant compte de cette nouvelle orientation de mutualisation et de partage. Concepts et termes sont affinés et documentés et la structuration est explicitée par un enrichissement des types de liens. Chacun doit pouvoir y puiser le vocabulaire dont il
a besoin selon ses caractéristiques métiers et ses exigences fonctionnelles.
Le déploiement de ces dispositifs est relativement simple sur le plan technique, car les applications informatiques ne sont en général pas directement reliées entre elles.
Mais il reste tributaire de la volonté des équipes métier et informatiques, car ces vocabulaires peuvent concerner un nombre conséquent d'utilisateurs et d'applications en interne.
Notons enfin que certains de ces référentiels, sont mis à disposition sur le Web, comme le thésaurus des Archives de France, Eurovoc ou le TAG du Gouvernement du Québec (5).
4. Plusieurs applications exploitant un référentiel commun
Quatrième cas, plus complexe : le développement d'un référentiel sémantique commun à plusieurs applications, dans le but d'unifier les accès et de rendre possible la création de services variés tout en préservant la spécificité des processus et applications métier.
Des environnements professionnels très différents sont concernés par ce type de projet : dans le secteur patrimonial, une mise en commun des ressources entre plusieurs services jusque-là très autonomes (vidéothèque, photothèque, records management, musée, bibliothèque et archives) ; dans le domaine de la santé animale, un portail reliant observatoire santé, veille scientifique, données réglementaires et documentation sur les animaux ; ou encore dans des services techniques, un système de prise en charge des pannes associant base d'appels clients, documentation technique des matériels et manuel technique de diagnostic et réparation.
Les différents systèmes préexistants ont leur raison d'être. lls s’adressent à des publics privilégiés, et proposent une organisation, un fonctionnement et des outils métier adaptés qui doivent être souvent préservés.
La démarche repose ici d'une part sur la certitude qu'une infrastructure de nature sémantique commune peut soutenir les fonctions d'accès et de navigation dans ces différents corpus ; et d'autre part sur la pertinence des techniques du web de données pour assurer efficacité, économie et performance dans le développement des applications, actuelles mais surtout futures.
Ces applications ne se contentent pas de mettre en oeuvre les modèles, règles ou outils propres aux systèmes techniques, fussent-ils du web sémantique. Elles sont aussi l'occasion de s'ouvrir aux pratiques des usagers, pratiques renouvelées par l'usage du Web, au cours d'un travail important de re-conception des systèmes métier existants et peuvent conduire à des systèmes s'appuyant sur des ontologies.
5. Des systèmes basés sur des ontologies
Chacun des cas exposés précédemment peut s'appuyer sur des ontologies informatiques.
L'ontologie, en explicitant la connaissance portée traditionnellement par l'ensemble schéma de description et thésaurus, peut être utilisée pour effectuer des raisonnements logiques. Par exemple, dans le dispositif sur la santé animale évoqué ci-dessus, une question sur les maladies des volatiles dans telle région peut être étendue, sans intervention de l'interrogateur, en récupérant automatiquement de l'observatoire des éléments sur les animaux touchés et les catégories de maladie, ou en fournissant des données de veille réglementaire ou documentaire appropriées.
Ces techniques sont particulièrement pertinentes dès lors que les ressources à exploiter sont de nature différente et qu'elles proviennent de sources variées, internes ou externes à l'entreprise : elles ne peuvent être toutes connues des utilisateurs, fussent-ils spécialistes du domaine, et le soutien d'une base de connaissances organisée autour d'une ontologie informatique est dans ce cas très efficace.
Alors, le web sémantique en entreprise ?
Les principes fondamentaux du web de données (identifiant pour toute ressource et liens entre entités) sont présents de façon assez systématique sur les intranets. Mais les techniques mêmes du web de données (URI, RDF ou SparQL), indispensables à l'économie générale ou à la performance sur le Web, y restent à ce jour moins fréquemment (URI), voire assez marginalement, mises en oeuvre.
Deux raisons principales peuvent être évoquées.
> Tout d'abord l'entreprise n'a aucune raison de développer des projets « web sémantique ». Si elle a un projet, c'est celui d'améliorer des processus, de soutenir le travail des collaborateurs, ou de prendre en compte de nouvelles exigences dans son environnement. Le web sémantique est alors mis en concurrence avec des techniques plus traditionnelles, et de nombreuses contraintes propres aux environnements de travail et aux intranets peuvent jouer en sa défaveur.
> De plus, alors que le web 2.0 laissait les utilisateurs libres de participer ou non et touchait somme toute assez peu les applications existantes, les projets web sémantique sont plus impliquants [techniquement] et en conséquence plus complexes à conduire. Leur nouveauté et leur impact sur l'existant supposent de constituer une équipe solide sur le long terme et de penser l'accompagnement au changement tout au long des différentes étapes.
Sans nous arrêter à une approche exclusivement technique du web sémantique, nous pouvons pour conclure faire quelques observations transversales aux différents cas énoncés :
Informatique
Dans la réalité, il est difficile d'envisager l'articulation de systèmes existants sans aucune intervention sur les systèmes eux-mêmes, tant les modèles de données métier, les systèmes techniques ainsi que les données elles-mêmes ont été conçus et produits en local, sans aucune prise en compte de l'environnement. La part des chantiers de reprise de l'existant dans l'économie du projet est de fait conséquente et impacte directement la durée et la gouvernance de ces projets.
Une autre conséquence de ces nouvelles approches porte sur la place des systèmes de gestion de base de données relationnelles (SGBDR) et du langage SQL. Le repositionnement de ce dernier a démarré dans le cadre de la mise en oeuvre des moteurs de recherche(6). Le mouvement du web sémantique porte quant à lui le débat sur les bases de données elles-mêmes(7), débat qui ne fait que commencer.
Usages
Pour parler de réutilisation dans les projets en entreprise, il est indispensable d'accorder une place plus centrale aux utilisateurs (et à leurs pratiques) et aux ressources (et à leur production en amont et leurs usages en aval) qu'aux fonctions de gestion.
Autrement dit, les projets conduisent à dissocier les activités des utilisateurs des activités de gestion – ce qui inverse la représentation des systèmes d'information centrée sur le stockage et la gestion de données. Les modalités pratiques du travail en entreprise sont alors réévaluées à des niveaux de profondeur certes très variables mais qui impactent chacun d'entre nous sur des activités jugées jusque-là très personnelles : lire, écrire et coécrire, annoter, travailler ensemble, communiquer.
Au risque d'une approche exclusivement technique s'ajoute celui d’une approche de « prescription » qui porte son attention sur la structure et les normes. Il faut donc veiller à ne pas renforcer des logiques prescriptives déjà en germe dans l'intranet, de par son cadre largement structurant et normalisateur.
Coûts
Enfin, la question des coûts doit être abordée.
Nous l'avons vu, la dimension de ces projets n’est pas exclusivement technique. Les aspects humains et ceux liés à l'organisation du travail sont au coeur de la plupart de ces projets dans les entreprises. De plus, le choix des techniques du web sémantique s'inscrit dans une économie de la réutilisation − c'est-à-dire de l'utilisation des résultats d’un projet pour d'autres à venir. Dans ce contexte, à qui imputer le coût d'un travail de modélisation et de qualification de métadonnées utilisables plus largement et pour des usages encore en devenir ?
Notes
Note éditoriale
Dans cette version électronique, j'ai ajouté un sommaire et une numérotation que je trouve indispensable mais qui est absente dans la version édition papier.
(1) Par exemple hCal pour les évènements, hCard pour les contacts, hAtom pour ... Atom
(2) Wiki sémantique - http://fr.wikipedia.org/wiki/Wiki_sémantique
(3) Learning Object Metadata, profil français.
(4) SKOS du W3C
(6) Citons les « accélérateurs de SGBD » (Database Offloading d'Exalead ou Database Accelerator Pertimm) lancés dans les années 2007/2008 dont l'objectif était de manipuler les données hors des SGBD.
(7) Voir la notion de NoSQL (pour Not Only Sql), http://blog.neoxia.com/nosql-5-minutes-pour-comprendre
Les commentaires récents