Les présentations de SemWebPro 2012 sont en ligne - séminaire et ateliers.
Merci aux organisateurs et aux participants pour cette excellente journée.
Mes prises de note sur la première journée de conférence du 2 mai.
- Introduction sur le sujet et la journée par Nicolas Chauvat (Logilab)
- Linked Enterprise Data, Fabrice Lacroix d'Antidot
- Description des produits automobiles, F-P Servant et Edouard Chevalier, Renault.co
- Data.bnf.fr, Romain Wenz de la Bn
- Après la Bnf, la BPI avec Emmanuelle Bermès
- Table Ronde : L'open data peut-il se passe du web sémantique ?
- Interactive exploration of complex relational data sets in a web - Vincent Michel (Logilab)
- SemUNIT par Yolaine Bourda
- Mesagraph
Introduction sur le sujet et la journée par Nicolas Chauvat (Logilab)
(la forge de Logilab : http://www.logilab.org)
Un rappel sur le Web sémantique :
LA FORCE DES LIENS DANS LE WEB, les URI et les DN (global/local, décentralisé) et les liens qui unifient...
LA FORCE DES DONNEES OUVERTES (dans le web, format non propriétaire)
LA FORCE DES TECHNOS DU WEB :
- RDFa - RDF dans les attributs/balises HTML - http://fr.wikipedia.org/wiki/RDFa
- RDB2RDF (rdb to rdf) pour publier des données RDF à partir de BDD, soit par un alignement direct et un post-traitement, soit en utilisant le vocabulaire W3C R2RML (2 étapes en une seule : RDF to RD markup language) - http://www.w3.org/TR/r2rml/ , recommandation candidate depuis février 2012
- SPARQL 1.1. (article de wikipedia en ébauche, vraiment à revoir). Les nouveautés de 1.1.- les requêtes imbriquées(subqueries), la négation, l'agrégation, les mises à jours (la modification de graphes - requête qui met à jour des données), les chemins (partie de requête sous forme de graphes : plus compact qu'avec sparql 1.0.), etc. Présenté au cours de l'atelier du 3 mai. (Nouveautés de SparQL1.1. sur Developpez.com).
- (Futur) RDF1.1. , évolution et simplification de RDF - http://www.w3.org/standards/techs/rdf#w3c_all
- Provenance 1.0. : En agrégeant des données, des incohérences / incompatibilités peuvant apparaître. D'où le besoin de remonter à la source (par ex : savoir quelle est la durée des données, qui,...). Cette spécification, PROV pour les intimes, permet de représenter les traces des origines - les entités et les tâches impliquées dans la production et la fourniture - le contexte de la ressource Web. http://www.w3.org/2011/prov/wiki/Main_Page
Linked Enterprise Data, Fabrice Lacroix d'Antidot
Retour d'expérience (le SI d'Antidot lui même) pour montrer l'intêret de ces technologies pour les SI / Intranets des entreprises.
Un sujet déjà abordé sur ce blogue dans le cadre du numéro spécial de Documentaliste sur le Web sémantique : Le web sémantique en entreprise : quelques cas d'usage
Progressivement(12 ans), la société a grossi - et l'on obtient quelques années plus tard : un besoin=une application=un silo - GED, CRM, RSE, ERP, Annuaires, applications métiers (SAS, ....).
La solution d'un moteur de recherche unifié (qui attaque chaque silo) convient jusqu'à un certain point : le moteur indexe toujours des documents, et répond en fournissant des documents. Mais le besoin n'est couvert que partiellement, l'utilisateur passant beaucoup de temps à consolider et relier les données lui-même...
Avec un moteur unifié, le SI est piloté par les processus et les applications associées, les données ainsi sont éparses... L'idée ici est de revenir sur ce principe, et de centrer le SI non sur les processus mais sur les données à partager (entre silos)....C'est le "Linked Enterprise Data (LED)"
Toutes les données de l'entreprise sont liables, mais souvent de façon implicite. Et on le sait : les machines n'aiment pas l'implicite ! Les technologies du Web sémantique en créant du lien entre données, sont adaptées à ce contexte d'entreprise :
- les données sont libérées (data center) mais pas les applications ;
- on peut consolider ces données plus facilement avec des données externes et créer ainsi de nouvelles informations;
- (surtout) on ne modifie pas l'existant.
Antidot n'a pas cherché à créer une macro-ontologie, mais plutôt à réutiliser des micros-ontologies, des vocabulaires simples en les agréger.
Parmi les questions posées par l'assistance à SemWeb Pro :
- le problème des droits d'accès : Le LED porte les droits d'accès; mais lorsque l'on agrège des données, on créée donc donc de nouvelles données - il faut alors décider les niveaux de droits sur ce nouvel objet.
- concernant l'édition, dans la solution proposée ici, les données sont visualisées et manipulées mais pas éditables, mais l'URI fournie permet de revenir simplement sur l'application source.
Description des produits automobiles, F-P Servant et Edouard Chevalier, Renault.com
D'entrée de jeu, Renault a piqué notre curiosité en annonçant que le "Linked data" existait dans l'entreprise depuis 2007, mais qu'il n'avait pas encore à ce jour d'application dans le web ! Nous ne saurons pas ce qu'étaient ces données liées dans l'entreprise, l'application présentée ici étant tournée vers le Web.
Les objectifs de ce dispositif sont classiques : accroitre la visibilité de l'offre commerciale sur le web. Mais le développement de vocabulaires pour le web comme schema.org (atelier de J Delahousse le 3 mai à SemWeb Pro) et GoodRelations (le vocabulaire RDF sur les offres commerciales) ont donné un coup de fouet à ce projet.
Intéressante explication de la complexité de l'application en raison du principe des gammes et des options automobiles, par comparaison à la "simplicité" des applications bibliographiques ! çà gigotait dans les premiers rangs de la salle où se trouvaient Bpi-istes et Bnf-istes. (Effectivement, si on pouvait faire des choix préalables avant de sélection des livres...). Et toutes les combinaisons gammes/options ne sont pas possibles en raisons de contraintes techniques, juridiques, industrielles ou marketing. Les gammes ne sont pas énumérables, mais définies en intention sous la forme d'un ensemble de variables et de contraintes - en lien avec des outils de raisonnement sophistiqués.
Il existe déjà sur le web des configurateurs qui aident à choisir pas à pas un véhicule, caractéristiques par caractéristiques, à partir d'un premier choix - Par exemple Clio.
Dans le nouveau système proposé, il est possible de générer une URI à la volée mais stable pour une configuration donnée - Clio/climatisation/toit ouvrant. (Dis autrement : une configuration donnée peut être considérée comme une ressource web avec une URI), et d'afficher les choix restant possibles. On peut ainsi parcourir une offre commerciale via des liens (URI).
Sur le plan de l'offre de services, on peut imaginer intégrer des QRcode, intégrer ces données au graphe de facebook, mettre en avant un certains nombre de configurations,...
Sur le plan technique
[correction fin mai 2012] Une ontologie générique de configuration en RDFS/OWL a été créée et publiée (purl). Elle intègre le vocabulaire Goodrelations et pourrait être utilisée plus largement.
Notons que ce système est déjà publié en Allemagne et Italie (on voit ici deux pays qui ont investis dans ces technologies - les publics sont peut être plus attentifs mais je vois que Volkswagen a déjà développé ce type de système...). Il "reste" à Renault à faire des liens avec d'autres vocabulaires comme DBpedia ou VSO (vehicule sales ontology, développé par un allemand) ou DPpedia. Je suppose que ce lien ne se fera pas avec le vocabulaire existant de ... Volkswagen ?
Des questions de l'assistance dont celle sur l'obsolescence et l'innovation (des gammes, des options).
Le graphe correspond à la gamme en cours (information courante), les données sont mises à jour et mises en ligne. Mais l'URI est permanente et peut donc être retrouvée. On envoie alors à l'internaute, une alerte et un lien vers un véhicule approchant (en fonction des caractéristiques associées).
D'autres articles sur le Web sémantique chez Renault -
"Semantic Web Technologies in Automotive Repair and Diagnostic Documentation" OWLED 2007
http://www.w3.org/2001/sw/sweo/public/UseCases/Renault/
http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-258/paper04.pdf
"Linking Enterprise Data", LDOW 2008
http://events.linkeddata.org/ldow2008/papers/21-servant-linking-enterprise-data.pdf
Data.bnf.fr, Romain Wenz de la Bnf
Je passe sur la présentation de Romain... Je l'ai déjà écouté trois fois ! Je vous laisse découvrir data.bnf.fr et ses relations au catalogue Bnf.
Et voilà la fiche de LeClézio pour changer un peu. Sachez toutefois qu'il y a maintenant 2,5 millions de données sur data.bnf.fr.
(J'en profite : un petit moteur de recherche sur le site nous plairait assez.)
Après la Bnf, la BPI avec Emmanuelle Bermès
Comme pour la Bnf, je vous laisse découvrir la présentation d'Emmanuelle.
Le projet avance bien...
Quelques points qui m'ont paru intéressantà souligner :
- L'ontologie est centrée sur les ressources pluri-média;
- Le dispositif (central) récupère les données des applications métiers, et les aligne à une macro-ontologie spécifique.
- "même si on ne touche pas aux applications source, le travail rétroactif sur les bases reste important".
- la gestion des mises à jour est critique - quelles sont les données maître ? dans le graphe ou dans les applications métiers ? peut-on envisager des modifications au niveau du graphe? Par exemple, la création de liens (entre objects de provenance (silos) différentes, peut se faire en bout de chaîne, d'où un problème de cohérence avec les données des applications sources.
- Le projet a été développé via le "mécénat de compétences Logica" - Logica partant, on se demande ce qui va se passer ?
Table Ronde : L'open data peut-il se passe du web sémantique ?
Table ronde pilotée par Vincent Michel, avec :
1- Tanguy Morlier de Regards Citoyens
2- François Scharffe (Univ Montpellier) pour DataLift
3- François Bancilhon - Data Publica
Contrairement à ce que je pensais, tout le monde n'est pas totalement d'accord - pas tant sur la cible, mais sur les moyens d'y arriver.
Tout le monde s'accorde pour dire que les techniques du web sémantique sont pertinentes - il faut poursuivre, aller dans ce sens.
Mais certains pensent qu'il faut d'abord et avant tout, diffuser les données, quels que soient leurs formats de diffusion. "On peut faire de l'open data sans le web de données".
En particulier ce serait très lourd pour les institutions et un frein important, alors que la mise à disposition d'une copie des données (dump) est plus simple à envisager. Cela permet au moins à des intermédiaires de prendre le relais.
- Datapublica (http://www.data-publica.com/) qui utilise DSPL: Dataset Publishing Language) de Google pour modéliser les données
- NosDeputés de Regards Citoyens (n'hésitez pas à aller regarder vos parlementaires actuels et leur niveau et sujets d'intervention - ici les députés "spécialistes du numérique"). Utilise le vocabulaire de Google, DSPL (Dataset Publishing Language) pour modéliser/publier les données
- Datamarket (http://datamarket.com/)
Le mieux peut être l'ennemi du bien. Sous couvert de "discrimination", certains sont tentés de ne pas diffuser leurs données ! Opter plutôt pour une politique des petits pas (Regards citoyens).
En conclusion : d'accord pour les trois premières étoiles pour les données ouvertes sur l'échelle TBL, mais les 5 ne sont pas nécessaires.
★ Données accessibles sur le web (sans conditions de formats)
★★ Données accessibles structurées (exemple: Excel au lieu de l’image d’un tableau)
★★★ Formats non-propriétaires (exemple: csv au lieu d’Excel)
★★★★ Usage d’URL pour identifier les données
★★★★★ Données liées sémantiquement
Un point avec lequel je suis totalement en phase : "d'accord pour avoir des données de référence (ou d'autorité), à condition que celles-ci soient en libre accès".
(C'est bien le problème des normes type ISO qu'il faudrait utiliser mais qui ne sont pas libre d'accès)
Beaucoup de questions ont été posées : exposition des données plus ou moins automatiques, gagnant / gagnant, pérennité, ontologie qui s'étend, des identifiants (parlementaires, isbn(bnf), géographique,...)
Une table ronde très intéressante...
Interactive exploration of complex relational data sets in a web - Vincent Michel (Logilab)
Le développement des volumineux ensembles de données ouvertes et inter-reliées nécessite des outils qui, à la fois, stockent les données, permettent de les manipuler, de les explorer et de les visualiser facilement et rapidement.
Présentation d'un dispositif complet : le framework CubicWeb écrit en Python (et utilisé des projets tels que data.bnf.fr ?), du langage de requête RQL(Relational Query Language) développé en 2000 et de la bibliothèque javascript Protovis/D3 pour visualiser de façon interactive le contenu d'une base de données relationnelle.
Quelques points importants : séparation entre requête et visualisation, URL pour les requêtes et les résultats, .... La démonstration était percutante.
Pour se faire une idée, quelques exemples - http://www.cubicweb.org/blogentry/2154794
Automated Linking Data with Apache Stanbol par Olivier Grisel (Nuxeo CMS / Apache)
Présentation du projet Stanbol de la fondation Apache, un moteur sémantique à ajouter à un CMS.
Ce projet s'appuie sur IKS - Interactive Knowledge Stack, projet européen (6,58 millions d'euros) open source dont l'objectif est de promouvoir et d’accélérer le développement du web sémantique en développant un framework technologique ouvert et flexible qui permette à ces entreprises d'intégrer à leurs produits des fonctionnalités de contenu sémantique web intelligent.
Le moteur (la plateforme plutôt) prend appuis sur plusieurs composants fonctionnels / technologies qui se combinent :
- outil d'analyse textuelle (détection du type de contenu) : TIKA - http://tika.apache.org/
- détection de langue : TIKA
- classification automatique soit par apprentissage, soit en s'appuyant sur des taxonomies existantes (du skos derrière) : Solr
- extraction d'entités nommées : OpenNLP - apparemment auquel s'ajoute le support Temis pour l'arable et l'identification des noms/désambiguisation par les données de personnes sur Wikipedia.
- lien avec des vocabulaires contrôlés (Dbpedia) : Named Entity Linking
- post-traitement basé sur des règles pour l'amélioration des résultats
- possibilité d'intégrer des services web externes comme Zemanta, Open calais, Geonames.
Les travaux se poursuivent : prise en charge de RDFa/microdatas, désambiguisation d'entités, ...
Un exemple a été donné dans le monde du journalisme sportif (un journaliste écrit une news sur le foot) qui montre un outil est ouvert, intégrant des vocabulaires spécialisés, ici newsML / IPTC.
L'agencement des différents composants n'est pas nécessairement linéaire.
Projet à suivre de très près...
SemUNIT par Yolaine Bourda
Yolaine Bourda, professeure d'informatique à Supelec, est venu nous parler de ce projet "UNIT".
Un projet visant à accroitre la visibilité des ressources pédagogiques de l'enseignement supérieur sur le Web, et à améliorer les services proposés (particulièrement les services de recherche), en utilisant les technologies du web sémantique et des données liées.
Ce travail a abouti à une ontologie owl s'appuyant sur des vocabulaires existants dont suplomfr, standards de description des ressources pédagogiques permettant de conserver la richesse de la description pédagogique. L'application actuelle regroupe 6000 ressources soit un graphe d'1 million de triplets RDF.
Le plus efficace est de manipuler directement l'application en ligne http://semunt.supelec.fr/portal/
Un document parmi les résultats - http://semunt.supelec.fr/pubby/page/ressource/unit/_1486_Chimie_polluante-_chimie_non-polluante_et_chimie_depolluante
Semanticpedia : le DBpedia francophone, Alexandre Monnin
Je vous ai déjà parlé récemment du DBpédia francophone, en ligne
Si a chaîne de production "technique" de ce SemanticPedia se finalise, il ne faut pas oublier que tout dépend aussi de la qualité des données elles-mêmes. Car le projet ne vise pas en lui-même à retravailler sur les données, à les compléter si celles-ci manquent (par exemple mettre dans une boîte d'information (infobox), que telle personne est une personne). Ce serait se transformer en éditeur. Or on note qu'environ 400 000 articles sur les 1 200 000 que compte wikipedia fr - sont sans lien ! Il y a du pain sur la planche....
Pour finir la 1ère journée, SemWeb pro propose aux participants de faire des présentations éclairs de leurs projets.
"Filtrer l’information qui émerge sur les réseaux sociaux, tout en approfondissant une question en particulier grâce à d’autres contenus prélevés sur le Web" (2011)
A suivre sur le blog de Mesagraph - http://blog.mesagraph.com/
Merci pour toutes ces précisions. Je vais compléter le billet....
Le fait qu'une marque comme Renault choisisse ces technos pour certains usages en intra comme dans le web, est une bonne chose pour le développement de celles-ci sur le territoire francophone. Que vous participiez officiellement (je n'avais pas vu le UseCases sur W3C.org), c'est c'est encore mieux ! Et une présentation en français, apporte de l'eau au moulin. Merci. SD
Rédigé par : Dalb | 15 mai 2012 à 21h03
Une précision sur l'ontologie de configuration proposée par Renault : elle est écrite en RDFS/OWL. Ce sont les données de description de la gamme qui, pour l'instant, ne sont publiées qu'en JSON. Elles seront fournies en RDF, selon le schéma décrit par l'ontologie, dans le mois qui vient.
Rédigé par : François-Paul Servant | 15 mai 2012 à 14h56
Merci pour ce compte-rendu très complet.
Au sujet de Renault, puisque nous avons "piqué votre curiosité", sans pour autant la satisfaire, en annonçant que le "Linked data" existait dans l'entreprise depuis 2007, voici quelques liens sur le sujet :
- "Semantic Web Technologies in Automotive Repair and Diagnostic Documentation" OWLED 2007
http://www.w3.org/2001/sw/sweo/public/UseCases/Renault/
http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-258/paper04.pdf
- "Linking Enterprise Data", LDOW 2008
http://events.linkeddata.org/ldow2008/papers/21-servant-linking-enterprise-data.pdf
Je crois que ce papier a été le premier à détourner l'expression "Linking Open Data" pour parler de données d'entreprise - rien de particulièrement visionnaire la dedans cependant : cela faisait longtemps déjà que TimBL avait mis en évidence l'intérêt des technos du semantic web dans ce contexte (cf sa note de 2001, "Business Model for the Semantic Web")
Bref, cela fait tout de même pas mal de temps qu'on s'intéresse au sujet et qu'on y travaille. Mais cela ne veut pas dire que l'utilisation des Linked Data soit généralisée au sein de l'entreprise - loin de là, hélas.
Rédigé par : François-Paul Servant | 15 mai 2012 à 11h59