15 mai 2006

Les tags se hiérarchisent...

Deux auteurs d’InfoLab, laboratoire de l’Université de standford, travaillent sur la hiérarchisation des annotations sur les folksommies, bref des tags.
Les auteurs expose dans un article, l’algorithme développé et présente deux exemples à partir de :
- Delicious : 19 000 objets traités, soit environ 61000 tags distincts sur 252 000 annotations par 85000 utilisateurs
- et CiteULike : 452 000 objets, 41500 tags pour 157000 annotations par 5 700 utilisateurs

Quelques mots sur ce travail :
> 1 utilisateurs / 1 objet / Plusieurs tags
> il n’y a aucune structure prédéfinie au sein des tags.
> traitements : agrégation de tags au sein de vecteurs de tags en fonction des occurrences d’utilisation d’un tag pour un objet ; calcul de similarité entre les tags, construction du graph de similarité.

Exemple sur Del.ic.ious

Ceux qui baignent dans le monde de la fouille de texte (text mining) connaissent bien sûr depuis longtemps ce principe d’exploitation des « mots-clés » ou d'autres métadonnées associés à un objet documentaire, pour la production de graphes donnant une représentation d’un corpus de données. Avec la possibilité de naviguer dans ce graphe.

Trois petites remarques :
- Sur Delicious, les « auteurs » pris en compte à un moment donné dans le traitement (je n'ai pas compris comment cette donnée était vraiment prise en compte), ne sont pas les auteurs des documents référencés comme c'est le cas dans CiteULike, mais ceux qui ont fait le référencement. Quel est l'impact réel sur les résultats ?
- il s’agit bien ici – comme pour les cartographies de corpus dans les systèmes de fouille de texte ou text mining – d’élaborer un (méta)système dynamique de recherche/navigation à partir des données existantes dans le corpus (donc a posteriori). A bien distinguer des méta-systèmes autonomes comme les thésaurus ou plus globalement ce que l’on appelle les vocabulaires contrôlés (a priori).
- Bien sûr, on pourrait transformer ce résultat en outil… d’indexation. Ce que certains dans les méandres des blogues semblent regretter et vouloir faire (« Stratégie pour les tags")

En trois-quatre ans, nous sommes partis de textes, vierges de toute métadonnée, puis progressivement nous sommes passés à quelques tags spontanément attribués par des lecteurs ou auteurs sans contrainte (Delicious), puis aux clusters de Flickr et aux « facettes de tags » de facetious, ... et maintenant à la hiérarchie des tags….
C’est l’évolution perpétuelle !

22 octobre 2005

Vous êtes concernés par Rameau : voici l’article de l’année !

Rameau : Bilan, perspectives, de Michel Mingam
BBF 2005 - Paris, t. 50, n° 5.

Une 1ère partie présente les différents étapes historiques et les choix successifs qui ont abouti à la situation actuelle. Situation présentée dans une 2ème partie : ampleur et contradictions de Rameau. Dans une 3ème partie, l'auteur fait l’analyse du langage aux trois plans terminologiques, sémantiques et syntaxiques. Des propositions très concrètes d’évolution sont à la fois articulées au sein de l’analyse et exposées en conclusion. Dont celles portant sur la simplification de la syntaxe.

Morceaux choisis :

  • « le caractère précoordonné de Rameau suscite des difficultés récurrentes dans sa mise en œuvre »
  • « le niveau syntaxique a tendance à mobiliser une part essentielle du temps, de l’énergie et de la réflexion collective, trop souvent au détriment de la question du vocabulaire »
  • Pour les pistes : 
  • « Un vocabulaire riche en termes exclus »
  • «  lier étroitement le travail sur le niveau sémantique et celui consacré au niveau terminologique»
  • « d’inverser les priorités… primauté au niveau terminologique… »
  • « L’idéal….une liste de subdivisions … en nombre restreint et d’un emploi très large … "
  • « … quelques règles de syntaxe simples d’utilisation, avec le moins possible d’exceptions. »

Tous ces axes de changement, probablement les meilleurs sur les plans fonctionnels et économiques (bien que ce terme d’économie ne soit jamais réellement utilisé), seront bien sûrs encadrés pour ne pas dire limités par le volume des corrections qui seraient à réaliser sur les catalogues existants.

Sans jamais faire usage de la terminologie propre aux normes de thésaurus (équivalents documentaires, relations hiérarchiques, relations hiérarchiques d’instance par exemple), il s’agit apparemment d’en exploiter pleinement leurs règles. Dès lors les travaux de mise en correspondance entre Rameau et d’autres langages, travaux qui nous sont régulièrement demandés, s’en trouveraient bien simplifiés aussi...

Je me voyais partir à la retraite avant que quiconque "de l'intérieur" (l'auteur est de la BNF) n’écrive un tel article ! Nous attendons avec impatience les réactions terrain !

09 octobre 2005

Interopérabilité entre langages : le projet HiLT

Le projet HiLT (High-level Thesaurus Project ou Projet de Thésaurus de haut niveau) a pour but de présenter un ensemble de recommandations concernant l’interopérabilité des accès dits matière entre systèmes documentaires, et la navigation par sujets « dans un contexte où il y a une variété de communautés, de services ainsi que de types de services ou de ressources ».

Piloté par le RSLP (Research Support Libraries Programme - http://www.rslp.ac.uk/) et JISC (Joint Information Systems Committee - http://www.jisc.ac.uk/) au Royaume-Uni, ce projet concerne les dispositifs proposés par « les archives, les services électroniques, le milieu des bibliothèques et des musées ».

Initié au début des années 2000, HiLT va bientôt entrer dans sa troisième phase :

Phase I : l’étude du contexte et des problématiques posées a conclu à l’intérêt pour des systèmes d’interopérabilité entre langages contrôlés.
Rapport final de 2001, http://hilt.cdlr.strath.ac.uk/Reports/FinalReport.html

Phase II : un pilote de mise en correspondance (mapping) terminologique entre vocabulaires documentaires a été réalisé. Il assure les échanges avec d’autres services partagés, plutôt qu’un accès direct à l’utilisateur d’où le terme de M2M pour machine-to-machine.
Le processus est initié par la requête posée sur un système A par un utilisateur ; le système A interroge le serveur terminologique pour trouver d’autres ressources. Le prototype est structuré autour de la classification décimale Dewey (quelques niveaux hiérarchiques, mais plus de niveaux que dans l’interface DeweyBrowser). Le prototype prend en compte la LCSH (liste des vedettes matières de la Library of Congress), quelques centaines de termes du thésaurus de l’Unesco ou du MeSH, dans les domaines de la santé, de la médecine et de l’éthique. La faisabilité pour le développement d’une interface SOAP adaptée a également été conduite.

Phase III : dans cette phase qui débute en novembre 2005 pour une période de 15 mois, il s’agira de développer un serveur M2M (machine-to-machine). Celui-ci offrira un accès de type service web avec le protocole SRW basé sur SOAP - des extensions possibles dans le future à d’autres protocoles comme Z39.50 ou SRU par exemple. Le dispositif exploitera le noyau SKOS pour l’encodage des vocabulaires et des réponses “classificatoires” avec des possibilités ultérieures d’exploitation d’autres formats comme Zthes ou MARC.

Ressources utilisées

Lire la suite "Interopérabilité entre langages : le projet HiLT" »

Les notes récentes


  • Infos&Contact

Compteur

Blog powered by TypePad
Membre depuis 11/2004