« ISO/IEC DIS 26300 vous connaissez ? | Accueil | Classification du savoir à l’heure d’Internet, Nantes, lundi 26 juin 2006 »

15 mai 2006

Les tags se hiérarchisent...

Deux auteurs d’InfoLab, laboratoire de l’Université de standford, travaillent sur la hiérarchisation des annotations sur les folksommies, bref des tags.
Les auteurs expose dans un article, l’algorithme développé et présente deux exemples à partir de :
- Delicious : 19 000 objets traités, soit environ 61000 tags distincts sur 252 000 annotations par 85000 utilisateurs
- et CiteULike : 452 000 objets, 41500 tags pour 157000 annotations par 5 700 utilisateurs

Quelques mots sur ce travail :
> 1 utilisateurs / 1 objet / Plusieurs tags
> il n’y a aucune structure prédéfinie au sein des tags.
> traitements : agrégation de tags au sein de vecteurs de tags en fonction des occurrences d’utilisation d’un tag pour un objet ; calcul de similarité entre les tags, construction du graph de similarité.

Exemple sur Del.ic.ious

Ceux qui baignent dans le monde de la fouille de texte (text mining) connaissent bien sûr depuis longtemps ce principe d’exploitation des « mots-clés » ou d'autres métadonnées associés à un objet documentaire, pour la production de graphes donnant une représentation d’un corpus de données. Avec la possibilité de naviguer dans ce graphe.

Trois petites remarques :
- Sur Delicious, les « auteurs » pris en compte à un moment donné dans le traitement (je n'ai pas compris comment cette donnée était vraiment prise en compte), ne sont pas les auteurs des documents référencés comme c'est le cas dans CiteULike, mais ceux qui ont fait le référencement. Quel est l'impact réel sur les résultats ?
- il s’agit bien ici – comme pour les cartographies de corpus dans les systèmes de fouille de texte ou text mining – d’élaborer un (méta)système dynamique de recherche/navigation à partir des données existantes dans le corpus (donc a posteriori). A bien distinguer des méta-systèmes autonomes comme les thésaurus ou plus globalement ce que l’on appelle les vocabulaires contrôlés (a priori).
- Bien sûr, on pourrait transformer ce résultat en outil… d’indexation. Ce que certains dans les méandres des blogues semblent regretter et vouloir faire (« Stratégie pour les tags")

En trois-quatre ans, nous sommes partis de textes, vierges de toute métadonnée, puis progressivement nous sommes passés à quelques tags spontanément attribués par des lecteurs ou auteurs sans contrainte (Delicious), puis aux clusters de Flickr et aux « facettes de tags » de facetious, ... et maintenant à la hiérarchie des tags….
C’est l’évolution perpétuelle !

TrackBack

URL TrackBack de cette note:
http://www.typepad.com/t/trackback/212377/4870823

Voici les sites qui parlent de Les tags se hiérarchisent...:

» Stratégie pour les tags from Empyrée
Initialement publié le 13 février 2006 à 10:48:35 J?utilise beaucoup les tags sur DotClear depuis que c?est possible. Je pense même, à la lecture de certains commentaires, qu?ils vont remplacer les catégories (d?autant plus que les... [Lire la suite]

Commentaires

Flux Vous pouvez suivre cette conversation en vous abonnant au flux de commentaires pour cette note.

J'ai toujours regretté quelques défauts dans l'utilisation des tags par les système de folksonomie ou de taxonomie:
- l' utilisation d'identifiants qui dépendent fortement de notre culture, sans pour autant préciser par une définition le sens que l'on attache à cette classification. Si les effets sont limités quand le classement est effectué par un petit groupe, dès qu'un article est classé par un très grand nombre de personnes il y a multiplication de tags et dispersion.

- l'absence de relations entre identifiants pour constituer des 'domaines', des hiérarchies, ou des synonymies par exemple. Cela permettrai de constituer une sorte de thesaurus spontané et améliorerai le classement des articles.

Apparemment je ne suis pas le seul.

Poster un commentaire

Si vous avez un compte TypeKey ou TypePad, merci de vous identifier

Dico Eng-Fre


  • Infos&Contact

Compteur

Blog powered by TypePad
Membre depuis 11/2004