« avril 2006 | Accueil | juin 2006 »

22 mai 2006

Nouvelle version de Zthes

En août 2005, nous présentions Zthes, le profil du protocole de recherche Z3950, permettant de naviguer et de sélectionner des termes au sein d’un thésaurus. La version 0.5 datait de 2001.
La version 1.0 vient de paraître avec comme principales modifications :

#  Ajout de nouveaux éléments  :
- termeUpdate [mis à jour], avec comme valeur : ajouté ou supprimé,
- termVocabulary, dans le cas où le thésaurus contiendrait plusieurs vocabulaires distincts (différent de termCategory)
- termCatégory : appartenance à un microthésaurus ou champs sémantiques, répétable
- termStatus avec comme valeur : actif, désactivé ou supprimé. En général, seuls les termes "actifs" sont utilisables en recherche
- termApproval avec comme valeurs : candidat, approuvé, rejeté. (On pourrait par exemple conserver les Candidats à la recherche). Distinct de termStatus
- termSortkey : une clé explicite pour chacun des termes.

# L'élément de donnée termNote est maintenant répétable, et peut avoir un label de désambiguisation (application, source, ...)

# en option, les relations peuvent avoir maintenant des poids reflétant l'importance de la relation entre termes

#  Il est possible de créer un enregistrement, thesNote, pour décrire l'ensemble du thésaurus  en utilisant les éléments du DC.

Les schémas valables sous la forme d'une DTD, W3C XML Schema ou Relax-NG Compact et Relax NG XML ont été mis à jour.

Les changements apportés en 2005 à la norme américaine ANSI Z39.19 sur les vocabulaires contrôlés doivent être pour beaucoup dans cette évolution.

Pour suivre les travaux et évènements de Zthes, la liste de diffusion : http://lists.indexdata.dk/cgi-bin/mailman/listinfo/zthes


19 mai 2006

Classification du savoir à l’heure d’Internet, Nantes, lundi 26 juin 2006

Voici le programme de la journée ISKO France pendant la Semaine de la Connaissance


«Pratiques et méthodes de classification du savoir à l’heure d’Internet»
 Nantes, 26 juin 2006


Matin

9h-30 à 10h30: Conférence invitée SDC: Viviane COUZINET, «Les connaissances au regard des sciences de l’information et de la communication: sens et sujets dans l’inter-discipline»

10h45: Début Journée ISKO
Introduction: Stéphane CHAUDIRON, Président du Chapitre français d’ISKO

Session «Structuration et organisation des savoirs en ligne»
11h à 12h30
Modérateur: Widad MUSTAFA EL HADI, Université de Lille 3
Huguette RIGOT, «Les classifications du savoir numérique: utopie ou objet frontière».
Michèle HUDON, «Structure logique et sémantique dans l’organisation des ressources du Web en éducation»
Philippe MOLINES et Eric DELAMOTTE, «Du renvoi encyclopédique à l’hypertexte dans le wiki: ruptures et continuités dans la structuration et l’organisation des savoirs en ligne»

12h30: Déjeuner

Après-midi

Session «Les nouveaux outils d’accès au savoir»
14h à 17h
Modérateur: Jean-Paul METZGER, ENSSIB
Luc GRIVEL, «Outils de classification et de catégorisation pour la fouille de textes»
Eric BOUTIN, Luc QUONIAM, Gabriel GALLEZOT, «Une approche classificatoire des SIC sur le web»
Sophie CHAUVIN, «Les classifications instrumentées par l’hypertexte: l’accès aux catalogues des bibliothèques universitaires»
Benoît HUFSCHMITTet Alain LELU, «Rêves déçus et espoirs raisonnables à propos d’un logiciel de classement automatique en philosophie»

Pause

17h30-19h
Conseil d’administration du Chapitre français de l’ISKO
http://SDC2006.org/


Pour les modalités d’inscriptions voir le site de la SDC: http://sdc2006.org/inscri/afia-form.php


NB: Les inscriptions à la SdC bénéficient d'un tarif préférentiel jusqu'au 20 mai.

15 mai 2006

Les tags se hiérarchisent...

Deux auteurs d’InfoLab, laboratoire de l’Université de standford, travaillent sur la hiérarchisation des annotations sur les folksommies, bref des tags.
Les auteurs expose dans un article, l’algorithme développé et présente deux exemples à partir de :
- Delicious : 19 000 objets traités, soit environ 61000 tags distincts sur 252 000 annotations par 85000 utilisateurs
- et CiteULike : 452 000 objets, 41500 tags pour 157000 annotations par 5 700 utilisateurs

Quelques mots sur ce travail :
> 1 utilisateurs / 1 objet / Plusieurs tags
> il n’y a aucune structure prédéfinie au sein des tags.
> traitements : agrégation de tags au sein de vecteurs de tags en fonction des occurrences d’utilisation d’un tag pour un objet ; calcul de similarité entre les tags, construction du graph de similarité.

Exemple sur Del.ic.ious

Ceux qui baignent dans le monde de la fouille de texte (text mining) connaissent bien sûr depuis longtemps ce principe d’exploitation des « mots-clés » ou d'autres métadonnées associés à un objet documentaire, pour la production de graphes donnant une représentation d’un corpus de données. Avec la possibilité de naviguer dans ce graphe.

Trois petites remarques :
- Sur Delicious, les « auteurs » pris en compte à un moment donné dans le traitement (je n'ai pas compris comment cette donnée était vraiment prise en compte), ne sont pas les auteurs des documents référencés comme c'est le cas dans CiteULike, mais ceux qui ont fait le référencement. Quel est l'impact réel sur les résultats ?
- il s’agit bien ici – comme pour les cartographies de corpus dans les systèmes de fouille de texte ou text mining – d’élaborer un (méta)système dynamique de recherche/navigation à partir des données existantes dans le corpus (donc a posteriori). A bien distinguer des méta-systèmes autonomes comme les thésaurus ou plus globalement ce que l’on appelle les vocabulaires contrôlés (a priori).
- Bien sûr, on pourrait transformer ce résultat en outil… d’indexation. Ce que certains dans les méandres des blogues semblent regretter et vouloir faire (« Stratégie pour les tags")

En trois-quatre ans, nous sommes partis de textes, vierges de toute métadonnée, puis progressivement nous sommes passés à quelques tags spontanément attribués par des lecteurs ou auteurs sans contrainte (Delicious), puis aux clusters de Flickr et aux « facettes de tags » de facetious, ... et maintenant à la hiérarchie des tags….
C’est l’évolution perpétuelle !

06 mai 2006

ISO/IEC DIS 26300 vous connaissez ?

Le format ouvert ODF pour les fichiers bureautiques (=Open Document Format for Office Applications v1.0) est dans la phase d’enquête ISO [en].

Stratégique, ce choix devrait plus particulièrement convenir aux spécialistes de la pérennisation de l’information numérique (PIN) [fr]. Les données sont stockées sous forme de texte généré et manipulé par des applications, tout dans le moule XML, bien sûr. Il permet ainsi l’utilisation, l’édition, l’échange et l’archivage des données dans un fichier indépendamment d’un logiciel particulier.

Utilisé de façon native par la suite bureautique OpenOffice v1.0 [en], le format OpenDocument est un standard de l’OASIS [en], promotteur des formats ouverts, depuis 2005. C’est ce format qui a été pris comme référence pour les travaux de normalisation.
De nombreuses suites bureautiques exploitent déjà ce format : StarOffice de Sun, KOffice, TextMaker, IBM Workplace et Abiword.

Et que fait Microsoft ? MS a lancé son propre format Open XML dans les rails de la normalisation au sein de l’ECMA [fr] , autre structure de normalisation. Et il a rejoint en mars 2006 le groupe OpenDocument ! Une stratégie peu appréciée.

Autre ressource pour les formats : le blogue "formats-ouverts" [fr]

Les notes récentes


  • Infos&Contact

Compteur

Blog powered by TypePad
Membre depuis 11/2004