« août 2005 | Accueil | octobre 2005 »

30 septembre 2005

The Society of Indexers. The British and Irish professional indexing

Créée en 1957 ( !), la Société des indexeurs de Grande Bretagne et d’Irlande a comme objectif tout à la fois la promotion de cette activité et des indexeurs dans le développement des idées et de la connaissance, l’assistance aux nouveaux indexeurs, le développement de critères qualité et la recherche. Cela concerne tout à la fois la production éditoriale traditionnelle, les sites Web, d'autres applications informatisées ou des banques de données.

L’association offre des services non seulement aux indexeurs, mais également aux éditeurs et aux auteurs. Le site est le reflet de la richesse de l’activité de l’association : formation, guides, système de certification, conférences et ateliers, liste de diffusion, publication dont la revue The Indexer, le répertoire de 208 indexeurs et une foire aux questions sur les index et l’indexation.
Le tout complété par la liste des prix pour la reconnaissance de l’excellence dans l’indexation !

25 septembre 2005

Index A-Z


Index du site Descripteurs
Création : le 18 Septembre 2005
Mise à jour : le 02 Avril 2006


Association professionnelle

Catégorisation

Classification

Concept

Dictionnaire

Format

Glossaire

Index-Indexation 

Lexique

Logiciel

Métadonnée

Mise en correspondance (mapping)

Mot-clé

Moteur de recherche

Navigation

Norme

Outil terminologique

Recherche

Relations dans les langages

SKOS - schéma RDF Thésaurus

Sujets

Terme

Terminologie

Thésaurus

Thésaurus (création)

Thésaurus (exemples)

Vocabulaire contrôlé

Web sémantique

Zthes

21 septembre 2005

Thésaurus, un trésor !

Une simple recherche avec le mot thesaurus dans le Web francophone et anglophone ramène une pêche fructueuse et variée, devant laquelle les professionnels de l’infodoc restent parfois perplexes. Au milieu de thésaurus que nous nommerons documentaires, apparaissent d’autres « thésaurus » dont la fonction et/ou la structure ne peuvent être confondues avec celles des thésaurus documentaires.

Quelques exemples :

  • Dans le domaine médical : « l’ensemble des interactions médicamenteuses identifiées par le Groupe de Travail [Afssap] sont regroupées dans un Thesaurus […] « délivrant une information de référence » [http://agmed.sante.gouv.fr/htm/10/iam/triam.htm]. Le « Thésaurus de bonnes pratiques du cancer colorectal métastatique » répond aux mêmes besoins [www.snfge.asso.fr/01-Bibliotheque/0G-Thesaurus-cancerologie/TPC-cancer-dig/TPC.htm].
    On peut également citer le Thésaurus Vidal Semp (TVS), base de données médicamenteuse Rq : Ce produit a changé de dénomination. NDA]. L’aspect « contrôlé » ou univoque de ces listes rappelle les caractéristiques des vocabulaires documentaires, mais leurs fonctions pédagogiques ou ici normatives au cours d’un diagnostic ou d’une prescription, ainsi que leur structure s’éloignent fortement des normes qui régissent les thésaurus documentaires.
  • Dans le domaine juridique ou patrimonial : notons que le nom de domaine Thésaurus.fr a été pris par une société de conseil en développement patrimonial ; plus largement le terme thésaurus est exploité pour désigner des classifications ou des index de collections de textes à caractère juridique, voire des tables des matières détaillées d’un ouvrage (un code), point d'accès non combinatoire. Un exemple : le Thésaurus de la CNUDCI pour la Loi type sur l’arbitrage commercial international» [http://www.uncitral.org/uncitral/fr/case_law/thesauri.html].
  • Dans le domaine littéraire, le Thesaurus linguae graecae (TLG) de l’Université de Californie à Irvine correspond à une collection de textes littéraires connus de l'antiquité grecque [Online TLG - http://www.tlg.uci.edu/]. On peut également citer le Thesaurus Diplomaticus : « Base de données textuelles et d'images de 12.800 documents diplomatiques des VIIe au XIIIe siècles, portant sur l'histoire médiévale de la Belgique et des régions limitrophes [http://www.bib.ulb.ac.be/BSH/bsh_thes.htm]. Nous pouvons noter la fonction première de collection, groupement raisonné de ressources.
  • Dans le domaine linguistique ou plus précisément lexicographique, le thésaurus a un sens tout à la fois proche et distinct. En 1553, Robert Estienne (1503-1559) publiait le Thesaurus linguae latinae (TLL) dictionnaire bilingue ; son fils, Henri, publiait en 1572 le Thesaurus graecae linguae. L’évolution lexicographique française nous mène ensuite au Thresor de la langue françoyse de Jean Nicot en 1606 sans que la filiation avec les thésaurus documentaires soit visible, à une époque où l’orthographe et le dictionnaire se cherchaient (*, **). C’est avec l’ouvrage proposé en 1852 par l’anglais P.M. Roget, philosophe et savant, que cette filiation apparaît nettement. Le Roget’s Thesaurus of English Words and Phrases présente une liste de termes organisés non plus par ordre alphabétique, mais par sujets hiérarchisés (environ 1000 concepts en 6 niveaux). Ce thésaurus de langue est « sans prétention linguistique. « Notre tâche n’est pas d’expliquer la signification des mots [il n’y a pas de définition] mais seulement de les classer et de les arranger selon le sens que l’usage leur a donné et que nous supposons être connu du lecteur » (tiré de *, p.380). Plus avant dans l’Histoire, on peut noter des classements par centres d’intérêt : les mots sont alors en rapport avec le sujet évoqué. C’est l’origine des premiers vocabulaires médiévaux, souvent limités aux substantifs (*, p.362), l’idée sous-jacente étant "qu’une idée étant donnée, [il s’agit plus de] trouver le mot qui l’exprime le plus convenablement ». Alors que pour les dictionnaires, « un mot étant donné, [il s’agit de] trouver sa signification ou l’idée qu’il représente ».
    Avec le Roget’s Thesaurus, nous nous approchons fortement du monde des thésaurus documentaires. Mais les différences dans leur finalité (trouver un ou plusieurs "bons" mots pour connaitre et apprendre, ou pour interroger une base documentaire) entraînent des distinctions : sur le choix des mots (expansif dans le Roget incluant des phrases, restreint dans les thésaurus documentaires), et dans les outils d'orientation (générique et non modifié dans le Roget, adapté à la recherche dans un domaine pour les thésaurus documentaires).
    Toujours est-il que le Roget’s thésaurus est régulièrement cité dans les ouvrages lexicographiques (dictionnaire de langue), mais les thésaurus documentaires n'apparaissent pas parmi les outils lexicographiques ou très rarement dans le monde de la terminologie.
  • Enfin, le site www.thesaurus-tv.com, « magazine des chasses au trésor et des jeux de sagacité », nous ramène à l’étymologie du terme : le trésor !! Car derrière ces contextes d’utilisation multiples - thésaurus médical, littéraire, juridique, linguistique, documentaire…- c’est l’idée d’un trésor qui est pointée avec le choix de ce terme : trésor à préserver, à fructifier, à gérer, … à partager. Ce que la terminologie employée par Nicot en 1606 reprend dans le « trésor historique de la langue française ».

Ces exemples mettent en exergue quelques caractéristiques des thésaurus documentaires : l’aspect contrôlé (juridique, médical), de référence (médical, littéraire), l’organisation hiérarchisée des termes  (thesaurus linguistique), mais toutes les caractéristiques des thésaurus documentaires ne sont pas couvertes en particulier les plus spécifiques (relations et structure, type d'équivalences) sont peu visibles.

Plusieurs problèmes résultent de cette absence de distinction entre ces différents « thésaurus ».
En particulier les thésaurus documentaires, moins nombreux que les dictionnaires et d’un usage plus ciblé et plus contraignant, sont fréquemment perçus et utilisés par des non-professionnels de l’infodoc, comme de « simples » lexiques ; la présentation hiérarchique est souvent assimilée à la hiérarchie d’un plan de classement, le concept représenté pris pour un sujet et les relations ne sont ni comprises et donc non exploitées réduisant fortement l'intérêt de cet outil.

Pour le premier problème évoqué (un thésaurus est un dictionnaire) et en tenant compte de l’histoire qui donne la prérogative au dictionnaire lexicographique (Roget's Thesaurus, Thésaurus Larousse,...), il serait certainement sage de nommer les thésaurus utilisés pour l’indexation et l’accès à l’information, thésaurus documentaires ou thésaurus de descripteurs, comme le précisent Jacques Maniez (langage de descripteurs, p. 317-) et Michèle Hudon****.
La construction d’un nouveau terme moins ambigu pour ce nouvel outil aurait été plus judicieuse. Mais les initiateurs ne devaient pas s’imaginer l’extension de son usage et une telle reconnaissance près de 40 ans après !

-----------
Nous avons largement utilisé le Web pour la diversité des exemples cités.

Les dictionnaires et thésaurus de langue :
* Site Estienne-Nicot, Les dictionnaires de Robert Estienne et de Jean Nicot, T.R. Wooldridge, août 1998, http://www.chass.utoronto.ca/~wulfric/tiden/
** Le musée virtuel des dictionnaires [site], Jean PRUVOST, Université de Cergy-Pontoise - UFR de Lettres et Sciences humaines CNRS, INaLF, Métadif, http://www.u-cergy.fr/dictionnaires/index.html
*** Les Dictionnaires du français moderne. 1. Études sur leur histoire, leurs types et leurs méthodes, 1539-1863. Bernard Quemada. Paris, Bruxelles, Montréal : Didier, 1968

Les thésaurus documentaires
*** Le thésaurus : conception, élaboration, gestion, Asted, 1994, p.35

19 septembre 2005

Le mot-clé


Note sur la notion de mot-clé pour la recherche d'information.

Création : le 17 septembre 2005
Mise à jour : le 19 septembre 2005

A la question posée  « quelle(s) compétence(s) doit posséder un utilisateur ayant un besoin d’information et souhaitant formuler une question à un système documentaire", un collègue terrain annonçait durant un stage de formation de formateur auprès de bibliothécaires et documentalistes : «les utilisateurs du Centre en fait ne savent pas ce que veut dire mot-clé ».

Voilà une compétence rarement formulée et pourtant si essentielle !

Le sens attribué par les documentalistes se rapporte souvent à l’indexation des documents :

« Terme choisi généralement dans le titre ou le texte d'un document pour en caractériser le contenu et en permettre la recherche. Il constitue un point d’accès. Il est à distinguer d’un descripteur, qui est un terme normalisé dans un thésaurus. (Vocabulaire de la Documentation, ADBS Editions, 2004)

« Keyword : significant term found in a document, in its title or in an abstract, which identifies subject content » (in Concice dictionary of Library and Information Science, Stella Keenan, Bowker Saur, 1996)

Mais, formulée selon le point de vue de l’utilisateur dans une phase de recherche :
« C’est à partir des termes porteurs du sens requis (les mots clés) que la question est posée » (*, p.152)

Ce n’est donc pas seulement « taper quelques mots » !!

Mais comment faire pour choisir ce ou ces mots qui serviront de clé(s) ?
Comment éliminer les intrus ? (*)
Et comment faire pour acquérir cette compétence ?

Le Web et les moteurs de recherche ont modifié le contexte et les exigences de la recherche d’information, et si les méthodes à employer sont différentes de celles édictées dans les règles professionnelles (champs contrôlés d’une base de références bibliographiques), elles ne le sont qu’en partie seulement.

En effet, l’étape initiale qui consiste à réfléchir et identifier les mots-clés distinctifs par rapport à son besoin d’information, reste identique et normalement indépendante de la 2ème étape manipulatoire qui porte sur le choix définitif du ou des termes utilisés pour le système informatique.
Les précisions apportées dans un article de la Commission Français et Informatique** sur les difficultés liées à la 1ère étape en pédagogie et sur la notion de mot-clés, sont éloquentes et très intéressantes.

Quant à l’étape suivante de sélection des « bons » termes vis-à-vis du système, favoriser l’apprentissage des compétences nécessaires à un usage intelligent de chacun de ces dispositifs me semble plus efficace, plutôt que d’imposer à tout prix un modèle unique de recherche d’information : celui de la base bibliographique, comme semble le suggérer Marc Duval dans son article sur les mots clés***.

Entre autres, la compétence de fouille dans un lot résultat s'appuyant sur les outils de catégorisation proposés me semble tout aussi intéressante à acquérir, que la compétence de sélection d’un « bon » mot clé, ou (pire?) celles liées aux syntaxes et ergonomie variées pour formuler la question, mis en œuvre dans les systèmes documentaires informatisés.
Des compétences techniques, manipulatoires comme le suggère Mr Fondin dans son dernier article sur le sujet****, plutôt que des compétences liées à la signification (« le mot-clé concentre le sens »**)

Les pratiques liées aux outils du Web vont se développer ; l’Internet/Intranet mobilise d’importantes « masses et flux » d’usagers et d’usages. Aussi me semblerait-il plus judicieux que les professionnels de l’infodoc intègrent positivement dans les projets de formation mais aussi de conception des dispositifs documentaires, ces modèles ou des modèles dérivés, en faisant la promotion du mot-clé, indispensable dans les 2 modèles de recherche.

SD
-----
* L’analyse documentaire, Suzanne Waller, ADBS Editions, 1999
**  La notion de "mot-clé" et sa difficile application pédagogique, Commission Français et Informatique, [2000], http://users.skynet.be/ameurant/francinfo/motcle/motcle.html
*** Le mot-clé, Marc Duval, Dernière mise à jour 2002-01-08, http://www.dsi-info.ca/mot-cle.html
**** La formation à la recherche d’information : préoccupation citoyenne ou vision obsolète?, Hubert Fondin, Revue Esquisse, p.16-25, http://www.aquitaine.iufm.fr/recherche/esquisse/pdf/esquisse43.pdf

16 septembre 2005

Catégorisation des résultats : des moteurs

Quelques moteurs sur le Web qui catégorisent à la volée les résultats de la recherche :

KillerInfo
Vivisimo  sur le Moteur Clusty
Exalead
MatchPoint de TripleHop avec le Moteur Find
SRC de MSN
Wisenut
Nlsearch
Teoma

15 septembre 2005

Relation hiérarchique d'instance

Au sein des relations hiérarchiques, il est possible d'identifier les relations partitives et les relations d’instance.
Dès la norme ISO de 1986, la relation partitive est caractérisée et symbolisée par les trigrammes TGP (terme générique partitif) et TSP (terme spécifique partitif).
Par contre les relations hiérarchiques d’instance ne font leur apparition en tant que relation formelle, qu’avec la dernière norme américaine (Z39.19:2005, votée en juillet) et le draft de la norme anglaise BSI 8723 en cours de rédaction. Ces relations d’instance existent également dans le schéma RDF SKOS.
Elles sont alors symbolisées par les trigrammes TSI (terme spécifique d’instance)/TGI (terme générique d’instance).

Que sont ces relations d’instance ?
...« contrairement aux autres relations, elle [instance] ne lie pas des classes de concepts entre elles, mais un objet unique au nom de la classe »
(tiré de Cartes Conceptuelles et Thésaurus : Essai de Comparaison Entre Deux Modèles de Représentation Issus de Différentes Traditions Disciplinaires, Lalthoum Saadani et Suzanne Bertrand-Gastaldy, ACSI 2000, http://www.slis.ualberta.ca/cais2000/saadani.htm).

Jean Aitchison exprime cette relation par la notion d'exemple : « une catégorie générale de choses et d’évènements exprimée par un nom commun, et un exemple individuel de cette catégorie,...».
(tiré de Construire un thésaurus : manuel pratique / Jean Aitchison, Alan Gilchrist,  ADBS éd., cop. 1992, p.61)

C’est une relation hiérarchique qui relie donc deux entités suivant le critère « est un spécimen d’une catégorie » ou "est un exemple de".

Mais dès lors que ce type de relation est formalisé – d’instance mais ceci est valable pour les relations partitives-, il paraît nécessaire de les distinguer des relations hiérarchiques génériques.
Celles-ci sont alors symbolisées par le trigramme : TGG/TSG. Ce qui donne en anglais :
BT Broader Term - BTG Broader Term (generic ) - BTI Broader Term (instance)
NT Narrower  Term - NTG Narrower Term (generic ) - NTI Narrower Term (ins tance)

Des exemples
Exemple 1
La Mégane est un spécimen de la catégorie Voiture > Voiture TSI Mégane ; Mégane TGI voiture
Et une voiture est un type de véhicule terrestre: véhicule terrestre TG voiture ; voiture TS véhicule terrestre

Exemple 2
La Seine est un spécimen de fleuve : fleuve TSI Seine (Seine TGI fleuve)
Et un fleuve est une catégorie / type de cours d’eau : cours d’eau TG fleuve (fleuve TS cours d’eau)

Exemple 3
Belmondo Paul est un « spécimen » de la classe « acteur » relation d’instance
Et acteur est un spécifique de métier du spectacle, comme musicien ou comédien

Exemple 4
Poilane est une instance de Boulanger
Et boulanger et boucher sont des spécifiques de Commerce

Exemple 5
Mer baltique ou Mer caspienne sont des instances de Mer

Quel usage ?
On peut remarquer que ces relations lient fréquemment un nom propre (la Seine, Mégane, Belmondo) à une catégorie d’origine. On voit tout de suite l’intérêt de relier hiérarchiquement les entrées des listes de noms propres, mises en « annexe » des thésaurus aux termes des champs sémantiques, en lieu et place d’une relation associative ou d’une relation hiérarchique générique qui ne pouvait être assurée qu’avec des thésaurus polyhiérarchiques.

14 septembre 2005

Thésaurus multilingue européen sur le sida et l'infection à VIH

Fiche mise à jour le 3 mai 2007

Localisation

Fichiers pdf de la Version de 1999
Mis à disposition avec l'autorisation du Crips-Ile de France (
www.lecrips-idf.net/)

Introduction sur le projet et le thésaurus (Th-SidaEU-Intro.pdf )
Descripteurs noms communs : Liste alphabétique (PAlpha.pdf )  - Liste hiérarchisée (PHiera.pdf ) - Liste permutée (PPerm.pdf )
Géographie : Liste alphabétique (GAlpha.pdf ) - Liste hiérarchique (GHiera.pdf )
Nom d'organismes français (France.pdf )

En complément, voir aussi le Thésaurus sur les traitements VIH/sida de CATIE du Réseau canadien d'info-traitements sida.

Editeur

Produit par un groupe de Centres documentaires spécialisés sur le sida et l'infection à VIH
AIDS INFO DOCU (Bern) ; CNLCS (Lisbon) ; CRIPS (Paris) ; NISSO (Utrecht) ; RESODOC (Brussels); SIDA-STUDI (Barcelona)


Mise à jour


Version 2 de juin 1999

 
Quelques données chiffrées

Domaines thématiques : -
Champs sémantiques : 22
Descripteurs : environ 2 000
Non-descripteurs : à compléter
Relations : à compléter
Versions linguistiques : 7 (allemand, anglais, espagnol, français, italien, néerlandais, portugais)

Organisation générale du langage

1010 ETHIQUE ET DROIT
1020 ECONOMIE
1030 DEMOGRAPHIE
1040 SOCIOLOGIE
1050 COMPORTEMENT ATTITUDE REPRESENTATION
1060 PSYCHOSOCIOLOGIE
1070 COMMUNICATION
2010 SYSTEME DE SANTE
2020 EPIDEMIOLOGIE
2030 PROMOTION DE LA SANTE
2040 TRANSMISSION
2050 PRATIQUE MEDICALE
3010 AGENT PATHOGENE
3020 ANATOMIE
3030 SPECIALITE
3040 PATHOLOGIE
3050 THERAPEUTIQUE
4010 VIROLOGIE
4020 MECANISME IMMUNOLOGIQUE
4030 RECHERCHE
5000 ACTEUR
6000 METHODOLOGIE

Interface d'interrogation

Pas d'interface d'interrogation du thésaurus.

12 septembre 2005

Catégorisation : organiser les résultats de recherche

Organiser le lot-résultat d'une recherche documentaire en le classant à la volée, voilà une fonctionnalité très intéressante pour l'utilisateur final.
Il ne s'agit pas ici de détailler les techniques de catégorisation ou classification automatique, mais de montrer l'intérêt de cette fonction pour l'utilisateur à travers quelques exemples.

Le modèle de la "recherche documentaire" mis en oeuvre dans de nombreux systèmes documentaires et de bibliothèques, se limite bien souvent à la recherche bibliographique : poser une question précise et obtenir des références de documents.
Mais comment l'utilisateur trouve-t-il l'information utile au sein de cette liste de documents ? Comment sélectionner au sein de ce corpus ?
C'est dans ce contexte de recherche d'information et non uniquement de recherche bibliographique, que la catégorisation du lot-résultat devient alors une fonction essentielle dans les systèmes d'information documentaire.


Petit détour historique ...

Au début de l'informatique documentaire - et malheureusement parfois encore ! -, le mode de présentation des résultats d'une recherche bibliographique était ... l'ordre d'entrée dans la base !
Une liste à lire séquentiellement sous une forme peu pratique pour s'y repérer. Ce qui conduisait à un travail de dépouillement de ces résultats, (parfois) réalisé par les documentalistes, avant l'envoi du "listing" à l'utilisateur : stabilotage (?) des dates, de la langue du document, de l'orientation thématique, de la nature du texte, ....Bref, tout ce qui pouvait apporter une information susceptible d'aider l'utilisateur à privilégier tel ou tel document, telle ou telle information.

Puis, le développement des systèmes de gestion de base de données (SGBD) a permis d'exploiter chacune des rubriques en amont ou en aval de la requête pour trier les résultats : date, nom d'auteur, type de support, .... Des imbrications de tris peuvent être proposées : date, puis par nom d'auteur par exemple.

Enfin, depuis une dizaine d'année de façon perceptible, avec l'idée sous-jacente de traiter les contenus numériques et non des références, de nouvelles techniques ont vu le jour. Elles traitent le lot résultat pour fournir à l'utilisateur une vision organisée, classifiée, structurée et des outils d'orientation supplémentaires pour se repérer dans ce corpus de documents.

clusterisation (ou « typologie », ou « regroupement », ou « classification automatique »), c’est partitionner une base de données en un petit nombre de sous-bases, appelées « classes », et  telle que :
= Deux individus appartenant à une même classe soient aussi semblables que possible.
= Deux individus appartenant à deux classes différentes soient aussi dissemblables que     possible. (tiré de AI Access).


Sur le Web
, nous avons accès à des solutions proposées par :
- MatchPoint de TripleHop, qui fonctionne sur le site Find.com
- Exalead, par le concepteur à l'époque de LiveTopic, pour les routards de la documentation (LE Altavista des années 1997)
- Vivisimo qui fonctionne sur le site Clusty où l'organisation des résultats s'opère sur tous les types de ressources : Web, mais aussi blogues, actualités,....

Ces trois sociétés - entre autres - proposent des produits et services pour les intranets, mais leur offre sur le web - en bêta ou en démonstration - va nous permettre de pointer quelques unes de leurs caractéristiques.

Vous pouvez aussi visiter, dans des environnements professionnels diversifiés :
- le site de l'Inria, avec des règles de catégorisation adaptées au contexte (sous Exalead)
- le site de la mairie de Pittsburg : http://cityofpittsburgh.net/
- le site Proceedings of the National Academy of Sciences (USA). Après avoir fait une recherche, sélectionnez un terme de l'index sujet ("subject indexes" à droite de l'écran), pour atteindre Instant Index.
- AOL US a opté pour Vivisimo, AOL France - le premier à avoir en 2002 proposé cette solution - a opté quant à lui pour Exalead.
- Ou encore les solutions : Factbites et de nombreux autres outils adaptables à des moteurs d'indexation et de recherche, par exemple WSM de MSN ou tous les produits de recherche sur le contenu, d'Albert Inc à New-phenix en passant par Verity.

Lire la suite "Catégorisation : organiser les résultats de recherche" »

Les notes récentes


  • Infos&Contact

Compteur

Blog powered by TypePad
Membre depuis 11/2004