L'indexation (humaine) des photos - vaste question que Patrick peccatte attaque à partir d'exemples concrets … « Du bruit au signal (et inversement ») » (titre de son blogue) : on ne peut mieux dire.
Un premier constat : des pratiques très variées pour ne pas dire disparates.
Un deuxième constat : les limites du format IPTC/IIM qui n'offre pas dans son modèle de quoi hiérarchiser ou structurer ces « mots clés ». Ce qui laisse le champs libre, semble-t-il, les pratiques actuelles.
De ces exemples, j'en tire pour ma part d'autres enseignements en particulier sur les difficultés à articuler méthodes et outillages techno-documentaires "manuels" et automatiques, pour ces derniers, exploités de longue date mais pas assez diffusés, me semble-t-il même si les applications intranets ou de catalogue électronique ont "bousté" ces technologies depuis l'an 2000.
Je pense en particulier :
- aux technologies linguistiques ou plus largement sémantique pour (a minima) la reformulation des questions (1). L'idée de vouloir intégrer « à la main », pour simplifier la vie des utilisateurs, la multiplicité des formes fléchies, désinences, … me semble quelque peu utopique. Certains dispositifs utilisent des outils de lemmatisation "simple", comme celui de Porter, mais cette technique bien souvent, n'est pas suffisante, et il serait nécessaire d'intégrer d'autres catégories d'algorithmes ou de solutions plus élaboré(e)s. D'autant qu'aujourd'hui, ces technologies se démocratisent et sont utilisables sur le web (ce qui semblait difficile il y a 10 ans). On a même des moteurs spécialisés comme Ask ou Hakia (une recherche sur le recyclage des emballages de fruits).
- après avoir embarqué et traité la requête, il s'agit de l'enrichir grâce aux techniques d'expansion sémantique en recherche
ce qui évite ainsi
d'indexer à outrance les ressources, par intégration de tous les termes (génériques mais aussi équivalents) le
long d'une branche d'un thésaurus ou de tout autre type de ressource sémantique, comme le
montre certains exemples évoqués par P.Peccatte. Il s'agit alors d'utiliser un programme dédié exploitant à la recherche un graphe de concepts. Cette extension peut intégrer également (mais avec prudence) les branches reliées par des relations moins fortes
comme des relations associées. Ce principe est intégrés aux solutions sémantiques évoluées (Autonomy, Exalead, Sinequa...). Les logiciels de gestion documentaires proposent quant à eux ces fonctions mais uniquement d'autopostage, c'est-à-dire justement à l'indexation pour enrichir la description de la ressource ; en général elles ne sont pas intégrées aux portails.
Mais il reste encore des choses à faire pour tenir compte à la fois des métadonnées lorsqu'elles existent et des traitements automatiques d'expansion sémantique. - de la gestion des métadonnées si l'on veut employer les notions plus actuelles : le marqueur de langue apparaît dans ces exemples, mais le principe de marqueurs sémantiques des contenus, utilisables bien sûr en recherche, peut se déployer sur d'autres catégories d'information : géographique, composition ou position dans l'image, catégorie de personnage,….Cette catégorisation sémantique est difficile à identifier tant cette zone d'analyse des contenus est brouillée par l'apport de termes tout azimut.
- et bien sûr, une présentation catégorisée des résultats de la recherche, sur la base de ces marqueurs (métadonnées) et/ou de traitements totalement automatiques sur les contenus
Quant aux pratiques de représentation structurée : elles existent déjà ! Par exemple : Getty Image ou Jupiter pour n'en citer que deux. Une course stratégique pour répondre aux besoins des clients.
Cette rapide étude conduite par P Peccatte montre aussi que les secteurs ou les organismes ne sont pas tous au même degré de maturité face aux méthodes ou techniques automatiques (linguistique, statistique ou de modélisation), et que certains se sont laissés ... dépassés par les volumes à la fois des ressources et des utilisateurs.
Répondre au fil de l'eau aux
demandes -parfois contradictoires- des Utilisateurs
aboutit aujourd'hui à des « châteaux de cartes » ;-)
Pour aborder la partie linguistique
Les applications d'accès à l'information textuelle, C. Fabre, 2008, SL0541 - linguistique et TAL. Support de cours en ppt - Linguistique et Traitement Automatique des Langues II- S1 (ppt) ou S2 (ppt)
Indexation automatique et langage naturel (pdf), Sylvie Dalbin, JE du Jeudi 5 Décembre
2002 à Rouen, ADBS Normandie, AIVP et GIDE (Revu en 2009, ce document reste d'actualité - sauf pour les produits et leurs tarifs). (version 2002 en ligne)
Et un livre pour ceux qui voudraient approfondir : Recherche d'information et traitement de la langue : fondements linguistiques et applications, G. Lallich-Boidin, Dominique Maret ; Presses de l'ENSSIB, 2005.- 288 p.
Note (1) - Fluhr C. “ Le traitement du langage naturel dans la recherche d'information documentaire ” in « Séminaire Inria - Les interfaces intelligentes dans l'IST », INRIA, 1992
Les commentaires récents