02 août 2007

Optimiser l'accès à l'information, une opportunité pour les langages documentaires ?

Après un numéro spécial de la revue Documentaliste SI au début de l'année, l'ADBS poursuit sa réflexion sur la place des vocabulaires contrôlés dans l'accès à l'information et organise une Journée d'étude le 20 septembre 2007 (Paris) sur ce sujet.

Edito : "Si l'accès à l'information est aujourd'hui dominé par les moteurs de recherche statistiques aux algorithmes toujours plus sophistiqués, la navigation au travers d'interface guidée n'a-t-elle pas également une place de choix.
Comment les utilisateurs de systèmes documentaires cherchent-ils l'information ? Peut-on dresser une typologie selon les publics ? Trouvent-ils facilement ? La pratique quotidienne d'Internet de ces dernières années nous permet aujourd'hui d'effectuer un panorama des usages, des pratiques et des outils mis en œuvre dans la recherche d'information.
Faut-il continuer à indexer des ressources documentaires et à produire des thésaurus ? Quelle est la place de l'utilisation du langage naturel ? Quelle est celle des accès classificatoires ?
Quel rôle doivent ou peuvent tenir les vocabulaires contrôlés dans ce contexte où chaque élément d'information (métadonnées, texte intégral, et bientôt l'image elle-même) devient un point d'entrée pertinent ?
Cette journée apour objectif de repérer les modalitésde recherche mises en œuvre par les différents types d'utilisateurs et de délivrer quelques éléments clés aux professionnels afin de les aider à positionner et à enrichir leurs offres d'accès à l'information."

Infos sur la journée

Programme : http://www.adbs.fr/uploads/journees/5554_fr.php
Bulletin d'inscription :

29 juillet 2007

Thésaurus du réseau européen du patrimoine (HEREIN)

"système terminologique relatif aux politiques nationales [des différents pays de l'UE] concernant le patrimoine architectural et archéologique au sens défini par les Conventions de Grenade (octobre 1985) et de La Vallette (janvier 1992)"

Un thésaurus dédié exclusivement à la recherche au sein d'un corpus particulier de documents multilingues sur les politiques nationales des Pays de l'UE. Les documents ne sont pas indexés avec ce vocabulaire ; celui-ci sert exclusivement à interroger de façon transversale, les textes nationaux dans leur intégralité et dans chacune des langues.

Localisation

http://www.european-heritage.net/sdx/herein/thesaurus/consult.xsp
Consultable de façon autonome (indépendamment de l'interrogation d'une banque de données)

Site du Réseau européen du patrimoine :
http://www.european-heritage.net/sdx/herein/thesaurus/introduction.xsp

Editeur

Réseau européen du patrimoine
(système permanent d'information regroupant au sein du Conseil de l'Europe les services gouvernementaux européens responsables de la protection du patrimoine)
Correspondant en France : France Ministère de la Culture et de la Communication, Direction de l'Architecture et du Patrimoine

Mise à jour

Essentiellement sur les versions linguistiques, les définitions et les notes historiques

Quelques données chiffrées

Domaines thématiques : 9
Champs sémantiques : -
Descripteurs : environ 500 termes (dans chacune des langues)
Non-descripteurs : -
Relations - à compléter
Multilingue : 8 langues (allemand, anglais, bulgare, espagnol, français, hongrois, polonais, slovène)
A venir : 23 langues à terme

Facettes (Domaines)
1    Agents (organisations and people), Organismes et intervenants, Agentes (colectivos e individuales)
2    Heritage Category, Catégories de biens culturels, Tipos de bienes
       biens culturels, espaces, intérêt patrimonial, patrimoine   
3    Documentation, Systèmes de documentation, Documentacion
       documentation, inventaires, listes des biens protégés
4    Legal systems, Système légal, Sistema legal
       instruments légaux, Outils d'aménagement, gestion du patrimoine, propriété, délits
5    Interventions, Interventions, Intervenciones
       types d'intervention, politique d'intervention, programmes d'intervention, outils d'intervention
6    Professional training, skills and qualifications, Formation, métiers, compétences, Formacion y cualificacion
7    Access and Interpretation, Communication et sensibilisation, Comunicacion y sensibilizacion
8    Economic and Financial systems, Système économique et financier, Aspectos económico – financieros
9    Broad concepts, Concepts généraux, Conceptos generales
        Concepts généraux liés au patrimoine, par exemple archéologie.

Interface d'interrogation
http://www.european-heritage.net/sdx/herein/national_heritage/search.xsp?action=thesaurus

Herein

Voici la résultat d'une requête : "espaces boisés"
Requête : espaces boises (sites naturels sites tis sites peuplement sites arch ologiques prot secteurs sauvegard prot paysages urbains paysages culturels zones int historique zones arch ologiques lieux couverte ensembles arch ologiques parcs jardins ruraux sites arch ologiques sites parcs arch ologiques serves naturelles parcs naturels gionaux parcs naturels nationaux zones naturelles int cologique floristique faunistique zones protection patrimoine architectural urbain paysager emprises fonci res abords bois jardins historiques centres villes historiques champs bataille sites pave ensembles historiques sites patrimoine mondial sites prot ume ter letek obmo ja espacios areas gebieden podru ja obszary)
Langue(s) : N'importe quelle langue
Pays : N'importe quel pays

03 février 2007

Accès multisources avec SRU/W

Le projet de La Bibliothèque Européenne a démarré en 2001. Entre 2001 et 2003, les bases techniques sont alors posées, donnant une part importante au protocole SRU  (Search/Retrieve via URL). C'est de ce SRU dont il sera question ici 
(et non de la loi du même sigle mais pas du même nom -- Solidarité et au Renouvellement Urbains-- qui nous occupe beaucoup dans les soirées de Conseil de Quartiers.....).

1. Un protocole de recherche tout Web, riche, simple et libre !
2. Un peu de technique

3. Accès multi-sources simplifiés

4. La Bibliothèque Européenne, une application SRU

5. Mais quel vocabulaire utiliser dans un portail multisources ?

6. Et les portails documentaires ?


1. Un protocole de recherche tout Web, riche, simple et libre !

Tout Web..... Le protocole SRU permet de transmettre une requête dans une URL (d'où son nom), à l'instar des moteurs de recherche, direz-vous. Requête et réponses véhiculées dans une URL, nécessairement en XML, peuvent être envoyées sur le réseau sous différents protocoles de transfert : HTTP bien sûr, le plus simple, mais d'autres protocoles sont autorisés comme SOAP (ou POST) utilisés dans le contexte des Services Web, ces derniers ayant moins de restrictions, en particulier sur la longueur ou sur les jeux de caractères dans les messages transmis.

Riche.... Mais ici, grâce au langage de requête utilisé, CQL, SRU permet de formuler aussi bien des requêtes simples avec un ou plusieurs mots que des requêtes structurées plus complexes, pouvant utiliser des valeurs d'index récupérées par ce mécanisme. Bref, la qualité de z3950 et la simplicité de HTTP/URL. SRU et son compagnon pour les Services Web, SRW suivent donc le modèle fonctionnel z3950, tout en prenant appui pleinement sur l'infrastructure de l'Internet et du Web (les questions et les réponses sont en XML).

Simple... L'élément-clé de ce protocole est le langage de requête utilisé, CQL (Contextual Query Language ou langage de requête contextuel),  considéré comme plus lisible et plus intuitif que le langage de requête utilisé avec z3950 (pas très difficile de faire plus simple, diront certains...). Dans le projet TEL, c'est cette simplicité de mise en oeuvre d'un portail SRU comparé au montage à réaliser à partir d'un portail traditionnel, qui a orienté ce choix. 

Libre... Une autre qualité mise en avant par bons nombres de promoteurs : SRU est un protocole libre et l'OCLC propose un logiciel libre pour implémenter SRU/W pour s'interfacer avec des bases bibliographiques.

Alors SRU et CQL, XML, HTTP ou SOAP, associés bien sûr à OpenURL pour atteindre le document...voilà la quincaillerie pour les années à venir...

2. Un peu de technique

Le protocole ne se contente pas de spécifier l'opération "Search / Retrieve" (chercher puis récupérer), mais distingue précisément : Explain (le client demande préalablement au serveur de décrire les possibiliteś offertes) et  Scan (pour parcourir des entrées d’index)

Un petit bémol pour l'instant. Le procotole effectue côté client une transformation des données XML en (X)HTML via une feuille de style XSL(T) dynamiquement. Or les navigateurs n'offrent pas encore tous cette fonctionnalité. Des solutions alternatives, comme celle visible sur le schéma ci-dessous proposé pour la TEL intègre une passerelle intermédiaire dans l'architecture du système, pour prendre en charge cette transformation.

La version actuellement en usage (et en test) est la version 1.1. proposée le 13 Février 2004. La Version 1.2. est attendue. SRU s'accompagne de SRU pour les Services Web, SRW pour Search/Retrieve Web Service. D'où l'acronyme SRU/W (ou SRW/U).

3. Accès multi-sources simplifiés

Toutes ces qualités font de SRU/W un outil phare pour proposer des portails d'accès multisources.
Car même si les premières applications de part l'origine de leurs contributeurs, offraient un accès à des catalogues de bibliothèques via des serveurs z3950 à partir d'un client HTTP classique (navigateur), ce protocole a été envisagé immédiatement comme passerelle pour des archives OAI ou tout autre type de réservoirs.

4. La Bibliothèque Européenne, une application SRU

L'architecture proposée dans le projet TEL (The European Library), pour l'accès simultané aux catalogues des bibliothèques nationales, incluait une passerelle à des archives OAI-PHM dès 2004. Quant au prototype actuellement étudié toujours pour la TEL, il propose un accès simultané à Google Scholar ou Nature.

Schemasrutel2_2

Image_3_2

Portail SRU expérimental (pour TEL) : http://krait.kb.nl/coop/tel/SRUportal/

5. Mais quel vocabulaire utiliser dans un portail multisources ?

Interopérabilité entre réseaux, puis interopérabilité entre ressources (dépôts OAI, catalogues z3950, catalogues moins normalisés mais documentés comme GoogleScholar) : la recherche multisources (ou métasources) est alors "techniquement" possible.
Il reste tout de même à travailler sur l'interopérabilité entre les vocabulaires de ces sources.

Un exemple pour aider les Utilisateurs : Les auteurs du portail MyLibrary@Ockham ont conçu un prototype Client SRU qui exploite les ressources de l'archive de la  NDSL (National Science Digital Library ). Mais ils ont rajouté deux dictionnaires, de variantes orthographiques et de synonymes. Voilà ce que cela donne pour une recherche sur "chemical".  La réponse dans l'URL : http://mylibrary.ockham.org/sru-server.cgi?operation=searchRetrieve&version=1.1&x-database=master&query=chemical&maximumRecords=3&x-spell=1&x-thesarus=1&stylesheet=%2Fsimple%2Fstyle.xsl

C'est un début...

6. Et les portails documentaires ?

Comme toujours dans ces "paramétrages" informatiques, les choses peuvent être plus complexes qu'il n'y paraît, mais toutes les offres de portail centrées sur le principe des connecteurs pour des recherches fédérées devraient (à terme?) supporter le protocole SRU. 
Les produits d'origine ou fortement impliqués aux USA, s'en font l'écho comme Geac (V-Space) ou Primo d'ExLibris, mais les offres d'Archimed (Incipio) ou de GB Concept (Alexandrie v6) sont déjà là.

SRU/W : un protocole de recherche XML à suivre de près.

=====Portails et articles techniques, cités ou utilisés ====

Portail ressource

* Portail SRU expérimental (pour TEL) : http://krait.kb.nl/coop/tel/SRUportal/
* Portail de La Bibliothèque Européenne, http://www.theeuropeanlibrary.org/
* Portail officiel du SRU (Search and Retrieval via URL), http://www.loc.gov/standards/sru/
* British Library SRU Gateway Software (en) : http://herbie.bl.uk:9080/
* Le projet SRW/U open source de l'OCLC (en) : http://www.oclc.org/research/software/srw/
(proposition d'un logiciel en test pour implémenter SRW et SRU pour s'interfacer à des bases de données)

Articles techniques (ante-chrono)

* Un point sur les nouveaux protocoles de recherche d’information : SRU, OpenSearch/A9, CQL et Xquery , Sally H. McCallum (LC), IFLA 2006, Séoul (fr) (http://www.ifla.org/IV/ifla72/papers/102-McCallum_trans-fr.pdf)

* Serving Services in Web 2.0, Theo van Veen (NL), Ariadne Issue 47, 30-April-2006 (en),
(http://www.ariadne.ac.uk/issue47/vanveen/intro.html)

* Fourniture de notices du catalogue de la Bibliothèque du Congrès en format MARC/XML via les protocoles SRW/SRU et Z39.50, Mike Taylor (UK), Adam Dickmeiss (DK), IFLA, Septembre 2005 (fr), (http://www.ifla.org/IV/ifla71/papers/065f-Taylor_Dickmeiss.pdf)
[exposé des possibilités et difficultés de la passerelle SRW/U - z3950]

* Web services et bibliothèques, Figoblog, 9 novembre 2005 (fr). (http://www.figoblog.org/document1057.php)

* An Introduction to the Search/Retrieve URL Service (SRU), Eric Lease Morgan, Ariadne, issue 40, July 2004. (en), (http://www.ariadne.ac.uk/issue40/morgan/) + Site d'Eric Lease Morgan : www.infomotions.com/musings/sru/

* Metadata, Protocol, and Identifier Activities: Library of Congress IFLA/CDNL Alliance for Bibliographic Standards Report, IFLA 2004, Buenos Aires (en) (http://www.ifla.org/IV/ifla70/papers/024e-McCallum.pdf)

* Search and Retrieval in The European Library, A new approach, Theo van Veen (NL), Bill Oldroyd (UK), D-Lib Magazine, February 2004, Volume 10 Number 2. (en), (http://www.dlib.org/dlib/february04/vanveen/02vanveen.html)

* The European Library: Integrated access to the national libraries of Europe, Britta Woldering (DE), Ariadne, issue 38, January 2004 (en). http://www.ariadne.ac.uk/issue38/woldering/

* Les Bibliothèques nationales et l’accès à l’information (pdf) : le rôle de TEL et de MACS, Genevieve Clavel-Merrin (CH), IFLA, 1-9 August 2003, http://www.ifla.org/IV/ifla69/papers/028f_trans-Clavel-Merrin.pdf

Ajout (fin 2007)

* SRW/U with OAI. Expected and Unexpected Synergies, Robert Sanderson (UK), Jeffrey Young (OCLC), Ralph LeVan (OCLC), D-Lib Magazine, Volume 11 Number 2, february 2006, http://www.dlib.org/dlib/february05/sanderson/02sanderson.html

* Parallel Text Searching on a Beowulf Cluster using SRW, Ralph R. LeVan, Thomas B. Hickey, Jenny Toves (OCLC), D-Lib Magazine, Vol.11, n°9, September 2005, http://www.dlib.org/dlib/september05/levan/09levan.html
(utilisation du logiciel open source proposé par l'OCLC)

* Exploiting "Light-weight" Protocols and Open Source Tools to Implement Digital Library Collections and Services, Xiaorong Xiang, Eric Lease Morgan, D-Lib Magazine, October 2005, Volume 11 Number 10, http://www.dlib.org/dlib/october05/morgan/10morgan.html

* Search Web Services Document, nov. 2007 - Annonce d'une utilisation par OASIS de SRU (Organization for the Advancement of Structured Information Standards - www.oasis-open.org) http://www.crossref.org/CrossTech/2007/11/search_web_services_document.html

17 décembre 2006

Google.com catégorise les résultats de recherche !

Sur le site Google.com, les résultats de recherche sont catégorisés ("refine"'), comme Vivisimo ou Exalead. Pour ma part, une des fonctionnalités les plus efficaces.
Je ne sais toujours pas à quel moment Google met en marche cette fonctionnalité (dont on a pu avoir des infos au cours de l'année 2006). C'est d'ailleurs l'une des premières fois où Google m'offre ce résultat.

Image_2




























Sélection du thème "For patients" :

Image_3





























Il ne me semble pas avoir entendu parlé de cette évolution sur la blogosphère. Sait-on quelle est la technologie choisie ? C'était un test en avril 2006 ; est-ce une fonctionnalité effective aujourd'hui ?
A suivre

09 octobre 2005

Interopérabilité entre langages : le projet HiLT

Le projet HiLT (High-level Thesaurus Project ou Projet de Thésaurus de haut niveau) a pour but de présenter un ensemble de recommandations concernant l’interopérabilité des accès dits matière entre systèmes documentaires, et la navigation par sujets « dans un contexte où il y a une variété de communautés, de services ainsi que de types de services ou de ressources ».

Piloté par le RSLP (Research Support Libraries Programme - http://www.rslp.ac.uk/) et JISC (Joint Information Systems Committee - http://www.jisc.ac.uk/) au Royaume-Uni, ce projet concerne les dispositifs proposés par « les archives, les services électroniques, le milieu des bibliothèques et des musées ».

Initié au début des années 2000, HiLT va bientôt entrer dans sa troisième phase :

Phase I : l’étude du contexte et des problématiques posées a conclu à l’intérêt pour des systèmes d’interopérabilité entre langages contrôlés.
Rapport final de 2001, http://hilt.cdlr.strath.ac.uk/Reports/FinalReport.html

Phase II : un pilote de mise en correspondance (mapping) terminologique entre vocabulaires documentaires a été réalisé. Il assure les échanges avec d’autres services partagés, plutôt qu’un accès direct à l’utilisateur d’où le terme de M2M pour machine-to-machine.
Le processus est initié par la requête posée sur un système A par un utilisateur ; le système A interroge le serveur terminologique pour trouver d’autres ressources. Le prototype est structuré autour de la classification décimale Dewey (quelques niveaux hiérarchiques, mais plus de niveaux que dans l’interface DeweyBrowser). Le prototype prend en compte la LCSH (liste des vedettes matières de la Library of Congress), quelques centaines de termes du thésaurus de l’Unesco ou du MeSH, dans les domaines de la santé, de la médecine et de l’éthique. La faisabilité pour le développement d’une interface SOAP adaptée a également été conduite.

Phase III : dans cette phase qui débute en novembre 2005 pour une période de 15 mois, il s’agira de développer un serveur M2M (machine-to-machine). Celui-ci offrira un accès de type service web avec le protocole SRW basé sur SOAP - des extensions possibles dans le future à d’autres protocoles comme Z39.50 ou SRU par exemple. Le dispositif exploitera le noyau SKOS pour l’encodage des vocabulaires et des réponses “classificatoires” avec des possibilités ultérieures d’exploitation d’autres formats comme Zthes ou MARC.

Ressources utilisées

Lire la suite "Interopérabilité entre langages : le projet HiLT" »

16 septembre 2005

Catégorisation des résultats : des moteurs

Quelques moteurs sur le Web qui catégorisent à la volée les résultats de la recherche :

KillerInfo
Vivisimo  sur le Moteur Clusty
Exalead
MatchPoint de TripleHop avec le Moteur Find
SRC de MSN
Wisenut
Nlsearch
Teoma

12 septembre 2005

Catégorisation : organiser les résultats de recherche

Organiser le lot-résultat d'une recherche documentaire en le classant à la volée, voilà une fonctionnalité très intéressante pour l'utilisateur final.
Il ne s'agit pas ici de détailler les techniques de catégorisation ou classification automatique, mais de montrer l'intérêt de cette fonction pour l'utilisateur à travers quelques exemples.

Le modèle de la "recherche documentaire" mis en oeuvre dans de nombreux systèmes documentaires et de bibliothèques, se limite bien souvent à la recherche bibliographique : poser une question précise et obtenir des références de documents.
Mais comment l'utilisateur trouve-t-il l'information utile au sein de cette liste de documents ? Comment sélectionner au sein de ce corpus ?
C'est dans ce contexte de recherche d'information et non uniquement de recherche bibliographique, que la catégorisation du lot-résultat devient alors une fonction essentielle dans les systèmes d'information documentaire.


Petit détour historique ...

Au début de l'informatique documentaire - et malheureusement parfois encore ! -, le mode de présentation des résultats d'une recherche bibliographique était ... l'ordre d'entrée dans la base !
Une liste à lire séquentiellement sous une forme peu pratique pour s'y repérer. Ce qui conduisait à un travail de dépouillement de ces résultats, (parfois) réalisé par les documentalistes, avant l'envoi du "listing" à l'utilisateur : stabilotage (?) des dates, de la langue du document, de l'orientation thématique, de la nature du texte, ....Bref, tout ce qui pouvait apporter une information susceptible d'aider l'utilisateur à privilégier tel ou tel document, telle ou telle information.

Puis, le développement des systèmes de gestion de base de données (SGBD) a permis d'exploiter chacune des rubriques en amont ou en aval de la requête pour trier les résultats : date, nom d'auteur, type de support, .... Des imbrications de tris peuvent être proposées : date, puis par nom d'auteur par exemple.

Enfin, depuis une dizaine d'année de façon perceptible, avec l'idée sous-jacente de traiter les contenus numériques et non des références, de nouvelles techniques ont vu le jour. Elles traitent le lot résultat pour fournir à l'utilisateur une vision organisée, classifiée, structurée et des outils d'orientation supplémentaires pour se repérer dans ce corpus de documents.

clusterisation (ou « typologie », ou « regroupement », ou « classification automatique »), c’est partitionner une base de données en un petit nombre de sous-bases, appelées « classes », et  telle que :
= Deux individus appartenant à une même classe soient aussi semblables que possible.
= Deux individus appartenant à deux classes différentes soient aussi dissemblables que     possible. (tiré de AI Access).


Sur le Web
, nous avons accès à des solutions proposées par :
- MatchPoint de TripleHop, qui fonctionne sur le site Find.com
- Exalead, par le concepteur à l'époque de LiveTopic, pour les routards de la documentation (LE Altavista des années 1997)
- Vivisimo qui fonctionne sur le site Clusty où l'organisation des résultats s'opère sur tous les types de ressources : Web, mais aussi blogues, actualités,....

Ces trois sociétés - entre autres - proposent des produits et services pour les intranets, mais leur offre sur le web - en bêta ou en démonstration - va nous permettre de pointer quelques unes de leurs caractéristiques.

Vous pouvez aussi visiter, dans des environnements professionnels diversifiés :
- le site de l'Inria, avec des règles de catégorisation adaptées au contexte (sous Exalead)
- le site de la mairie de Pittsburg : http://cityofpittsburgh.net/
- le site Proceedings of the National Academy of Sciences (USA). Après avoir fait une recherche, sélectionnez un terme de l'index sujet ("subject indexes" à droite de l'écran), pour atteindre Instant Index.
- AOL US a opté pour Vivisimo, AOL France - le premier à avoir en 2002 proposé cette solution - a opté quant à lui pour Exalead.
- Ou encore les solutions : Factbites et de nombreux autres outils adaptables à des moteurs d'indexation et de recherche, par exemple WSM de MSN ou tous les produits de recherche sur le contenu, d'Albert Inc à New-phenix en passant par Verity.

Lire la suite "Catégorisation : organiser les résultats de recherche" »

26 août 2005

Zthes, profil Z39.50 pour la navigation dans un thésaurus


Zthes est un profil Z39.50 qui permet de naviguer et de sélectionner des termes au sein d’un thésaurus. Ce profil définit un modèle abstrait pour représenter les termes du thésaurus utilisables dans une recherche sous la forme d'une DTD XML Zthes, ainsi que les moyens pour implémenter ce modèle.
Nous présentons brièvement les finalités de Z39.50 et de ses profils, ainsi que le profil Zthes. Un extrait d'un thésaurus présenté selon la DTD Zthes est exposé à la fin de la note.


Lire la suite "Zthes, profil Z39.50 pour la navigation dans un thésaurus" »

19 août 2005

DeweyBrowser, interface de navigation basée sur la Dewey

Voilà un intéressant projet que cette interface proposée par l'OCLC à partir de la Dewey, DeweyBrower.

Dewey1_2

Sont proposés deux modes d’accès au catalogue :

  • une recherche par mots qui offre une présentation des résultats classés selon la Dewey
  • une navigation directe via la Dewey, avec une présentation progressive du 1er niveau au 3ème et dernier niveau proposé.

Trois niveaux de la Dewey, cela peut paraître peu, mais ces trois niveaux offrent une vision globale à l’écran.

Lire la suite "DeweyBrowser, interface de navigation basée sur la Dewey" »

Les notes récentes


  • Infos&Contact

Compteur

Blog powered by TypePad
Membre depuis 11/2004