« décembre 2006 | Accueil | avril 2007 »

24 février 2007

RIAO 2007 : c'est parti

Les inscriptions pour la 8ème conférence RIAO 2007 sont ouvertes.
Université Carnegie Mellon – Pittsbrugh (600 km de New York) du 30 mai au 1er juin 2007.

Le congrès de l'informatique du contenu, c'est à dire tout ce qui concerne les différents types d'information (textes, images, sons, séquences vidéo), quels qu'en soient le support et la langue et lorsqu'il est nécessaire d'y accéder par le sens et non par la forme" (CID).

Riao
Photo MrDavisDC - http://www.flickr.com/people/mrdavisdc/ + GoogleMap

RIAO 2007 : Large-Scale Semantic Access to Content (Text, Image, Video and Sound)

N’oublions pas que la conférence RIAO est organisée par une association française, le CID, et pour cette 8ème conférence en partenariat avec l’IRIT à Toulouse.
Le programme et les inscriptions.

2 conférences invitées, 33 communications, 25 posters ainsi que des démonstrations d’applications

Mercredi 30 Mai 2007
Conférence invitée : Donna Harman, figure du National Institute of Standards and Technology (NIST), promoteur des campagnes d'évaluation TREC
Session 1     Video and Log Retrieval
Session 2     Sound and Music Retrieval
Session Posters
Session 3     Textual Queries and Search 1

Jeudi 31 Mai 2007
Conférence invitée : Alan Smeaton, dir. du Centre de recherche pour le traitement vidéo numérique (Centre for Digital Video Processing) de l'Université de Dublin (Irelande)
Session 4     Textual Queries and Search 2
Session 5     Modeling Language and Search
Applications
Session 6     XML in Retrieval
Session 7     Image Retrieval 1

Vendredi 1er Juin 2007
Session 8     Peer-to-Peer and Web Search
Session Posters
Session 9     Image Retrieval 2
Session 10     Links, Prior Information in Search
Session 11     Question Answering, Facts, and Summaries

Qui viendra présenter ses activités ?

Un petit aperçu de la répartition des papiers (33) ET posters (25), par pays.

Riao_1

Essentiellement des universités, mais aussi 6 centres de recherche d’entreprises ou industries (CEA, IBM, Toshiba, Microsoft, Palo Alto Research Center, Orcalab) présentent 9 papiers.
On peut noter des collaborations entre pays, mais tout de même : Ireland / USA, Chine / USA, India / USA, Iran/Dubai, France/Italy), ainsi que des partenariats entre structures différentes (University/Musée, University/Microsoft) ou même entre deux universités différentes (Glasgow et Sheffield).

18 février 2007

Mariage entre ancien et nouveau, Web2 et mémoire

Voici un projet digne d’intérêt qui allie travail de mémoire, travail documentaire, partage et collaboration (Web2) et enfin n’oublions pas, correspondance entre jeux de métadonnées ! Tout un programme !

[petites corrections apportées à la première version, grâce à un lecteur du dimanche matin!]
374560382_c404c9e098
Présentation du projet  - Un habitant de La Haye du Puits, mais qui ? 

Pour le travail de mémoire : proposer des photographies libres de droit sur la Bataille de Normandie, dans un format « professionnel » tant sur le plan photographique (haute définition) que sur le plan documentaire (légende corrigée et enrichie). Ce fonds est constitué à partir de 2330 photos extraites du site ArchivesNormandie. La majorité de ces photos sont issues des archives américaines et canadiennes.

Pour le travail documentaire : améliorer la qualité de la légende sur les plans du contrôle des données (des erreurs ont été relevées par des connaisseurs) et de la précision des lieux, des matériels, des évènements ou des personnes (beaucoup de photos ne sont que peu renseignées).

Pour le collaboratif Web2 : qualifier et enrichir les légendes par un travail collaboratif de toutes les personnes intéressées via Flickr. Un groupe de discussion adossé au dossier Flickr est ouvert à tous (l’inscription est très facile). Comme le montre la copie d’écran ci-après, des échanges fructueux ont lieu entre les participants, preuves à l’appui ! Ce travail collaboratif est validé par un administrateur éditorial, Michel Le Querrec (fortement impliqué dans la vie du site « Débarquement.com), qui a le dernier mot. Une fois la nouvelle légende acceptée, celle-ci est modifiée sur la photo originale par l’administrateur technique, Patrick Peccatte, puis la photo avec sa nouvelle légende est rechargée dans le dossier en remplacement de la première photo, Flickr ne permettant pas le rechargement des seules métadonnées. Les échanges entre contributeurs sont mémorisés dans l’espace « groupe de discussion » jusqu’au remplacement d’une photo avec sa légende complétée à la suite de la discussion. D’après les administrateurs, le sujet circonscrit et spécialisé, et la validation par un petit groupe de spécialistes constituent une barrière aux risques de dérives.

Test

Pour la mise en correspondance (mapping) des métadonnées : des photos enrichies initialement avec des métadonnées IPTC (schéma de métadonnées « presse » évoluant vers IPTCCore le NewsML) et XMP d’Adobe, basculées dans le format simplifié Flickr au moment du chargement de la photo, avec un résultat plus conforme avec le jeu IPTC qu’avec XMP.
Pour tout savoir sur les métadonnées, en particulier celles embarquées dans les fichiers informatiques, un seul site : Patrick Peccatte de Soft Experience, par ailleurs  co-initiateur et administrateur technique de ce projet.
Muet sur son site sur le sujet de l’import de métadonnées, Flickr semble être le seul à proposer cette fonction, avec le tableau de correspondance suivant :

  • Object Name (IPTC 5 = référence originale de la photo) > Title Flickr
  • Caption (IPTC 120=description de la photo) > Description Flickr
  • Les champs Keywords (IPTC 25), City (IPTC 90=nom de la ville où la photo a été prise), Province/State (IPTC 95=nom du département où la photo a été prise), Country Name (IPTC 101) sont récupérés en tags dans Flickr
  • Copyright (IPTC 116) >> Copyright Flickr (en fait, Flickr semble plutôt faire l'impasse sur ces données).

Pour poursuivre dans le registre technique, l’abonnement au service Pro de Flickr d’un prix très modeste (25$=19€), permet entre autre le stockage en haute résolution des photographies et la conseration des métadonnées IPTC et XMP. Pour participer au projet, il n’est cependant nécessaire que d’ouvrir un compte gratuit sur Flickr.

Vous mettez un fonds de photos à « nettoyer » à la disposition d’une équipe petite (pour le moment) mais enthousiaste, regroupant des connaisseurs en histoire, des amoureux de la Normandie et des spécialistes de l’informatique photographique, le tout immergé dans un terreau d’ardeur, de militantisme et de professionnalisme, et le tour est joué. Certes, d’après un des administrateurs, le temps et les manipulations ont été sous-évaluées. Un cas classique.

Je verrais très bien un prolongement à caractère plus social à un tel projet.
Car s’il faut ici se tourner vers les « anciens », les seuls à même d’apporter leurs connaissances des lieux, personnes et évènements, et tout leur cœur à l’étude de ces photos d’époque, je les vois mal se ruer tous ensemble sur Flickr. Les Ateliers d’informatique qui s’adressent à ces publics, en général tournés sur les courriels et discussions en ligne avec les petits-enfants ou les recherches généalogiques, trouvent-là un nouveau sujet motivant, en tous les cas sûrement pour les habitants de cette région de France. Et sans aller jusqu’à pousser les seniors à manipuler eux-même ces engins électroniques, les intervenants auprès de ces publics pourraient efficacement utiliser ces matériaux au cours de leurs animations : regarder des photos plein écran, c’est appréciable !

Un projet pour la Normandie …  qui reste bien sûr à monter de toute pièce.

Merci à Patrick Peccatte pour sa disponibilité. 

03 février 2007

Accès multisources avec SRU/W

Le projet de La Bibliothèque Européenne a démarré en 2001. Entre 2001 et 2003, les bases techniques sont alors posées, donnant une part importante au protocole SRU  (Search/Retrieve via URL). C'est de ce SRU dont il sera question ici 
(et non de la loi du même sigle mais pas du même nom -- Solidarité et au Renouvellement Urbains-- qui nous occupe beaucoup dans les soirées de Conseil de Quartiers.....).

1. Un protocole de recherche tout Web, riche, simple et libre !
2. Un peu de technique

3. Accès multi-sources simplifiés

4. La Bibliothèque Européenne, une application SRU

5. Mais quel vocabulaire utiliser dans un portail multisources ?

6. Et les portails documentaires ?


1. Un protocole de recherche tout Web, riche, simple et libre !

Tout Web..... Le protocole SRU permet de transmettre une requête dans une URL (d'où son nom), à l'instar des moteurs de recherche, direz-vous. Requête et réponses véhiculées dans une URL, nécessairement en XML, peuvent être envoyées sur le réseau sous différents protocoles de transfert : HTTP bien sûr, le plus simple, mais d'autres protocoles sont autorisés comme SOAP (ou POST) utilisés dans le contexte des Services Web, ces derniers ayant moins de restrictions, en particulier sur la longueur ou sur les jeux de caractères dans les messages transmis.

Riche.... Mais ici, grâce au langage de requête utilisé, CQL, SRU permet de formuler aussi bien des requêtes simples avec un ou plusieurs mots que des requêtes structurées plus complexes, pouvant utiliser des valeurs d'index récupérées par ce mécanisme. Bref, la qualité de z3950 et la simplicité de HTTP/URL. SRU et son compagnon pour les Services Web, SRW suivent donc le modèle fonctionnel z3950, tout en prenant appui pleinement sur l'infrastructure de l'Internet et du Web (les questions et les réponses sont en XML).

Simple... L'élément-clé de ce protocole est le langage de requête utilisé, CQL (Contextual Query Language ou langage de requête contextuel),  considéré comme plus lisible et plus intuitif que le langage de requête utilisé avec z3950 (pas très difficile de faire plus simple, diront certains...). Dans le projet TEL, c'est cette simplicité de mise en oeuvre d'un portail SRU comparé au montage à réaliser à partir d'un portail traditionnel, qui a orienté ce choix. 

Libre... Une autre qualité mise en avant par bons nombres de promoteurs : SRU est un protocole libre et l'OCLC propose un logiciel libre pour implémenter SRU/W pour s'interfacer avec des bases bibliographiques.

Alors SRU et CQL, XML, HTTP ou SOAP, associés bien sûr à OpenURL pour atteindre le document...voilà la quincaillerie pour les années à venir...

2. Un peu de technique

Le protocole ne se contente pas de spécifier l'opération "Search / Retrieve" (chercher puis récupérer), mais distingue précisément : Explain (le client demande préalablement au serveur de décrire les possibiliteś offertes) et  Scan (pour parcourir des entrées d’index)

Un petit bémol pour l'instant. Le procotole effectue côté client une transformation des données XML en (X)HTML via une feuille de style XSL(T) dynamiquement. Or les navigateurs n'offrent pas encore tous cette fonctionnalité. Des solutions alternatives, comme celle visible sur le schéma ci-dessous proposé pour la TEL intègre une passerelle intermédiaire dans l'architecture du système, pour prendre en charge cette transformation.

La version actuellement en usage (et en test) est la version 1.1. proposée le 13 Février 2004. La Version 1.2. est attendue. SRU s'accompagne de SRU pour les Services Web, SRW pour Search/Retrieve Web Service. D'où l'acronyme SRU/W (ou SRW/U).

3. Accès multi-sources simplifiés

Toutes ces qualités font de SRU/W un outil phare pour proposer des portails d'accès multisources.
Car même si les premières applications de part l'origine de leurs contributeurs, offraient un accès à des catalogues de bibliothèques via des serveurs z3950 à partir d'un client HTTP classique (navigateur), ce protocole a été envisagé immédiatement comme passerelle pour des archives OAI ou tout autre type de réservoirs.

4. La Bibliothèque Européenne, une application SRU

L'architecture proposée dans le projet TEL (The European Library), pour l'accès simultané aux catalogues des bibliothèques nationales, incluait une passerelle à des archives OAI-PHM dès 2004. Quant au prototype actuellement étudié toujours pour la TEL, il propose un accès simultané à Google Scholar ou Nature.

Schemasrutel2_2

Image_3_2

Portail SRU expérimental (pour TEL) : http://krait.kb.nl/coop/tel/SRUportal/

5. Mais quel vocabulaire utiliser dans un portail multisources ?

Interopérabilité entre réseaux, puis interopérabilité entre ressources (dépôts OAI, catalogues z3950, catalogues moins normalisés mais documentés comme GoogleScholar) : la recherche multisources (ou métasources) est alors "techniquement" possible.
Il reste tout de même à travailler sur l'interopérabilité entre les vocabulaires de ces sources.

Un exemple pour aider les Utilisateurs : Les auteurs du portail MyLibrary@Ockham ont conçu un prototype Client SRU qui exploite les ressources de l'archive de la  NDSL (National Science Digital Library ). Mais ils ont rajouté deux dictionnaires, de variantes orthographiques et de synonymes. Voilà ce que cela donne pour une recherche sur "chemical".  La réponse dans l'URL : http://mylibrary.ockham.org/sru-server.cgi?operation=searchRetrieve&version=1.1&x-database=master&query=chemical&maximumRecords=3&x-spell=1&x-thesarus=1&stylesheet=%2Fsimple%2Fstyle.xsl

C'est un début...

6. Et les portails documentaires ?

Comme toujours dans ces "paramétrages" informatiques, les choses peuvent être plus complexes qu'il n'y paraît, mais toutes les offres de portail centrées sur le principe des connecteurs pour des recherches fédérées devraient (à terme?) supporter le protocole SRU. 
Les produits d'origine ou fortement impliqués aux USA, s'en font l'écho comme Geac (V-Space) ou Primo d'ExLibris, mais les offres d'Archimed (Incipio) ou de GB Concept (Alexandrie v6) sont déjà là.

SRU/W : un protocole de recherche XML à suivre de près.

=====Portails et articles techniques, cités ou utilisés ====

Portail ressource

* Portail SRU expérimental (pour TEL) : http://krait.kb.nl/coop/tel/SRUportal/
* Portail de La Bibliothèque Européenne, http://www.theeuropeanlibrary.org/
* Portail officiel du SRU (Search and Retrieval via URL), http://www.loc.gov/standards/sru/
* British Library SRU Gateway Software (en) : http://herbie.bl.uk:9080/
* Le projet SRW/U open source de l'OCLC (en) : http://www.oclc.org/research/software/srw/
(proposition d'un logiciel en test pour implémenter SRW et SRU pour s'interfacer à des bases de données)

Articles techniques (ante-chrono)

* Un point sur les nouveaux protocoles de recherche d’information : SRU, OpenSearch/A9, CQL et Xquery , Sally H. McCallum (LC), IFLA 2006, Séoul (fr) (http://www.ifla.org/IV/ifla72/papers/102-McCallum_trans-fr.pdf)

* Serving Services in Web 2.0, Theo van Veen (NL), Ariadne Issue 47, 30-April-2006 (en),
(http://www.ariadne.ac.uk/issue47/vanveen/intro.html)

* Fourniture de notices du catalogue de la Bibliothèque du Congrès en format MARC/XML via les protocoles SRW/SRU et Z39.50, Mike Taylor (UK), Adam Dickmeiss (DK), IFLA, Septembre 2005 (fr), (http://www.ifla.org/IV/ifla71/papers/065f-Taylor_Dickmeiss.pdf)
[exposé des possibilités et difficultés de la passerelle SRW/U - z3950]

* Web services et bibliothèques, Figoblog, 9 novembre 2005 (fr). (http://www.figoblog.org/document1057.php)

* An Introduction to the Search/Retrieve URL Service (SRU), Eric Lease Morgan, Ariadne, issue 40, July 2004. (en), (http://www.ariadne.ac.uk/issue40/morgan/) + Site d'Eric Lease Morgan : www.infomotions.com/musings/sru/

* Metadata, Protocol, and Identifier Activities: Library of Congress IFLA/CDNL Alliance for Bibliographic Standards Report, IFLA 2004, Buenos Aires (en) (http://www.ifla.org/IV/ifla70/papers/024e-McCallum.pdf)

* Search and Retrieval in The European Library, A new approach, Theo van Veen (NL), Bill Oldroyd (UK), D-Lib Magazine, February 2004, Volume 10 Number 2. (en), (http://www.dlib.org/dlib/february04/vanveen/02vanveen.html)

* The European Library: Integrated access to the national libraries of Europe, Britta Woldering (DE), Ariadne, issue 38, January 2004 (en). http://www.ariadne.ac.uk/issue38/woldering/

* Les Bibliothèques nationales et l’accès à l’information (pdf) : le rôle de TEL et de MACS, Genevieve Clavel-Merrin (CH), IFLA, 1-9 August 2003, http://www.ifla.org/IV/ifla69/papers/028f_trans-Clavel-Merrin.pdf

Ajout (fin 2007)

* SRW/U with OAI. Expected and Unexpected Synergies, Robert Sanderson (UK), Jeffrey Young (OCLC), Ralph LeVan (OCLC), D-Lib Magazine, Volume 11 Number 2, february 2006, http://www.dlib.org/dlib/february05/sanderson/02sanderson.html

* Parallel Text Searching on a Beowulf Cluster using SRW, Ralph R. LeVan, Thomas B. Hickey, Jenny Toves (OCLC), D-Lib Magazine, Vol.11, n°9, September 2005, http://www.dlib.org/dlib/september05/levan/09levan.html
(utilisation du logiciel open source proposé par l'OCLC)

* Exploiting "Light-weight" Protocols and Open Source Tools to Implement Digital Library Collections and Services, Xiaorong Xiang, Eric Lease Morgan, D-Lib Magazine, October 2005, Volume 11 Number 10, http://www.dlib.org/dlib/october05/morgan/10morgan.html

* Search Web Services Document, nov. 2007 - Annonce d'une utilisation par OASIS de SRU (Organization for the Advancement of Structured Information Standards - www.oasis-open.org) http://www.crossref.org/CrossTech/2007/11/search_web_services_document.html

Formation à distance pour les professionnels de l'infodoc

Vous avez suivi une formation professionnel en infodoc il y a déjà quelques années.
Vous estimez que les stages, c'est bien, mais pas suffisant. Et vous voulez vraiment vous remettre à flot !

Pour vous, l'ADBS et l'INTD ont concu une formation à distance sur 7 mois.
Une 2ème session est prévue début 2007.
Sur le site de l'ADBS

========================================================================================================
Les TIC dans les systèmes d'information documentaire
[formation tutorée à distance, équivalent 100 heures présentiel]
Organisée en partenariat par l’ADBS et l’INTD
====================================================
Nouvelle session 2007 : de mars à fin octobre 2007
====================================================
Site Web : http://www.adbs.fr/site/formations/detail_formation.php?id=155&version=1

Les TIC dans les SID
= Les Technologies de l’information et de la communication dans les Systèmes d'information documentaire (à distance)

L'ADBS et l'INTD ont conçu en collaboration une formation à distance, certifiante (certificat de spécialisation),
dont la 1ère session s’est déroulée courant 2006.

Public et pré-requis : Cette formation à distance s'adresse à des professionnels de l'information-documentation ayant été formés il y a plus de 5 ans (DUT, diplôme technique de l'INTD, licence professionnelle, maîtrise, DESS). Ces professionnels désirent se mettre à niveau dans le domaine des technologies de l'information et de la communication  indispensables aujourd'hui à la conception et à la gestion d'un système d'information documentaire. La formation permet aux participants d’acquérir les notions essentielles les plus récentes, techniques et méthodologiques, utiles pour mettre en place un système d´information documentaire exploitant ces technologies.

Contenu : La formation est construite autour d'une étude de cas. La réalisation de cette étude de cas prend appui sur trois modules thématiques fournissant des axes de travail précis sur (Module 1) les différents objets documentaires, leurs caractéristiques et les documents numériques, (Module 2) les technologies disponibles et leurs usages, et (Module 3) l'architecture d'un système d'information documentaire et la démarche de projet. Chacun des modules comporte, complémentairement à un cours général, des exercices et des fiches techniques sur des points précis (Exemple : document numérique structuré, fédération de contenu, portail documentaire, libre-propriétaire...)..

Organisation : Cette formation se déroule à distance sur 6 mois – sur un délai global de 7 mois. Elle est évaluée à un équivalent de 100h en présentiel (hors temps de travaux personnels). Elle s'appuie sur la plateforme de formation développée par le CNAM. Des points de rencontre téléphoniques jalonnent ce semestre de travail et un regroupement physique (non obligatoire) est prévu au 2/3 de la formation.  Une soutenance orale (obligatoire) est prévue en fin de formation devant un jury. La formation se conclut par la délivrance d'un certificat de spécialisation CNAM.
Le regroupement et la soutenance (réunions physiques) sont prévus sur Paris, ou dans un studio de cours CNAM avec une possibilité d'accès en ligne.
=============================================
Tarifs adhérents : 2000 €HT (2392 €TTC) - Tarif non adhérent : 3000 €HT (3588 €TTC)
Des informations vous seront communiquées ultérieurement sur les sessions à venir.
Contact :  formation@adbs.fr
Site Web : http://www.adbs.fr/site/formations/detail_formation.php?id=155&version=1
=============================================
Information mise à jour MAJ 15/01/2007

Les notes récentes


  • Infos&Contact

Compteur

Blog powered by TypePad
Membre depuis 11/2004