Je rebondis ici sur l'initiative lancée par Alexandre Monnin concernant sa thèse (chapitre 1...) en version HTML à commenter sur Philoweb.org, en reprenant un extrait d'un texte écrit dans le cadre du cours INRIA 2008.
Un dispositif (CommentPress sous wordpress) pour échanger avec l'auteur....
Quelques mots au préalable sur cette initiave. Alexandre Monnin (sur Facebook) vous propose de réfléchir par la pratique à partir de sa thèse (sur theses.fr), à des formats et des nouvelles pratiques "OpenScience" (co-production, commentaires,...) pour les thèses et les mémoires. Et une invitation hackyourphd pour travailler ce 13 décembre en soirée sur Paris.
La thématique que j'aborde ici (structuration pour l'accès et la découverte) est différente de celle de Philoweb (science ouverte), mais elle la rejoint : il s'agit en premier lieu d'ouvrir (formats) puis de structurer les thèses pour en permettre des usages multiples. Ces thèses que je trouve bien engoncées dans leurs enveloppes pdfiennes, parfois fermées à double tour (pas de possibilité de faire des commentaires) ou sans sommaire dynamique ....
Extrait de : Métadonnées : mutations et perspectives, INRIA, ADBS Editions, 2008, p.51-53.
Pour concrétiser cette approche [de structuration objet/contenu abordé dans les sections précédentes], nous prendrons l’exemple des thèses.
La thèse a fait l’objet d’une recommandation TEF parue en 2006 [1]. Cette recommandation « définit un jeu de métadonnées pour les thèses électroniques soutenues en France. […]. Le ministère de l’Éducation nationale a voulu valoriser les thèses françaises grâce à leur diffusion électronique et engager une politique de dépôt et de conservation qui assure leur pérennité. » Le circuit pris en charge et optimisé à cette occasion démarre au « circuit administratif », c’est-à-dire après la production du contenu de la thèse, et va jusqu’au « système d’archivage pérenne ».
Dit autrement, il s’agit d’optimiser un circuit éditorial postérieur à la création de l’objet, le problème posé portant sur des métadonnées de type bibliographique ou administratif. Cette approche, qui fait écho à un réel besoin dans un cadre donné de contraintes, correspond à un modèle éditorial traditionnel postpublication. Étendre le projet de valorisation des thèses aux utilisateurs finals et à leurs besoins et pratiques fournirait d’autres pistes en termes de métadonnées.
En effet, « après le rouleau et le codex, le numérique ouvre une troisième époque de l’écrit, caractérisée par l’accès immédiat au corpus et la lecture non linéaire. […] Il faut tenir compte en outre que le développement des lectures non linéaires a renouvelé les parcours interprétatifs propres aux usages traditionnels de l’écrit. [2] [3] ». Dans ce contexte, « les projets de bibliothèques numériques actuels offrent à l’utilisateur l’accès aux thèses à partir d’une recherche qui ne permet pas d’extraire les parties pertinentes de la thèse et ne renvoie que la thèse intégrale. Ainsi l’utilisateur doit lire des chapitres entiers pour connaître les parties qui correspondent à son besoin».
Les propositions évoquées dans cette recherche s’appuient sur une « insertion des connaissances propres au domaine » sous la forme d’un certain nombre de « segments sémantiques »: état de l’art, méthodologie, modèle, algorithme, architecture, prototype ou étude de cas d’une thèse scientifique.
Cette structure sémantique est utilisée ici en articulation avec la structure éditoriale générale (chapitre, sous-chapitre, etc.) et les possibilités d’annotation par l’auteur grâce à la normalisation d’étiquettes. La structure identifiée dans ce projet est bien connue puisqu’elle fait partie de l’enseignement même de la rédaction d’une thèse. « Une bonne thèse comprend une recherche exhaustive, analysée de façon critique et rigoureuse. Elle doit inclure une description détaillée de la méthodologie utilisée. Elle doit aboutir à des résultats précis et implique une vérification systématique de toute affirmation[4] »
La thèse n’est pas évaluée directement sur la présence de ces différentes parties, mais on imagine mal une thèse qui puisse être validée sans qu’y soient clairement identifiées ces différentes parties. Il s’agit ici d’une structure sémantique liée au genre « thèse » qui pourrait être représentée à travers un jeu de métadonnées sur le modèle intégré de la TEI (Text Encoding Initiative).
Deux avantages sont immédiatement identifiables, l’un économique, l’autre fonctionnel :
- l’indexation telle que proposée dans le projet CITHER de diffusion des thèses électroniques de l’INSA de Lyon pourrait se déployer plus facilement, le travail amont de structuration étant mutualisé ;
- l’utilisation d’un moteur d’indexation et de recherche serait optimisée par cette structure sémantique. Pour des recherches sur une méthode précise ou un type de résultat avec un renvoi précis à la partie concernée, par exemple.
En d’autres termes, en offrant des accès directs aux contenus, le numérique nous oblige à porter un autre regard sur les documents. Les technologies informatiques d’aujourd’hui nous permettent d’envisager le développement d’autres schémas à articuler avec ceux de nature bibliographique ou administrative.
-----------------
Je ne sais trop où en est le projet cité ici, mais les principes restent largement valides. Mais force est de constater que les sites de thèses y compris les plus récents restent des bibliothèques traditionnelles fournissant massivement du pdf, sans version html sauf peut-être l'Université de Lyon 2. Quant aux technologies d'encodage sémantique, leur intégration semble pour le moment encore très éloigné de cette environnement de communication scientifique. Le projet d'Openscience pour les thèses et les mémoires a toute sa place.
Source
[1] Groupe Afnor CG46/CN357/GE5, Les métadonnées des thèses électroniques françaises, TEF, 2e éd., mars 2006, p.12. URL - www.abes.fr/abes/documents/tef/recommandation/tef.pdf.
[2] Projet CITHER: http://theses.insa-lyon.fr/documents-du-projet
[3] Rocío ABASCAL-MENA, Béatrice RUMPLER. « Accès au contenu des thèses numériques par leur structure sémantique ». Document numérique, 2007, vol. 10, n° 2, p. 9-35. www.cairn.info/resume.php?ID_ARTICLE=DN_102_0009
[4] Qu’entend-on par thèse ou par mémoire? Université d’Ottawa, www.grad.uottawa.ca/Default.aspx?tabid=1354
Billet extrait de : Métadonnées : mutations et perspectives, INRIA, ADBS Editions, 2008
Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l’oeuvre / Sylvie Dalbin. - In Séminaire Inria du 29 septembre au 3 octobre 2008, Editions ADBS, 2008, p.51-53., URL : http://www.adbs.fr/metadonnees-mutations-et-perspectives-46545.htm
Chapitre - http://www.atd-doc.com/xmedia/publications/INRIA-2008_DALBIN_Chap01.pdf
Présentation - http://fr.slideshare.net/Dalb/reprsentation-et-accs-continuits-et-transformations-chapitre-4-mtadonnes-et-normalisation, p.41
@Rémy - Merci de ces compléments ! Mon message était trop bref.
Mais effectivement, c'est la question du format éditorial "thèse" (et non du format technique ...) et de son mode de production qui pourraient être revus ou a minima réaménagés. Dans mon esprit, il y a plusieurs documents en un ...
Et je ne parle pas des "effets collatéraux sur la publication des thèses" de la recherche participative (comme le dit l'INRA) : les thèses produites sous les protocoles classiques ne rendent pas bien compte de ce type de travaux de recherche et ne permettent pas de mettre en valeur l'originalité de ces travaux ! C'est le monde à l'envers...
Peut-être aussi penser aux pratiques et usages de ces futurs chercheurs qui vont oublier bien vite cette thèse en pdf et se tourner vers des espaces de production et de capitalisation numériques. Inversons la machine : beaucoup écrivent déjà sur le web et par ex utilisent zotero (ou équivalent). Restons sur ces pratiques, améliorons-les. Je verrais bien une thèse sous un wiki ou une plateforme numérique adaptée qui produit un pdf à la demande... Je divague peut être ?
Rédigé par : Dalb | 05 décembre 2013 à 21h18
"Mais force est de constater que les sites de thèses y compris les plus récents restent des bibliothèques traditionnelles fournissant massivement du pdf, sans version html".
Effectivement, souvent des PDF "blocs", sans même une table des matières fonctionnelle.
Malheureusement, au-delà de la technique, à commencer par de simples feuilles de styles correctement utilisées, se pose la question des usages. Même formés (en tout cas informés), beaucoup de doctorants ne s'investissent pas dans les questions de structuration et de mises en forme, nécessaires, a minima, pour récupérer un contenu exploitable en ligne sans un travail de remise à plat chronophage. La thèse plus ou moins "machine à écrire" a encore de beaux jours devant elle (voir par exemple les bibliographies et les index, quand il y en a). De plus, certains directeurs de thèse n'incitent pas forcément non plus à investir du temps et de la formation dans ces aspects considérés comme très accessoires voire inutilement "techniques" et nuisibles au "vrai travail de thèse".
À du fameux "web sémantique", présenté comme l'avenir radieux, penser autrement l'utilisation de la thèse constitue donc un axe de travail très intéressant.
Cela est d'autant plus essentiel pour la valorisation des thèses que des utilisateurs professionnels, en tout cas en droit, domaine dans lequel je travaille, sont très demandeurs d'accès ouverts et réellement utilisables aux thèses.
Rédigé par : Rémy Lérignier | 05 décembre 2013 à 15h03
Merci Sylvie pour ce rappel qui vient à point nommé. Une précision : l'encodage de chaque chapitre sera également déposé sur Github à cette adresse https://github.com/aamonnz/philoweb car l'enrichissement du code ne s'arrête pas avec la publication des chapitres. Assez simple pour le moment (mais propre...), j'envisage de l'enrichir avec le temps ou de permettre à d'autres de le faire, ou de me faire des suggestions en ce sens sur FB. J'aimerais aussi tirer parti des possibilités nouvelles offertes par HTML 5 pour encoder des schémas ou des dessins par exemple.
Rédigé par : aamonnz | 05 décembre 2013 à 12h30