Ce billet "Résumé automatique (2)" correspond à une "note de lecture" publiée récemment dans Documentaliste - Sciences de l’information (2012, vol. 49, n°3, p. 14-15) et légèrement modifiée. Cette note s'appuie sur l'ouvrage récent de Juan-Manuel Torres-Moreno sur le résumé automatique de documents.
La partie 1 présente un test fait avec le service en ligne d'Essential Summarizer de la société française Essentiel Mining, et donne quelques éléments sur les résumeurs autoatiques.
*****
Résumer automatiquement, un rêve pour certains devenu réalité. Un ouvrage récent de Juan-Manuel Torres-Moreno(1) dresse un panorama historique des différentes approches en mettant l’accent sur la dimension statistique des traitements.
« Réduire le contenu des documents » : activité phare des professionnels de l'info-doc, un des moyens pour valoriser les ressources et en faciliter l'accès. Les modalités pratiques de cette « réduction » ont évolué en fonction des périodes, besoins, contraintes et technologie : sommaire et table de fin de livre pour une publication, puis tables/index des titres, sujets, auteurs pour des collections, indexation par descripteurs, synthèse et résumé documentaires. Le résumé documentaire - analytique ou informatif, obligatoirement rédigé (pour le moment), met en évidence les informations quantitatives et qualitatives apportées par un auteur, et peut dans certains cas, remplacer le document analysé.
Progressivement, la machine a assisté l'homme. Mais ce qui n’était qu’un service accessoire dans les années 1980 devient aujourd'hui un élément décisif des dispositifs d'accès à l'information.
Alors, que peut faire la machine ? Pas tout, mais beaucoup…
Le résumé automatique de textes est l’une des nombreuses applications du traitement automatique des langues (TAL) comme le sont la recherche d'information ou RI [Annexe A de l'ouvrage], les systèmes question/réponse, la classification et la catégorisation de documents, l'indexation et la veille.
Ces techniques se sont fortement enrichies au fil des années, mais on distingue toujours trois niveaux de complexité :
- l'extraction d'unités textuelles (phrases ou parties de phrases) fournissant, après réorganisation, un aperçu du contenu ;
- la compression qui, en supprimant des éléments jugés non essentiels, aboutit à une réduction des phrases pouvant aller jusqu'à 33 % ;
- l'abstraction, fondée sur la compréhension du texte et produisant des résumés basés sur la reformulation ou la fusion des idées ou phrases du texte - texte réécrit qui correspond au résumé au sens où l'entend la profession.
Derrières ces trois niveaux de complexité technique pointent des statuts différents pour les résumés produits. Et si la production d'abstracts reste encore balbutiante, la production de résumés ayant comme vocation d'orienter, d'aider le lecteur sans chercher à reproduire la qualité d'un « abstract », atteint aujourd'hui des niveaux très acceptables qui font de ces résumeurs automatiques des outils essentiels/indispensables (voir partie 1).
Fondements et chronologie des techniques
Ces techniques se déploient suivant deux axes de niveau de complexité très différents : le résumé mono-document ou multi-documents (synthèse et résumé).
Quel que soit le niveau de qualité visé, la production de résumé, complexe à automatiser, s'effectue en deux grandes étapes :
- l'analyse du texte (prétraitement et sélection),
- puis la génération d'un nouveau texte (résumé),
Cette production s’appuie sur différents algorithmes qui réaliseront l'une ou l’autre de ces nombreuses tâches pour produire un résumé mono-document. La chronologie d’apparition de ces différentes techniques fait ainsi remonter :
- les mots-clés et la pondération de phrases de Luhn en 1958 [p.74],
- l’enrichissement par identification de mots-indices, position des phrases et présence de mots liés pour surpondérer certaines phrases par Edmundson en 1969 [p.76] ;
- le processus de rejet plutôt que la sélection de phrases en 1975 [p.78];
- l'amélioration de la sélection par la prise en compte de la structure particulière de certains types de documents (textes scientifiques ou chapeau des articles journalistiques) en 1995 [p.79].
- En 1998, la mise en oeuvre de techniques d'analyse sémantique latente [p.80], en produisant des proximités entre un document et chacune de ses phrases, améliore le calcul de pondération des phrases et permet d'envisager leur hiérarchisation.
- Plus récemment encore, l'approche par graphes (PageRank, LexRank, TextRank) [p.86-91], en créant des relations entre les phrases, a enrichi les techniques de pondération de phrases (mono-document) ou de documents (pluri-documents).
- La compression automatique de phrases (2006) consiste quant à elle à éliminer des informations non essentielles tout en maintenant la grammaticalité du texte [p.109-113]. Cette technique utilise des méthodes - symboliques ou statistiques - permettant d'envisager des applications comme la génération de titres ou de sous-titres. Les approches extractives d'analyse dite superficielle (distribution de mots, position des phrases, co-occurrence des mots, etc.), adaptables aux domaines ou aux langues, sont les plus utilisées. Des approches rhétoriques, plus récentes, permettent d'analyser les textes avec une granularité plus fine améliorant la qualité du résultat.
- En 2010, de nouvelles pistes s'ouvrent avec des « résumeurs » basés sur « l'énergie textuelle » (Enertex) [p.97-104]. D'autres types d'algorithmes sont utilisés pour les analyses profondes.
Le résumé unique multi-documents [Chapitre 5], guidé par une thématique, s'appuie en grande partie sur les mêmes techniques que le résumé mono-document pour choisir, évaluer, classer et assembler les phrases. Mais de nouvelles difficultés apparaissent nécessitant des traitements spécifiques : regroupement de documents considérés comme similaires, redondance, niveau élevé du ratio de compression, impliquant la prise en compte d'autres facteurs tels que la temporalité des textes ou des condensés plus « agressifs » en raison de ratios de compression plus élevés [p.117].
Multilinguisme et prise en compte de la nature des documents
Les systèmes les plus récents portent sur le multilinguisme (résumé dans une langue cible qui fait partie des langues source), le crosslinguisme (résumé dans une langue différente de celles des documents source) [Chapitre 6], et la prise en compte de la nature des documents spécialisés Les exemples cités dans l'ouvrage sont tirés des domaines de la chimie et de la biomédecine[Chapitre 7].
Des approches hybrides articulant méthodes linguistiques et statistiques et s'appuyant sur des ressources linguistiques spécialisées permettent d'envisager un saut qualitatif dans la production automatique de résumés.
Rôle des professionnels de l'infodoc
Le résumé automatique de textes est sorti depuis longtemps des laboratoires ; la revue Documentaliste aborde (timidement) ce sujet depuis plus de 10 ans , mais force est de constater la frilosité des concepteurs lorsqu’il s’agit de connecter ces systèmes aux différents dispositifs d'accès à l'information.
Pourtant, ces techniques, en particulier celles par extraction ou par compression, ont prouvé leur efficacité dans bon nombre de contextes. L’ingénierie des systèmes s'étant simplifiée, il est possible d'envisager plus sereinement leur déploiement avec pour objectif, modeste mais efficace, de fournir un aperçu des ressources afin d'aider le lecteur à orienter ses choix.
Il reste à investir plus concrètement ce domaine, à la machine, de multiplier les expériences et démocratiser ces techniques auprès des concepteurs et des professionnels de l'infodoc. Et surtout de faire confiance à la fois aux utilisateurs (ils ont un besoin urgent de ce type de fonctionnalités) et aux algorithmes (sous contrôle bien sûr !).
L'ouvrage de Juan-Manuel Torres-Moreno
Ce billet s'appuie sur l'ouvrage paru en 2011 : Résumé automatique de documents : une approche statistique / Juan-Manuel Torres-Moreno. – Paris : Hermès : Lavoisier, 2011. – 260 p.
Juan-Manuel Torres-Moreno est maître de conférences HDR à l'Université d'Avignon et des Pays de Vaucluse (UAPV) et responsable de la thématique Traitement Automatique de la Langue Naturelle Ecrite (TALNE), au Laboratoire Informatique d'Avignon (LIA).
Après plusieurs autres ouvrages académiques à plusieurs mains depuis 2000, cette monographie par son approche pédagogique, sa cohérence interne et l'appel à des exemples et quelques outils utilisés sur le marché, peut largement intéresser un public plus large que les chercheurs ou informaticiens, en particulier les professionnels de l'infodoc intervenant sur la conception de systèmes d'accès à l'information.
Les commentaires récents