Raphaël Troncy nous exposait en 2005 dans la revue Documentation de l'ADBS, les applications des technologies du web sémantique aux documents audiovisuels. 10 ans plus tard, poursuivant ses travaux sur ces thématiques au sein d'Eurecom, voici venu le temps des réalisations et des démonstrations concrètes : d'une présentation générale en 2005 de ces technologies et des scénarios envisageables, nous voici donc avec une plateforme basée sur une ontologie informatique et appuyée par des traitements automatiques d'extraction d'entités nommées, permettant d'exploiter des ressources audiovisuelles sur le web.
https://twitter.com/rtroncy
Le vocabulaire vise à pointer sur le web, non pas la vidéo d'1h (l'ouvrage, l'émission, le numéro de revue,...), mais des fragments d'éléments multimédia : un ou plusieurs passages sur un sujet précis, l'intervention d'une personne....avec toujours la même problématique documentaire : à l'intérieur d'une seule ressource (un fichier) ou parmi plusieurs ressources sur le web.
Projet LinkedTV
Une platetforme, développée dans le cadre d'un projet européen LinkedTV, "Television linked to the Web", offre des accès enrichis à des fragments de vidéo.
Modèle de données LinkedTV La description (Annotation) porte bien sur le fragment.
Démonstration avec HyperTED autour des vidéos TED
N'oublions pas qu'il s'agit d'une plateforme visant à démontrer la pertinence d'une solution technologiques...
La première étape permet de trouver un ou plusieurs fragments de vidéos sur un sujet (ici "learning") avec le time-code du (des?) fragment(s).
La vidéo sélectionnée de Daphne Koller est exposée avec un chapitrage et propose de mettre en avant des zones sensibles (hotspots) qui sont le produit de traitements automatiques (annotation).
L'identifiant précis de ce fragment traité par l'API Alchemy
http://linkedtv.eurecom.fr/video/f18921d8-3500-4e0a-acbf-01eb820779bb?enriched=alchemyapi&hotspotted=true#t=253.36700439453125,308.0660095214844
Cette même page de présentation de la vidéo liste la transcription de la vidéo, par chapitre, mettant en surbrillance des termes obtenus par les traitements sur les entités nommées ; sur la droite de l'écran, des renvois vers des fragments d'autres vidéos.
Concernant les traitement (nerdification), l'intérêt du système vient de la possibilité d'utiliser différentes API pour identifier les entités nommées ici : la localisation, les organismes, les personnes, les produits et les "choses".
Les API proposées sur cette plateforme sont au nombre de 11 : AlchemyAPI, DataTXT, DBPedia Spotlight, Lupedia, OpenCalais, Sapio, TextRazor, THD, Wikimeta (faite un test en ligne), Yahoo!, Zemanta, NERD.
Connaître (les analyser et les sélectionner) ces outils de traitement et d'extraction d'entités nommées devient un élément clé des (futurs) services des systèmes documentaires, dans le web ou dans les intranets.
AlchemyAPI
OpenCalais
Une évolution probable (dans le cadre d'un projet européen) est l'accès plurilangue, des transcriptions en français étant disponibles sur TED par exemple.
Peu de choses sur les sujets abordés, ceux liés à la pédagogie et à la formation, objet de la vidéo. Mais je suppose qu'une API au bon format vers un vocabulaire spécialisé serait exploitable ?
Vocabulaires exploités
Une grande part de ce vocabulaire LinkedTV repose sur des vocabulaires existants (principe de la réutilisation des vocabulaires) pour :
- Représenter des ressources audiovisuelles, leur structure interne
- Ontology for Media Resources 1.0 - http://www.w3.org/TR/mediaont-10/
- permet d'adresser sur le web des ressources (identifiants)
- Représenter un "programme"
- Ontologie pour les programmes (de la BBC) - http://www.bbc.co.uk/ontologies/po
- Annoter les fragments repérés
- Open Annotation Data Model - http://www.w3.org/ns/oa#
- Reconnaître et désambiguiser des entités nommées sur le web Reconnaître
- Ontologie NERD (Named Entity Recognition and Disambiguation), un jeu d'alignements entre plusieurs schema de type d'entités nommées (DBpédia, ....) - http://nerd.eurecom.fr/ontology#
Ce dispositif est tout à la fois un outil de repérage dans un fonds, un sommaire (chapitrage) et un "index de fin de livre", multipliant ainsi les accès aux (contenu des) ressources. Adossé à des vocabulaires utilisés dans l'édition numérique comme JATS, ce serait très pertinent pour des ressources non spécifiquement audiovisuelles !
Sources sur le web
- La plateforme de démonstration - http://linkedtv.eurecom.fr/mediafragmentplayer
- Troncy Raphaël, « Nouveaux outils et documents audiovisuels : les innovations du web sémantique », Documentaliste-Sciences de l'Information 6/ 2005 (Vol. 42), p. 392-404
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-6-page-392.htm
- Sur slideshare : http://fr.slideshare.net/troncy/presentations
- LinkedTV
- Fiche du projet de recherche européen sur Cordis - http://cordis.europa.eu/project/rcn/100796_en.html
- Site Web : http://www.linkedtv.eu/
- Ontologie LinkedTV - http://semantics.eurecom.fr/linkedtv/
- Sur vimeo - https://vimeo.com/user32346380
Les commentaires récents