Pour le cas où vous ne vous en seraiez pas encore aperçus, le Web est en crise … de croissance : trop d’informations de toutes sortes, trop de sites, des utilisateurs noyés sous la masse des réponses faites par les moteurs,….
Dans le monde du Web, l’axe de travail privilégié pour améliorer la situation consiste à mettre de la sémantique dans le Web … en tout premier lieu à l’attention des machines !
En effet, lorsque je lis un texte qui présente le CV d'une personne ou qui correspond à une carte de visite, mais aussi à une notice bibliographique, je sais – peu ou prou – que tel mot correspond au nom de la personne présentée dans le CV, je comprends que le texte qui suit le mot « formation » concerne la formation suivie par la personne, et je peux deviner que ce numéro barbare est un ISBN…
Mais la machine, elle, ne comprend rien à tous ces mots mis à la suite les uns des autres. Il faut donc structurer ce qui ne l’est pas à son attention. Bien sûr pour qu’in fine, des robots intelligents et plutôt spécialisés, trouvent des réponses un peu plus pertinentes aux diverses questions que l’on pose sur le Web.
Avec les micro-formats, on associe des « micro-métadonnées » à du contenu non-structuré. Techniquement, pas de schéma RDF ou de modèle complexe : ce sont des propriétés rajoutées aux balises HTML existantes. A faire bien sûr par les professionnels du codage html !
Il s’agit donc d’améliorer XHTML, sans révolutionner, ni complexifier le Web actuel : ces microformats ne perturbent pas les feuilles CSS, ni les humains d’ailleurs puisqu’ils sont conçus pour être également compris par eux. Après quelques adaptations sur les balises des pages existantes, ces dernières sont exploitables par des robots, des protocoles, (des web services ?), bref des agents informatiques devenus, par la même occasion, intelligents. Bref, le web sémantique du pauvre.
Les balises méta du langage HTML, inexploitées d'ailleurs par la majorité des auteurs et donc par les moteurs, reviennent à la mémoire de certains. Mais ces dernières se trouvaient en tête du document Web, alors qu'ici la structuration concerne bien le contenu, et pas uniquement ce que l'on pourrait appeler sa notice bibliographique. Changement majeur.
Des exemples
hCalendar pour les évènements
Le format de présentation des évènements et des calendriers est une spécification de l’IETF (n°2445) depuis 1998. C'est dans ce cadre normalisé que s'est développé le microformat hCalendar.
Ces attributs peuvent être encapsulés dans une page XHTML, un fil RSS ou Atom, un document XML.
<span class="vevent">
<a class="url" href=" http://www.univ-lille3.fr/colloque/indexation/">
<span class="summary"> Indice, index, indexation</span>:
<abbr class="dtstart" title="2005-11-03">Novembre 3</abbr>-
<abbr class="dtend" title="2005-11-05">7</abbr>,
at the <span class="location">Univ. Lille3, Lille, FR</span>
</a>
</span>
rel="tag"
En rajoutant cette propriété à un lien, la page indique que la destination du lien correspond à un tag, c’est-à-dire une métadonnée visible et attribuée par un auteur à cette page.
Sur ce document (très intéressant) sur les taxonomies et les thésaurus, l’auteur a intégré des tags dont "taxonomy" et "thesaurus" qui dirigent vers le "robot" Technorati : http://technorati.com/tag/taxonomy et http://technorati.com/tag/thesaurus où sont listés les documents indexés avec ces termes.
De nombreux autres microformats existent ou sont en cours de développement, comme xFolk pour indexer et partager les signets via Internet sans utiliser les systèmes centralisés comme del.icio.us .
Des sources
- Le site officiel : Microformats.org
- À l'agenda des microformats, Karl Dubost, 10 juin 2005, http://www.la-grange.net/2005/06/10.html#microformat
- Connaissez-vous les micro-formats ?, 19 août 2005, Fred Cavazza , http://www.fredcavazza.net/index.php?2005/08/19/800-connaissez-vous-les-micro-formats#tb
- Utilisation du microformat "hCard" pour créer une vcard avec SPIP, Izo, 28 août 2005, http://www.spip-contrib.net/Utilisation-du-microformat-hCard
Les commentaires récents