Introduction
Comment un ordinateur sait ce qu'il est en train de lire ?
Quand Tim Berners-Lee a inventé le web au début des années 90s, il avait vu un système ouvert pour que les personnes puissent partager de l'information dans le monde entier. Serait-il surpris de la quantité d'information disponible seixe ans après ? En partant des premiers jours des articles académiques, le web brasse maintenant de photos, des vidéos, des actualités à la minute, des blogs, des magasins, des cartes annotées et des milliers d'autres classes d'information. Vous pourrez passer des heures à naviguer dans cette masse, en catalogant tout consciencieusement et moins consciencieusement.
Mais comment un ordinateur peut-il savoir ce qu'il lit ?
Quand un fan de football lit le gros titre Rooney start ‘will scare Swedes’, il peut être tout à fait certain que ce sera un article d'actualité de football sur le joueur anglais Wayne Rooney, plus probablement en rapport avec le match récent de la Coupe du Monde entre l'Angleterre et la Suède. Il peut même faire une bonne supposition sur la date de l'article (plus probablement dans les heures précédant le match). Un ordinateur ne peuvent rien faire de ce catalogage ; il n'a aucune compréhension d'un article d'actualité, de Wayne Rooney, du football, ou des équipes nationales impliquées. (Ignorons le parsage complexe linguistique pour le moment).
Cet article introduira le Web Sémantique, la prochaine étape dans le développement du web. Nous expliquerons pourquoi la sémantique est importante, comment elle pourra aider les ordinateurs à cataloguer les données, et comment ceci nous bénéficiera en tant qu'individus. Nous regarderons aussi les microformats, un projet en cours dont les buts sont de nous aider à créer un web plus sémantique. Nous supposerons que vous avez une bonne connaissance du XHTML.
La motivation
Le web est un endroit géant : nous pouvons presque tout faire en ligne ; du marché alimentaire jusqu'à regarder la Coupe du Monde en live, le web est un endroit qui nous est très facile pour naviguer. Mais pas pour les ordinateurs.
Allons droit au but sur un exemple de problème que nous pourrions rencontrer : trouver un plombier. Plus probablement, la prochaine fois que vous aurez besoin d'un plombier sera quand vous serez confronté à une urgence - une fuite d'eau, une panne de chauffage, et ainsi de suite. A ce moment-là, vous ne voudrez pas passer une heure à chercher en ligne un plombier local qui serait recommandé.
Comment un ordinateur peut-il comprendre ce qu'est d'être un plombier local pour vous ?
Comment un ordinataur peut-il vous aider à trouver un plombier local ? Comment un ordinateur peut-il savoir ce qu'est un plombier ? Comment un ordintateur peut-il comprendre ce qu'est d'être un plombier local pour vous ?
Vous pourriez penser que vous pouvez chercher dans Google sur 'plombier Le Mans', par exemple. Mais pour tous c'est inutile, Google n'a vraiment aucune idée de ce que vous cherchez ; il ne fera que vous renvoyez ces pages qui incluent vos termes de recherche. Comment arrêtez vous les résultats qui vous reviennent de la recherche sur les plombiers au Mans, en Inde, ou de la famille Plombier au Mans ? Vous voudrez pouvoir définir ce qu'est un plombier, et voudrez pouvoir ajouter des propriétés à un plombier, comme son lieu de résidence et son niveau de confiance.
C'est là où le Web Sémantique rentre en scène.
Imaginez un carnet d'adresses qui au fil du temps, au fur et à mesure que vous butinez le web, rassemble et stocke les détails de contact des différentes plombiers, qui au fil du temps, vous remarquer à peine la publicité. Les détails pourraient venir de n'importe où : le site web des Pages Jaunes, un billet sur le blog d'un ami où il recommande un plombier, ou un site listant les services locaux, par exemple. En utilisant l'identifiant unique des plombiers (leur URI, uniform resource identifier), il trouve des critiques des plombiers de façon à ce que vous puissiez décider sur leurs réputations. Et ceci n'est que le début.
Comment cela est-ce possible ? Tout est dans le balisage sémantique et les microformats.
Sémantique, sémantique, sémantique
URIs : comprendre que Jean Dupont est différent de Jean Dupont
L'une des briques de construction du Web Sémantique est le Uniform Resource Identifier (URI).
Berners-Lee promeut l'idée que tout ce qui est d'importance mérite une URI
,
que ce soit une personne, un bâtiment ou autre chose.
Les URIs peuvent être utilisées pour identifier de manière unique quelque chose extrait
de notre plombier local recommandé vers la notion abstraite de paix dans le monde
.
Chaque plombier aurait un URI, utilisé pour l'identifier de manière unique sur le web,
et utilisé par les commentateurs pour indiquer qu'ils sont en train de critiquer
ce plombier unique.
Un 'balisage' microformat
Du fait de la vaste quantité d'informations sur le web, personne n'est complètement sûr de la manière dont nous pouvons créer un standard pour extraire tous les bits utiles. Un groupe néanmoins, est en train de lui donner un bon pas en avant : saisissez Microformats.
Le Projet Microformats a conçu plusieurs petits formats pour les données communes, les deux trouvés les plus utilisés étant l'information de contact et le calendrier d'événements, connus respectivement sous les noms hCard et hCalendar . Les microformats ne sont pas un nouveau langage ; mais plutôt ils collent étroitement aux pages existantes, souvent sans même le besoin de quelque changement visuel.
Nous n'allons pas ici couvrir les microformats dans les détails (vous trouverez cela sur le wiki du projet) ; nous fournirons à la place un exemple. Vous vous souvenez de l'article de Joe Bloggs The separation of structure, presentation, and behaviour as a software architecture ? Formatons ces détails avec le microformat hCard :
<dl class="vcard">
<dt>Nom</dt>
<dd class="fn">Jean Blogue</dd>
<dt>adresse e-mail</dt>
<dd>
<a href="mailto:jean@exemple.com" class="email">
jean@example.com
</a>
</dd>
<dt>Téléphone domicile</dt>
<dd class="tel">+33 603 46 4602</dd>
</dl>
Comme vous pouvez le voir, ceci est un fragment de HTML, compris par les navigateurs web et autres logiciels depuis le milieu des années 90. L'intelligence des microformats est dans les classes spéciales que nous avons ajoutées aux éléments.
Remarquez la classe vcard donnée à l'élément dl ? Ou la classe fn sur le premier élément dd ? Que penser de email sur l'élément a ? Ce sont ces ajouts triviaux que nous produisons à la syntaxe sous-jacente qui permettent à l'information d'être extraite et catégorisée par un ordinateur.
Pour décrire ce que fait le code ci-dessus : une hCard (ce qui veut dire, les détails de contact sur un individu ou une affaire) sont annoncés par un élément ayant un attribut de classe vcard (hCard est basé sur la spécification vcard). Les éléments descendants (pas simplement les enfants) de cet élément peuvent tous récupérer la section de la hCard ; tout ce dont ils ont besoin est d'une classe reconnue par la spécification hCard. (Ils peuvent, bien sûr, avoir ausi n'importe quel nombre d'autres classes.)
Ainsi la spécification hCard définit la classe fn pour vouloir dire le contenu de “cet élément’ est le nom complet de l'individu ou du commerce”. La classe tel définit un numéro de téléphone. Les adresses e-mail addresses sont un cas spécial : une adresse e-mail est prise à partir de l'attribut href de l'élément a marqué avec un attribut email .
Et pas besoin de se soucier de changer votre page pour utiliser des listes de définitions ; les attributs hCard peuvent être ajoutés à n'importe quels éléments, et les données hCard peuvent être aussi distantes dans une page, et dans n'importe quel ordre, comme vous le souhaitez.
Comment utilisons-nous les microformats?
Ainsi, vous avez balisé toutes vos pages avec des microformats ; vous pourriez vous demander comment vous utilisez ces petites pépites, cachées au loin dans la structure de votre page. Les microformats pourraient être encore dans l'enfance — un petit plus d'un an — mais les personnes trouvent des moyens de les utiliser plus vite que vous ne pourrez dire “Avez-vous le nom d'un bon plombier ?”
Outils Existants
Les outils de microformats les plus populaires doivent être X2V de Brian Suda qui convertir n'importe quelle page web contenant des items hCard en vCard, et les items hCalendar en fichiers iCalendar. L'usage le plus intéressant de cela est de saisir les détails de contacts d'une personne à partir de son site web et de l'importer dans Microsoft Outlook, le Carnet d'Adresses d'Apple et iCal — parmi bien d'autres applications.
Vous pourriez même utiliser ce service sans le savoir : World Cup Kick-off est en train d'utiliser X2V pour fournir un service qui vous permet d'ajouter les heures d'envoi des matchs de la coupe du monde à votre calendrier. Pour ceux d'entre vous qui sont au Royaume Uni, voilà le programme anglais. (Désolé pour l'Ecosse !) Et Technorati a des cartes de visite professionnelles pour son personnel, attendant juste d'être ramassées par vous avec X2V.
Tails Export, une extension libre pour le navigateur web Firefox, indique aux utilisateurs qu'il y a des microformats encapsulés dans une page ; ainsi par exemple, vous savez quand vous passez sur une page remplie de hCards, et par conséquent vous pouvez les sauvegarder dans votre carnet d'adresses.
Faire tourner les vôtres
Bien sûr, c'est plus drôle quand nous créons nos propres outils. Le fait que les microformats soient encastrés dans les documents XML existants veut dire que vous pouvons utiliser ces outils pour transformer le XML qui est déjà disponible. Vous pourriez écrire des transformations XSL pour extraire des critiques et des événéments ; ou écrire un moteur de recherche comme le moteur de recherche de Technorati ou le moteur de recheche XFN de Rubhub. Comme pointeur, le W3C travaille le long de ces lignes sur son projet GRDDL de visualisation de données.
Au delà des Microformats
Beaucoup sont d'accord pour dire que les microformats ne sont qu'un moyen pour une fin (ce qui est souvent appelé ‘le web sémantique du vrai monde’ ou ‘le web sémantique en minuscule’), et que la technologie au coeur du Web Sémantique sera RDF (Resource Description Framework). Ceci pourrait être bien le cas, mais les microformats vous offre un changement pour commencer à jouer maintenant avec le web sémantique, apprendre et comprendre ce que sera le web du futur. Une fois que RDF du W3C prendra un plus grand rôle en dehors de la recherche, vous serez bien placé pour prendre le meilleur du Web Sémantique.
Résumé
La prochaine révision du web, le Web Sémantique, peut être encore à quelque années, mais il n'y a pas de raisons de ne pas commencer par utiliser les idées à partir desquelles il est en train de se former. Ajouter de la sémantique (du sens) aux documents existants permet aux ordinateurs de catégoriser et gérer l'information, nous permettant de l'utiliser avec des façons plus utiles et plus intéressantes.
Les microformats sont un exemple de la façon dont nous pouvons faire ça maintenant. Les détails de contact sur une page web peuvent être ajoutés à votre carnet d'adresses ; les programmes d'événéments peuvent être ajoutés à votre calendrier. Et en fait, trouver un plombier en ligne sera facile !
Références
- Rooney start ‘will scare Swedes’, BBC, 19 juin 2006.
- Microformats, Le Projet Microformat, Juin 2006.
- Give yourself a URI, Sir Tim Berners-Lee, Janvier 2006.
- Semantic Web, Wikipedia, Juin 2006 (version actuelle).
- Uniform Resource Identifier, Wikipedia, Juin 2006 (version actuelle).
- Resource Description Framework, Wikipedia, Juin 2006 (version actuelle).
- GRDDL data views: getting started, learning more, W3C, Février 2006.
Tags :
Mercurytide est une société de développement d'applications internet innovantes. Pour plus de détails, consultez son profil.
Ecrit par John, publié le 20 juin 2006, Copyright 2006 Mercurytide Ltd.
Mercurytide Ltd. (Edinburgh)
3 Queen Charlotte Lane
Edinburgh
EH6 6AY
T 0845 652 6506
F 0131 467 3501
