Traditionnellement, lorsque nous effectuons une recherche par mot-clé sur des index comme Google ou Yahoo, ceux-ci nous donnent un résultat en une fraction de seconde. Ainsi, il est possible de trouver en un temps record six milliards cinq cent millions (6,500,000,000) résultats sur le terme Internet sur Google.

La recherche par mot-clé n’indexait jusqu’en 2004 que les termes présents sur les différentes pages Web. Or depuis cette date, Google, Yahoo et d’autres engins de recherche, indexent maintenant le contenu des documents bureautiques tels que Word, Excel, PowerPoint et fichiers PDF.

Avec la multiplication des fichiers audio, vidéos et images sur le Web, les engins de recherche traditionnels atteignent de nouveau une limite de résultat. Limite, car ni Yahoo ou Google n’ont actuellement la possibilité d’extraire l’information contenue à l’intérieur de ces fichiers. Les résultats d’une recherche sur Google Vidéo proviennent uniquement du titre ou de la description de l’élément qu’en a fait son auteur.

Depuis quelques mois, le Tag (label) fait fureur, ainsi je donne quelques mots-clés qui identifient mon texte, ma vidéo, mes photos ou mon fichier MP3. Ces Tags (label) facilitent la recherche sur des éléments que l’on pourrait considérer comme des zones d’ombres pour les engins de recherches.

Il est maintenant possible de faire une recherche à l’intérieur d’un fichier vidéo, audio ou encore d’une image. Ces technologies qui poussent encore plus loin les limites de la recherche sur Internet, permettent par exemple à un auditeur de Podcast (baladodiffusion), de faire une recherche sur certains termes contenus dans un épisode de son émission favorite.

Deux entreprises qui proposent ces technologies ont retenu mon attention. La première, Podzinger, spécialisée dans la reconnaissance vocale. La seconde, Riya, est spécialisée en recherche faciale (reconnaissance faciale). J’ai choisi ces entreprises parce qu’elle représente parfaitement cette nouvelle approche qui nous permettra de faire des recherches dans des fichiers audio, vidéos et photos de la même façon que nous cherchons dans un texte.

Podzinger, est une création de BBN Technologies. Cette dernière a une expérience de trente (30) ans en reconnaissance vocale. Comme l’explique Alex Laats président de Podzinger. C’est au cours des années 90 que le gouvernement américain (Pentagone /CIA) donne comme mandat à BBN de « structurer les données non structurées de l’Internet, que sont les éléments audio et vidéo » (Inside the net 29 mars 2006).

Ces zones d’ombres que constituent les objets multimédias disparaîtront dans un avenir très proche, ces nouvelles normes s’appliqueront aux résultats de recherches possibles sur Internet.

Podzinger crée un transcrit de tous les podcast proposés sur son site grâce à leur technologie de reconnaissance vocale. Ces transcrits sont par la suite taggés, ce qui rend possible les recherches dans les fichiers audio et vidéo. Non seulement, une recherche sur Podzinger me donne un résultat sur l’épisode dans lequel les mots recherchés se trouvent, mais il me sera possible d’écoutés le moment précis où ces mots sont prononcés dans ce même épisode.

Podzinger permet aussi de créer des alertes RSS. Par exemple, si je suis intéressé d’écouter tout ce qui se dit sur le mot Internet, je peux créer rapidement un flux RSS qui me préviendra automatiquement qu’un nouveau fichier audio ou vidéo contient le mot Internet dans son contenu.

La deuxième société qui se nomme Riya emploie une dizaine de PHD. Leur technologie de reconnaissance faciale permet la lecture et l’identification des éléments sur une photo. Une fois son compte créé et nos photos téléchargées sur ce site, nous entraînons le système à reconnaître les gens, éléments ou objet qui apparaissent sur nos photos. Par la suite, il vous sera par exemple possible de chercher toutes les photos sur lesquelles apparaissent Monsieur X ou Madame Y.

Lorsque vous utilisez Riya et que vous avez déjà identifié votre ami Monsieur X, si l’une de vos amies, aussi membre de Riya, télécharge une photo sur laquelle apparaît Monsieur X, le système reconnaîtra et identifiera automatiquement Monsieur X.

Ces nouveaux systèmes de recherche sur Internet poussent encore plus loin les possibilités qu’offre Internet aux utilisateurs. De plus en plus, les données qui ne sont pas structurées en format texte deviendront structurées et par le fait même parties intégrantes des engins de recherches. Cette avancée soulèvera cependant un débat sur la protection de la vie privée. Comment pousser plus loin les limites de la recherche sur Internet sans brimer le respect d’autrui ?

Benoit Descary

Liens:

Google video: http://video.google.com/

Podzinger: http://www.podzinger.com/

Riya: http://riya.com/