Dans les Carnets > Moteur > Comprendre

 

 
Activités en ligne

 

Bien utiliser les moteurs et annuaires tient au fait que l'on comprend bien la manière dont l'information a été encodée dans la base de données de ces deux types d'outils. Approfondissons notre compréhension par deux activités.
> Lire la suite

 

 

Moteur ou annuaire ?

 Consignes

Démarrer
Je crois avoir tout compris

 Consignes

Démarrer

 

 

> A la recherche d'autres ressources

Retour au sommaire <<

>> vers le chapitre suivant

 

 

 

La suite

Analyse d'une page de résultats fournie par un outil de recherche


Nous ne ferons pas ici l'amalgame entre moteur et annuaire, mais profiterons de cette occasion de réflexion pour rappeler la différence entre ces deux outils dont les pages de résultats affichent quelques petites nuances liées aux spécificités de chaque outil.
Il y a une standardisation évidente entre les pages de résultats affichées par les annuaires et les moteurs. Sur chacune, on trouve pour les occurences du mot clé introduit en guise de requête, les mentions comportant les éléments suivants :

- titre du document
- description du document
- url (adresse) du document
- poids de la page
- possibilité de traduction de la page ou accès à des pages similaires
(selon les outils choisis)

 

Exemple : la requête introduite sera "la Margot" (faut bien prendre quelque chose... en l'occurence, c'est un titre de chanson).

Avec le moteur Google :

 Régionalp est une entreprise spécialisée dans la distribution ...
... Salade d'la Margot Ingrédients pour 4 personnes : 1 salade verte, 120 g de Beaufort ou de gruyère de Savoie, 100 g de lardons fumés ou de jambon fumé. ...
www.regionalp.com/recettes/recettes01.htm - 15k - En cache - Pages similaires

 

Commentaires :
- La première ligne en bleu/souligné est le titre de la page et constitue un lien hypertexte vers ce document
- Les deux lignes qui suivent constituent le contexte dans lequel le mot clé constituant la requête apparaît dans le document
- La ligne en vert est l'adresse URL du document, laquelle se termine par le nom du fichier informatique concerné (dans le cas présent : recettes01.htm. Suit le poids du document exprimé en Kilo-octets. La ligne se termine sur deux propositions : accéder à une version cache de la page et non à sa version actuelle sur le net ou des pages similaires répertoriées dans les archives de la base de données du moteur Google.

Avec le moteur Fast - Alltheweb :

 La Margot
... La liste complète des chansons de marins E-Mail La Margot Chanson à virer C'est Margot qu'est d'venue, biribi ... empointures! Oh! Hisse et ho! Tire larigot! Hourra pour la Margot! C'est Margot qu'est devenue, biribi, Une jolie p'tite ... Description: Paroles et musique de La Margot more hits from:
http://perso.club-internet.fr/bmarcore/marins/M147.htm - 7 KB

 

Commentaires :
- La première ligne est le titre du document et constitue un hypperlien vers ce document.
- Les deuxième et troisième lignes rapportent les premiers mots de la page, dans l'ordre du texte au kilomètre. D'où parfois la juxtaposition de mots qui sont des liens textuels, lesquels ne composent pas pour autant des phrases sensées.
- La ligne intitulée "Description" reprend les premiers mots de la balise méta <Description>
- La dernière ligne, en vert/souligné est l'adresse URL du document. La dernière mention est le poids du document exprimé en kilo-octets.

Avec l'annuaire Yahoo!France :

Mes enfants venus d'Afrique - Témoignage sur l'adoption de Manon, petite Malienne et de Margot, du Togo.
Information sur les démarches.
perso.wanadoo.fr/adoption-manon/
Plus de sites dans :
Société > Famille > Parents > Adoption

 

Commentaires :
- La première ligne est identiquement le titre du document, lequel constitue un hyperlien vers le document. Elle se poursuit de la description du site, telle que l'auteur l'a défini dans la balise meta <Description>
- La troisième ligne est l'adresse URL pointant vers le document
- La quatrième ligne est spécifique : c'est l'indication selon laquelle le site identifié fait partie d'une sous-catégorie "Adoption" dans l'index thématique, à la rubrique Société > Famille > Parents >

Avec l'annuaire Altavista :

AltaVista a trouvé 28 résultats à propos de la "Margot"

Régionalp est une entreprise spécialisée dans la distribution et la diffusion de produits savoyards : colis de Savoie ... Que vous soyez un professionnel, un C.E. ou un particulier, Régionalp, entreprise spécialisée
dans ... s'il est servi le lendemain. Salade d'la Margot Ingrédients pour 4 personnes : 1 salade verte ...
www.regionalp.com/recettes/recettes01.htm
Plus de pages avec
www.regionalp.com

 

Commentaires :

- La première ligne -double- est bien, comme pour les autres outils, le titre du document
- Les trois lignes qui suivent sont la juxtaposition des premiers mots de la balise méta <Description> et le contexte d'appartition du mot clé sur cette page répertoriée.
- La ligne suivante est l'adresse URL
- La dernière proposition est un lien hypertexte vers une page plsu centrale dans l'arborescence du site où le document est situé. Une proposition de vous mener à "la tête du chapitre" de la page proposée.

On s'aperçoit donc que selon les outils utilisés (moteurs ou annuaires) il y a des différences, légères et que la caractéristique principale qui permet d'identifier l'annuaire, c'est l'index thématique qui classe en catégories, plutôt que de tout livrer en vrac.

Prenons maintenant le temps de scruter de façon plus insidieuse les résultats qui arrivent, quels que soient les outils

Exemple 1. La décomposition d'une adresse URL.

Partons d' exemples concrets :

http://www.media-animation.be/
L'adresse est la plus classique qui soit. Elle commence par signaler que l'on est bien dans la partie de l'Internet que l'on appelle le web, l'espace des documents rédigés en html (hyper text markup language). et dont le protocole de transfert est le http (Hyper text transfert protocol). Les "www" sont un élément fréquent mais pas obligatoire qui signifie que le serveur sur lequel le site est hébergé comporte un dossier spécial pour tout ce qui est accessible par le web. Le nom de domaine de l'adresse ici est le radical de base : media-animation. Le suffixe qui termine le tout désigne le pays d'origine : .be = Belgique

http://thot.cursus.edu
Cette adresse est assez semblable à la précédente. Deux choses l'en distingue toutefois : le suffixe qui désigne ici, non un pays mais un secteur d'activité. edu = educatif ou education. L'absence des "www" montre que le serveur est organisé autrement que le précédent.

http//www.acam.be.tf
La particularité de cette adresse par rapport aux précédentes est de comporter un second suffixe... .be = Belgique est cette fois suivi de .tf... qui désigne une nation (territoire français du sud) qui a revendu un bon nombre de ses "espaces internet" à des commerciaux qui les sous-traitent en en faisant une sorte de recyclage.. .tf = territoire méridionaux français. L'adresse ici présente est fournie pour une redirection gratuite vers une autre adresse plus compliquée à retenir. Elle constitue un "faux nom de domaine, dans le sens où elle n'est pas payante et agrémentée de tous les services liés au paiement d'un nom de domaine (DNS) officiel.

http://educaumedia.comu.ucl.ac.be/Media/Default.htm
Adresse classique, mais un peu plus longue montrant qu'au radical educaumedia.comu.ucl.ac.be peut s'ajouter des répertoire. Ici, le réperetoire est : Média/. Il est suivi du nom du document dans ce répertoire. ici, le document par défaut : index.htm. Le radical lui-même peut faire l'objet d'une analyse en décomposition :
.be = Belgique, .ac = secteur académique, .ucl = université catholique de Louvain, .comu = département facultaire de communication, educaumedia est le nom de domaine choisi par le propriétaire du site. Son choix est inspiré du fait que le site parle d'Education aux médias.

http://users.skynet.be/fa3037873/index.htm
L'adresse suivante est assez semblable à la seconde. En effet, elle comporte un double radical : thot et cursus. En fait, c'est la trace de ce que le même serveur héberge deux sites qui ont une parenté (ici, le concepteur et les préoccupations communes). Thot est sous-répertoire de cursus. Le repertoire fa303873/ désigne le nom du "client" qui est repris dans la liste des "users" de chez skynet.be (fournisseur d'accès et hébergeur en Belgique). On peut assez logiquement penser qu'en modifiant un chiffre du nombre fa303873, on aboutoissement chez le même héberheur, sur le site d'un autre "client".

http://10.192.240.95/carnet/article.asp?num=78
Deux choses sont observables dans l'adresse ci-dessus : le nom de domaine est remplacé par des chiffres... mais le principe est le même. Cette version chiffrée fait simplement apparaître que l'ordi relie toujours les injonctions qu'on lui fournit en code mathématique. 10.192.240.95 désigne les réseaux et sous réseaux sur lequel la machine porteuse du document est branchée. Elle-même est désignée par une série de 10 chiffres constituant son adresse IP. Le nom du fichier qui constitue le document hébergé à l'adresse indiquée est un article rédigé en html mais formaté en langage asp pour apparaître, via une base de données, à l'adresse en question. D'où la finale : /article.asp?num=78
A nouveau, changer le numéro qui est dans ce membre d'adresse reviendrait à aboutir à un autre document répertorié dans la même base de donnée.

On peut donc "interroger" l'adresse URL d'un document... la faire parler... lui faire avouer plus qu'elle n'affiche dans un premier temps

Exemple 2. La maladie de la <vache folle> constitue une bonne cas d'étude .
Tous les développements ci-dessous ont été établis à la date du 24.04.03

 Vache folle en ligne
L'actualité de l'encéphalopathie spongiforme bovine (ESB) et un gros dossier sur la crise de la vache folle. ... Vache folle en ligne. ...
Description: Nouvelles, dossier sur la maladie de la vache folle, courrier de l'environnement de l'INRA.
Catégorie: World > Français > ... > Maladies > Maladie de Creutzfeldt-Jakob
www.inra.fr/Internet/Produits/dpenv/vchfol00.htm - 101k - 23 avr 2003 - En cache - Pages similaires

 

 

L'adresse du site ici repéré conduit à une page globale qui comporte, de façon ambigue, des niveaux de paroles assez variés. Une analyse approfondie s'impose. Sinon, comment comprend qu'un même document contienne en même temps des blagues et assertions humoriqtiques sur l'encéphalite spongiforme et des développements des plus scientifiques.

Manipulation progressive de l'adresse URL

Pour arriver à identifier l'émetteur d'une page aussi controversée, la manipulation consistera à éliminer progressivement les divers membres de l'adresse URL, en commençant par la fin.

www.inra.fr/Internet/Produits/dpenv/vchfol00.htm est la page de départ


www.inra.fr/Internet/Produits/dpenv/ est la page par défaut du répertoire : dpenv/
Cette page nous dit que nous sommes dans le courrier de l'environnement de l'Inra... voilà qui est encore assez sybillin.

www.inra.fr/Internet/Produits/ est la page par défaut du répertoire : Produits/
Là, la chose est plus claire, puisque le document affiche clairement le leiu d'hébergement du site : serveur institutionnel de l'INRA, l'institut national (français) de la Recherche Agronomique. Mais admettons un instant que ce document ne soit pas aussi univoque et précis, nous aurions pu encore remonter d'un (ou de deux) niveau(x).

www.inra.fr/Internet/ est la page du répertoire : Internet/
C'est toujours la même page qui s'affiche et qui nous dit, remarquons le en passant, que nous n'avons pas la permission pour aller là où nous sompmes ! remontons encore d'un étage, pour arriver au radicla de l'adresse URL.

www.inra.fr/
Voilà que nous sommes maintenant sur la homepage, la page d'accueil, du site de l'INRA avec toute la table des matières accessible et l'arborescence qui s'offre à nous.

 

Procéder de la sorte peut se faire sur n'importe quelle adresse de document. C'est une manière performante de faire preuve de saine et critique curiosité.

 

> A la recherche d'autres ressources

Il est un site très intéressant qui suit l'actualité des moteurs et annuaires :
http://www.abondance.com.

Il fournit des renseignements spécifiques à chaque outil de recherche et des informations de type économique sur ce monde particulier de l'internet.

Voici une première page qui renseigne bien sur la question :

http://outils.abondance.com/

On mentionnera aussi les trucs et ficelles pour être efficace :
http://trucs-et-astuces.abondance.com/recherche.html

Sur la démarche de recherche, il existe plusieurs sites très bien faits. Ils scénarisent les étapes essentielles du travail de recherche, localisation, sélection, traitement et publication des infos :-

- http://www.francophonie.org/decouvrir/connecte/module8/inter1.htm

- http://www.cslaval.qc.ca/Prof-Inet/ai/chercher/ai_chercher.html

- http://www.ebsi.umontreal.ca/jetrouve/internet/

- http://www.edumatic.qc.ca/chercher/

- http://www-scd-ulp.u-strasbg.fr/urfist/IST_Internet/ist_plan.htm

Et puis, si vous croyez maintenant que tout est simple... détrompez-vous. Ce domaine d'activité de l'internet est en pleine évolution. Autrement dit, la distinction entre moteur et annuaire est en constante mutation, liée en cela à la concurrence que génère un marché juteux. Ainsi, Yahoo! l'annuaire se fait-il toujours plus moteur...

Voyez plutôt : http://c.asselin.free.fr/french/mars04/yahoo_france_2004.htm

et l'explication technologique est donnée par yahoo! lui-même : http://fr.search.yahoo.com/info/tour/fr/index.html