|
| |
Activités
en ligne |
Bien utiliser les moteurs
et annuaires tient au fait que l'on comprend bien la manière
dont l'information a été encodée dans la
base de données de ces deux types d'outils. Approfondissons
notre compréhension par deux activités.
> Lire la suite
> A la recherche d'autres
ressources
La suite
Analyse
d'une page de résultats fournie par un outil de recherche
Nous ne ferons pas ici l'amalgame entre moteur
et annuaire, mais profiterons de cette occasion de réflexion
pour rappeler la différence entre ces deux outils dont
les pages de résultats affichent quelques petites nuances
liées aux spécificités de chaque outil.
Il y a une standardisation
évidente entre les pages de résultats affichées
par les annuaires et les moteurs. Sur chacune, on trouve pour
les occurences du mot clé introduit en guise de requête,
les mentions comportant les éléments suivants :
- titre du document
- description du document
- url (adresse) du document
- poids de la page
- possibilité de traduction de la page ou accès
à des pages similaires
(selon les outils choisis)
Exemple : la requête introduite sera "la
Margot" (faut bien prendre quelque chose... en l'occurence,
c'est un titre de chanson).
Avec le moteur Google :
Commentaires
:
- La première ligne en bleu/souligné est le titre
de la page et constitue un lien hypertexte vers ce document
- Les deux lignes qui suivent constituent le contexte dans lequel
le mot clé constituant la requête apparaît
dans le document
- La ligne en vert est l'adresse URL du document, laquelle se
termine par le nom du fichier informatique concerné (dans
le cas présent : recettes01.htm. Suit le poids du document
exprimé en Kilo-octets. La ligne se termine sur deux propositions
: accéder à une version cache de la page et non
à sa version actuelle sur le net ou des pages similaires
répertoriées dans les archives de la base de données
du moteur Google.
Avec le moteur Fast - Alltheweb :
La
Margot
... La liste complète des chansons de marins E-Mail La
Margot Chanson à virer C'est Margot qu'est d'venue, biribi
... empointures! Oh! Hisse et ho! Tire larigot! Hourra pour la
Margot! C'est Margot qu'est devenue, biribi, Une jolie p'tite
... Description: Paroles et musique de La Margot more hits from:
http://perso.club-internet.fr/bmarcore/marins/M147.htm - 7 KB |
Commentaires
:
- La première ligne est le titre du document et constitue
un hypperlien vers ce document.
- Les deuxième et troisième lignes rapportent les
premiers mots de la page, dans l'ordre du texte au kilomètre.
D'où parfois la juxtaposition de mots qui sont des liens
textuels, lesquels ne composent pas pour autant des phrases sensées.
- La ligne intitulée "Description" reprend les
premiers mots de la balise méta <Description>
- La dernière ligne, en vert/souligné est l'adresse
URL du document. La dernière mention est le poids du document
exprimé en kilo-octets.
Avec l'annuaire Yahoo!France :
Commentaires
:
- La première ligne est identiquement le titre du document,
lequel constitue un hyperlien vers le document. Elle se poursuit
de la description du site, telle que l'auteur l'a défini
dans la balise meta <Description>
- La troisième ligne est l'adresse URL pointant vers le
document
- La quatrième ligne est spécifique : c'est l'indication
selon laquelle le site identifié fait partie d'une sous-catégorie
"Adoption" dans l'index thématique, à
la rubrique Société > Famille > Parents >
Avec l'annuaire Altavista :
AltaVista a trouvé 28 résultats à propos
de la "Margot"
Commentaires
:
- La première ligne -double- est bien, comme pour les
autres outils, le titre du document
- Les trois lignes qui suivent sont la juxtaposition des premiers
mots de la balise méta <Description> et le contexte
d'appartition du mot clé sur cette page répertoriée.
- La ligne suivante est l'adresse URL
- La dernière proposition est un lien hypertexte vers
une page plsu centrale dans l'arborescence du site où
le document est situé. Une proposition de vous mener à
"la tête du chapitre" de la page proposée.
On s'aperçoit donc que selon les outils utilisés
(moteurs ou annuaires) il y a des différences, légères
et que la caractéristique principale qui permet d'identifier
l'annuaire, c'est l'index thématique qui classe en catégories,
plutôt que de tout livrer en vrac.
Prenons
maintenant le temps de scruter de façon plus insidieuse
les résultats qui arrivent, quels que soient les outils
Exemple
1. La décomposition d'une adresse URL.
Partons d' exemples concrets :
http://www.media-animation.be/
L'adresse est la plus classique qui soit.
Elle commence par signaler que l'on est bien dans la partie de
l'Internet que l'on appelle le web, l'espace des documents rédigés
en html (hyper text markup language). et dont le protocole de
transfert est le http (Hyper text transfert protocol). Les "www"
sont un élément fréquent mais pas obligatoire
qui signifie que le serveur sur lequel le site est hébergé
comporte un dossier spécial pour tout ce qui est accessible
par le web. Le nom de domaine de l'adresse ici est le radical
de base : media-animation. Le suffixe qui termine le tout désigne
le pays d'origine : .be = Belgique
http://thot.cursus.edu
Cette adresse est assez semblable à
la précédente. Deux choses l'en distingue toutefois
: le suffixe qui désigne ici, non un pays mais un secteur
d'activité. edu = educatif ou education. L'absence des
"www" montre que le serveur est organisé autrement
que le précédent.
http//www.acam.be.tf
La particularité de cette adresse par
rapport aux précédentes est de comporter un second
suffixe... .be = Belgique est cette fois suivi de .tf... qui
désigne une nation (territoire français du sud)
qui a revendu un bon nombre de ses "espaces internet"
à des commerciaux qui les sous-traitent en en faisant
une sorte de recyclage.. .tf = territoire méridionaux
français. L'adresse ici présente est fournie pour
une redirection gratuite vers une autre adresse plus compliquée
à retenir. Elle constitue un "faux nom de domaine,
dans le sens où elle n'est pas payante et agrémentée
de tous les services liés au paiement d'un nom de domaine
(DNS) officiel.
http://educaumedia.comu.ucl.ac.be/Media/Default.htm
Adresse classique, mais un peu plus longue
montrant qu'au radical educaumedia.comu.ucl.ac.be peut s'ajouter
des répertoire. Ici, le réperetoire est : Média/.
Il est suivi du nom du document dans ce répertoire. ici,
le document par défaut : index.htm. Le radical lui-même
peut faire l'objet d'une analyse en décomposition :
.be = Belgique, .ac = secteur académique, .ucl = université
catholique de Louvain, .comu = département facultaire
de communication, educaumedia est le nom de domaine choisi par
le propriétaire du site. Son choix est inspiré
du fait que le site parle d'Education aux médias.
http://users.skynet.be/fa3037873/index.htm
L'adresse suivante est assez semblable à
la seconde. En effet, elle comporte un double radical : thot
et cursus. En fait, c'est la trace de ce que le même serveur
héberge deux sites qui ont une parenté (ici, le
concepteur et les préoccupations communes). Thot est sous-répertoire
de cursus. Le repertoire fa303873/ désigne le nom du "client"
qui est repris dans la liste des "users" de chez skynet.be
(fournisseur d'accès et hébergeur en Belgique).
On peut assez logiquement penser qu'en modifiant un chiffre du
nombre fa303873, on aboutoissement chez le même héberheur,
sur le site d'un autre "client".
http://10.192.240.95/carnet/article.asp?num=78
Deux choses sont observables dans l'adresse
ci-dessus : le nom de domaine est remplacé par des chiffres...
mais le principe est le même. Cette version chiffrée
fait simplement apparaître que l'ordi relie toujours les
injonctions qu'on lui fournit en code mathématique. 10.192.240.95
désigne les réseaux et sous réseaux sur
lequel la machine porteuse du document est branchée. Elle-même
est désignée par une série de 10 chiffres
constituant son adresse IP. Le nom du fichier qui constitue le
document hébergé à l'adresse indiquée
est un article rédigé en html mais formaté
en langage asp pour apparaître, via une base de données,
à l'adresse en question. D'où la finale : /article.asp?num=78
A nouveau, changer le numéro qui est dans ce membre d'adresse
reviendrait à aboutir à un autre document répertorié
dans la même base de donnée.
On peut donc "interroger" l'adresse
URL d'un document... la faire parler... lui faire avouer plus
qu'elle n'affiche dans un premier temps
Exemple
2. La maladie de la <vache folle> constitue une bonne cas
d'étude .
Tous les développements ci-dessous
ont été établis à la date du 24.04.03
Vache
folle en ligne
L'actualité de l'encéphalopathie spongiforme bovine
(ESB) et un gros dossier sur la crise de la vache folle. ...
Vache folle en ligne. ...
Description: Nouvelles, dossier sur la maladie de la vache folle,
courrier de l'environnement de l'INRA.
Catégorie: World > Français > ... > Maladies
> Maladie de Creutzfeldt-Jakob
www.inra.fr/Internet/Produits/dpenv/vchfol00.htm - 101k - 23 avr 2003 - En cache -
Pages similaires |
L'adresse
du site ici repéré conduit à une page globale
qui comporte, de façon ambigue, des niveaux de paroles
assez variés. Une analyse approfondie s'impose. Sinon,
comment comprend qu'un même document contienne en même
temps des blagues et assertions humoriqtiques sur l'encéphalite
spongiforme et des développements des plus scientifiques.
Manipulation
progressive de l'adresse URL
Pour arriver à identifier l'émetteur
d'une page aussi controversée, la manipulation consistera
à éliminer progressivement les divers membres de
l'adresse URL, en commençant par la fin.
www.inra.fr/Internet/Produits/dpenv/vchfol00.htm est la page de départ
www.inra.fr/Internet/Produits/dpenv/ est la page par défaut
du répertoire : dpenv/
Cette page nous dit que nous sommes dans le courrier de l'environnement
de l'Inra... voilà qui est encore assez sybillin.
www.inra.fr/Internet/Produits/
est la page par défaut du répertoire
: Produits/
Là, la chose est plus claire, puisque le document affiche
clairement le leiu d'hébergement du site : serveur institutionnel
de l'INRA, l'institut national (français) de la Recherche
Agronomique. Mais admettons un instant que ce document ne soit
pas aussi univoque et précis, nous aurions pu encore remonter
d'un (ou de deux) niveau(x).
www.inra.fr/Internet/
est la page du répertoire : Internet/
C'est toujours la même page qui s'affiche et qui nous dit,
remarquons le en passant, que nous n'avons pas la permission
pour aller là où nous sompmes ! remontons encore
d'un étage, pour arriver au radicla de l'adresse URL.
www.inra.fr/
Voilà que nous sommes maintenant sur
la homepage, la page d'accueil, du site de l'INRA avec toute
la table des matières accessible et l'arborescence qui
s'offre à nous.
Procéder
de la sorte peut se faire sur n'importe quelle adresse de document.
C'est une manière performante de faire preuve de saine
et critique curiosité.

>
A la recherche d'autres ressources
Il est un site très
intéressant qui suit l'actualité des moteurs et
annuaires :
http://www.abondance.com.
Il fournit des renseignements
spécifiques à chaque outil de recherche et des
informations de type économique sur ce monde particulier
de l'internet.
Voici une première page qui renseigne bien sur la question
:
http://outils.abondance.com/
On mentionnera aussi
les trucs et ficelles pour être efficace :
http://trucs-et-astuces.abondance.com/recherche.html
Sur la démarche
de recherche, il existe plusieurs sites très bien faits.
Ils scénarisent les étapes essentielles du travail
de recherche, localisation, sélection, traitement et publication
des infos :-
- http://www.francophonie.org/decouvrir/connecte/module8/inter1.htm
- http://www.cslaval.qc.ca/Prof-Inet/ai/chercher/ai_chercher.html
- http://www.ebsi.umontreal.ca/jetrouve/internet/
- http://www.edumatic.qc.ca/chercher/
-
http://www-scd-ulp.u-strasbg.fr/urfist/IST_Internet/ist_plan.htm
Et puis, si vous croyez
maintenant que tout est simple... détrompez-vous. Ce domaine
d'activité de l'internet est en pleine évolution.
Autrement dit, la distinction entre moteur et annuaire est en
constante mutation, liée en cela à la concurrence
que génère un marché juteux. Ainsi, Yahoo!
l'annuaire se fait-il toujours plus moteur...
Voyez plutôt : http://c.asselin.free.fr/french/mars04/yahoo_france_2004.htm
et l'explication technologique
est donnée par yahoo! lui-même : http://fr.search.yahoo.com/info/tour/fr/index.html
|