Version préliminaire en cours de development.
Selon des études récentes, près de 90 % des informations disponibles sur le Web ne sont pas indexées par les moteurs de recherches et sont donc à priori inaccessibles. Voici quelques outils qui vous permettront d'explorer un vaste réseau, riche en données souvent précieuses.
Le Web invisible n'a rien de mystique. II ne s'agit pas d'un endroit ou traînent les hackers, se cachant avant de passer à l'attaque. Le Web invisible, aussi connu sous le nom de Deep Web ou Web Profond en français, se caractérise par son immensité. Sur la masse phénoménale des informations générées chaque jour sur l'Internet, seul un dixième est accessible a l'internaute lambda. La faute aux moteurs de recherches, aux robots d'indexation et a l'architecture même de l'Internet qui ne permet pas de traiter tous les contenus de manière égale. L'exemple le plus frappant reste les fichiers Flash et PDF qui, il y a encore quelques années n'étaient pas référencés. Aujourd'hui il reste encore de nombreux fichiers qui ne sont pas pris en compte par les outils classiques de recherche. Les vidéos, les images en premier lieu ou les fichiers volumineux en font partie.
II existe quatre types de contenus qui composent le Web Invisible.
- De ces catégories, le Web Opaque est celui qui se rapproche le plus du Web visible. II concentre les pages peu ou mat référencées ainsi que les fichiers les plus conséquent puisque sur le Web, les pages de plus de 100 Ko sont peu utilisées.
- Le Web Privé représente quant à lui les pages qui sont volontairement cryptées par leurs auteurs. Les webmasters qui ne souhaitent pas que leurs pages soient aspirées, peuvent placer des scripts de protection dans des fichiers type robot.txt. De telles pratiques privent les sites de référencement et plongent inéluctablement le contenu dans les profondeurs du Web.
- Le Web Propriétaire est une autre catégorie qui regroupe les sites protégés par mot de passe, ou sécurisés.
- Enfin, il existe le Web dit « véritablement invisible ». II s'agit des contenus dont le format ne permet pas l'indexation. Les pages Web dynamiques dont l'URL n'est pas fixe ou encore les bases de données des bibliothèques ou des grands sites marchands.
A quoi sert le Web Invisible?
Il est difficile d'estimer la valeur du Web invisible, qui par définition n'est pas visible. Les chercheurs et spécialistes considèrent que le Web profond regorge de ressources de première main. Les entreprises devraient y trouver un grand intérêt puisque de nombreuses informations sur les concurrents circulent, de même que des informations sur les échanges B-to-B. Le niveau qualitatif des données serait même supérieur a celui du Web visible, trop vulnérable à la falsification des données Lors de recherches spécialisées sur un sujet donné, le Web invisible peut apporter de nombreux éléments introuvables ailleurs. Une multitude d'articles scientifiques, de publications universitaires, de livres blancs du marketing hantent les tréfonds de notre Web. Les entreprises sont les principales gagnantes, même si peu d'entre elles sont conscientes de l'existence d'un tel vivier. II devient très facile d'affiner sa stratégie grâce aux nombreux outils disponibles, veille concurrentielle ou collection d'information. Mais le citoyen lambda aussi y trouvera son compte, en plus d'une information de première qualité, il y trouvera des données que les gouvernements ont souhaite laisser filtrer. De la à tomber sur un dossier classe top secret du Pentagone... on ne sait jamais.
Les outils indispensables
De nombreux outils permettent très facilement de scruter la Toile cachée afin de découvrir ces informations rares et précieuses. Nous les avons classés en cinq catégories. Nous tenons cependant a vous prévenir que certaines recherches peuvent s'avérer fastidieuses, aux vues de l'immensité du domaine a découvrir.
Les serveurs de banques de données
Qu'est-ce que c'est?
II s'agit en réalité de gigantesques portails à la présentation souvent rétro, genre Web 1.0, qui regroupent de nombreuses bases de données classées par thèmes.
Ou les trouver?
- ABYZNewsLinks et Documentarium.info, pour les professionnels de l'information.
- Amf scrute les sociétés cotées au microscope.
Les moteurs spécialisés et métamoteurs
Qu'est-ce que c'est?
Ce sont des moteurs de recherches spécialisés dans un champ particulier, comme la science ou les sites commerciaux. Les métamoteurs sont de puissants sites qui utilisent plusieurs autres moteurs de recherches.
Ou les trouver?
- Turbo10 est certainement le plus connu, il cherche parmi plus de 800 moteurs de recherches profonds.
- Direct Search couvre le Web invisible et rapatrie des résultats parmi les publications ou les sites gouvernementaux.
- Surf Wax est sans doute le plus Web 2.0 puisqu'il permet de chercher au sein des feeds ou des blogs.
Les répertoires spécialisés
Qu'est-ce que c'est ?
Ces répertoires sont en réalité des catalogues regroupant des informations sur des sujets précis. Si vous n'avez jamais réussi a trouver une information en particulier, c'est ici.
Ou les trouver?
- US Copyright Catalog donne un accès toutes les informations sur tout ce qui a été a « copyrighté » aux Etats-Unis.
- National Gallery of Art vous propose d'accéder à de nombreuses oeuvres numérisées.
Les bases de données
Qu'est-ce que c'est ?
Vous pourrez accéder à l'information brute, ce sont de gigantesques piles d'informations regroupant des données gouvernementales, commerciales ou démographique.
Ou les trouver?
- Musée du Louvre regroupe les travaux du Louvre et un inventaire précis de toutes les oeuvres.
- Databases A-Z est une métabase qui vous permettra de chercher dans de multiples autres bases.
- LexisNexis est la référence en matière d'information. Des enregistrements aussi bien publics que prives sont disponibles.