Alexandria

El blog de una documentalista en el que se pretende compartir conocimiento y direcciones de interés.

lunes, marzo 07, 2005

La Internet Invisible

De forma breve y siguiendo con la idea de aportar recursos para la recuperación de información en la Web, no debemos dejar de hablar de la "Internet Invisible" o "Deep Web".

Se trata de un conjunto de sitios y páginas Web que no pueden ser indizados por los motores de búsqueda de uso público. Este sector se estima que acapara el 70% de la World Wide Web, con un 50% más de tráfico que la parte visible de la Red. Dentro de este grupo podemos hablar de OPACs , callejeros, sitios que precisen de una password, etc.

Podemos resumir diciendo que la Web Invisible está formada por aquellas páginas que no tengan enlaces (dado que normalmente los "crawler" suelen llegar a ellas saltando de un link a otro), todos aquellos sitios que necesiten que un usuario se valide (login/password), como es el caso de formularios, y por último, todos aquellos documentos que, hasta hace poco tiempo, no eran indizados por los motores como los pdf, doc, ppt, etc., aunque ésto último ha salido "a la luz" gracias a iniciativas como la de Cite Seer (actualmente el sitio no funciona) o la "colaboración" que ha firmado Google con esta empresa para poder recuperar aquellos documentos del ámbito académico, a la cual se puede acceder medianteGoogle Scholar.

Algunas iniciativas que se han puesto en marcha para dar acceso de una forma más sencilla esta parte de la Web son:


Internet Invisible (Sitio web español)
Direct Search
Turbo10
Invisible Web
Librarian's Index to the Internet
Infomine
Web Brain
Science.gov
WebBrain