• La Red profunda

18/01/07

A la pesca en las profundidades de la Web

Hector D. Calabia

Estamos tan acostumbrados a que Google «nos encuentre todo», que generalmente olvidamos que hay una inmensa cantidad de información en la Web que Google no nos puede presentar.

La Web es en realidad una inmensa «telaraña» de recursos entrelazados mediante vínculos HTML. Para ayudarnos a encontrar lo que nos interesa en esa inmensa red, los buscadores —como Google— van de sitio en sitio siguiendo los enlaces, e «indexándolos», es decir, generando un enorme índice de todos los sitios que encuentran. Esto hace fácil encontrarlos luego. Cuando, por ejemplo, escribo la palabra «Madrid» en un buscador, éste busca en su índice y me trae todos los enlaces que encuentra sobre la capital de España, y también sobre otras cosas que tengan ese nombre.

Pero esta red es solo la superficie. Por «debajo» hay una enorme cantidad de recursos que no indexan los buscadores. ¿Por qué? Fundamentalmente, por dos razones:
1. Pertenecen a sitios protegidos por contraseña.
o bien
2. Están almacenados en bases de datos.

En el primer caso, poco pueden hacer los llamados «robots» buscadores. El pedido de contraseña es una barrera infranqueable en la mayoría de los casos, y los contenidos que están detrás de esa puerta nunca llegan a los índices. Claro que la contraseña también sería un obstáculo para nosotros; pero a veces, si uno sabe que cierto material existe (si estuviera indexado), estaría dispuesto a pagar para obtenerlo o, al menos, a registrarse en el sitio para poder explorarlo. Pero, por ahora, muchísimos datos quedan excluidos porque están detrás de una contraseña de acceso.

En el segundo, las páginas no están realmente en la Web, sino que son generadas por bases de datos, en respuesta a las consultas de los usuarios. Es el caso de muchísimos sitios, como este, que tienen un botón de «Buscar». Los robots no pueden escribir consultas en campo de búsqueda y, por lo tanto, no pueden investigar lo que allí se guarda. Muchas de las páginas de este tipo se identifican porque traen un signo de interrogación (?) en el URL que generan. Otros sitios, como este mismo, aunque utilizan bases de datos, mantienen una dirección URL «permanente» para cada artículo, lo cual elimina su «invisibilidad».

También puede ser que se trate de recursos en formatos no HTML, como documentos de Word, PDF, Power Point, o de imágenes; aunque Google hace un buen esfuerzo por indexar estos recursos.

Existen también a disposición de los responsables de sitios Web recursos como los «Google sitemaps» y el protocolo OAI-PMH que permite a los buscadores descubrir recursos web nuevos, modificados y eliminados con mayor eficiencia. Ayudan también a esto los nuevos gestores de contenidos, que ya hemos comentado en esta Web.

La «Web invisible» no es lo mismo que la llamada «Internet oculta» que son servidores a los cuales no se puede acceder mediante los modos habituales de navegación por la red. Los servidores de la Web invisible son todos accesibles, pero muchas veces «ocultan» la información a los usuarios comunes o no facilitan el trabajo de los buscadores.

Recursos para investigar «La Web invisible» tiene muchas veces más información que la «Web de superficie», la que indexan los buscadores. Un informe de la consultora Bright Planet indican que puede llegar a ser quinientas veces mayor.

De manera que, cuando se está investigando un tema, conviene no olvidar que los resultados de Google no son completos, y mantener la palabra «database» (base de datos) en mente.

Una forma fácil de ampliar la búsqueda es incluir la palabra «database» en la consulta. Por ejemplo:

minería database
recursos naturales database
cinematografía database

Esto muchas veces ayuda a encontrar, al menos, la mención a publicaciones y artículos. Puede ser que no estén libremente disponibles, pero al menos, sabrás que están allí.

En algunos casos, las instituciones públicas (universidades, bibliotecas y centros de investigación) pueden estar suscritas a ciertas bases de datos internacionales, y puede irse allí a consultarlas.

——————————————————

Comentarios

  1. NVuPrw slgmqplevdur, [url=http://wxncnhqhzkls.com/]wxncnhqhzkls[/url], [link=http://hqzxchkvehvv.com/]hqzxchkvehvv[/link], http://hvosywfpidpb.com/

    nhuwquimk · mar 25, 02:36 · #

Ayuda Textile

<<——>>