3 de noviembre de 2015

WEB SUPERFICIAL Y WEB PROFUNDA

Con los motores de búsqueda tradicionales sólo podemos acceder a una pequeña parte de lo que existe en la red, lo que se ha comenzado a llamar la web superficial o visible. Pero existe una gran parte de información, un amplísimo banco de datos y artículos que están ubicados en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un registro (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web superficial


Es la Web visible, lo que se conoce como la www. Está formada por páginas públicamente accesibles, lo que aproximadamente tan sólo es un 17% de toda la información existente en la red.
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.

Estos sitios se caracterizan por:
  • Su información no está contenida en bases de datos.
  • Son de libre acceso (no hay que registrarse para acceder).
  • Generalmente está formada por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace.).

La Web profunda

Comprende toda la información disponible en Internet que no es recuperada a través de los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos. Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.
Para poder acceder a la información disponible en estas bases de datos, hay que hacer consultas a través de páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
PARA QUE LO SEPAS:  Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas. Contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente. La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.
Otras causas de la invisibilidad de sus páginas son:
  • Sus contenidos son de acceso limitado, sólo para usuarios registrados, por lo que está limitado el acceso a sus contenidos.
  • Las páginas sólo son accesibles a través de enlaces producidos por Javascript o Flash, que requieren un tratamiento especial.
  • Los archivos no son textuales.
  • Sus páginas no tiene vínculos entrantes desde otras páginas, sus contenidos no están enlazados.
Se pueden distinguir cuatro tipos de contenidos invisibles en la Web:

La Web opaca
Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
  • Extensión de la indización: No todas las páginas de un sitio están indexadas en los buscadores.
  • Frecuencia de la indización: A diario se agregan y modifican muchas páginas y los buscadores indexan de forma periódica, por lo que no pueden indexar todas las existentes.
  • Limitación del Número máximo de resultados visibles: Los buscadores normalmente muestran entre 200 y 1000 documentos.
  • URL’s desconectadas: Los buscadores presentan los resultados en base a la cantidad de veces que aparecen referenciados en otros. Si un documento no tiene un link a él desde otro, será imposible encontrarlo.

La Web privada

Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
  • Las páginas están protegidas por contraseñas (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
PARA QUE LO SEPAS: Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.

La Web propietaria

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

La Web realmente invisible

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
  • Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales y no puede ser extraída a menos que se realice una petición específica.
PARA QUE SEPAS MAS:
  • Algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada.
  • Es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante.
  • Existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas.
  • El contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos.
  • El contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas.

¿Qué documentos forman parte de la web profunda?

  • Bibliotecas: Digitales, catálogos de bibliotecas, bases de datos d bibliotecas, bases de datos bibliográficas.
  • Bases de datos y directorios de bases de datos.
  • Revistas electrónicas en las que es necesario registro previo y las que sólo se puede recuperar su información mediante búsquedas en su base de datos. Archivos de documentos.
  • Documentos de formatos no indexables: pdf, ppt, doc, mp3 wav, avi, mpeg...
  • Catálogos de editoriales o directorios de publicaciones periódicas.
  • Archivos de instituciones y organismos de gobierno.
  • Repositorios de artículos de revistas, tesis y literatura gris.
  • Guías de sitios, revistas electrónicas, obras de referencia: enciclopedias, diccionarios, tesauros, etc.
  • Foros, blogs, diarios de noticias.
  • Páginas blancas/amarillas, directorios.
  • Organismos públicos de gobierno, ONGs, etc, que en sus sitios web disponen de consultas a sus bases de datos.

Recursos de búsqueda en la Web profunda por tipo de recurso:

Buscadores
Scirus, WebSearch

Metabuscadores
iBoogie, Fazzle, Ixquick, Search.Com

Directorios de buscadores
AlphaSearch

Directorios de bibliotecas
Libdex, LibraryPlanet, UNESCO Libraries Portal

Directorios
CompletePlanet, Direct Search, HotSheet, IncyWincy, InternetInvisible, Librarians Index, Master Link List On the Internet, RefDesk.com, Webfile.com, Where to Do Research

Directorios anotados
AcademicInfo, Resource Discovery Network

Directorios de bases de datos
WebData.com

Guías
About, LibrarySpot

Motores avanzados
Deep Query Manager (sustituye a Lexibot), FeedPoint, Search4science, Strategic Finder

3 comentarios:

  1. Hola me gusta tu presentacion de tu blog , pero veo que tienes experiencia en html.
    por los cuadros que realizaste en tu blog me podrias decir como lo hiciste...

    ResponderEliminar
    Respuestas
    1. ¿Sabes algo de lenguaje HTML? Porque si sabes, me será más fácil explicarte.

      Eliminar
  2. Hola me gusta tu presentacion de tu blog , pero veo que tienes experiencia en html.
    por los cuadros que realizaste en tu blog me podrias decir como lo hiciste...

    ResponderEliminar