María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen. |
Los buscadores son, sin duda, los instrumentos más utilizados para localizar información en Internet. Un buscador es, en realidad, una herramienta que gestiona bases de datos de URLs con distintos contenidos. Existen distintos tipos de buscadores:
El proceso llevado a cabo por cualquier sistema de búsqueda se puede resumir en las siguientes fases:
Tanto la recogida de datos como el análisis de los mismos pueden hacerse bien de forma manual, bien de forma automática. Para la recogida de datos manual, los Índices suelen presentar un cuestionario en línea para que la persona u organización que quiera darse de alta identifique y clasifique su página web. La mayor parte de los formularios de alta que ofrecen los distintos buscadores piden unos datos obligatorios que suelen ser: el título de la página, URL, descripción y clasificación del recurso; pero también pueden solicitar otro tipo de datos como descriptores o palabras clave, persona o entidad responsable de la página, tipo de información (académica, comercial, personal, informativa, etc.), localización geográfica, idioma, etc. La clasificación tiene como fin la inclusión del recurso en alguna categoría jerarquizada de las que luego se presentarán en el índice temático. Los responsables del buscador suelen analizar y evaluar si la información que provista y el contenido real se ajustan o no. Los motores de búsqueda suelen utilizar la recogida de datos automática rastreando la red, otros piden la dirección URL para darse de alta. Disponen de un robot que visita y analiza la página principal y todas las páginas enlazadas y que suele ser capaz de leer las etiquetas META o metadatos y extraer toda la información contenida en ellas mediante el lenguaje HTML. Sin embargo, muchas páginas no disponen de tales etiquetas. Con dicha información, el buscador es capaz de indizar palabras clave como el título, idioma, autor, propietario, localización, temas, etc. Existen sistemas de búsqueda que mezclan estas dos funciones y ofrecen tanto búsquedas por medio de un índice temático y búsquedas libres por palabras clave. Un buen sistema de búsqueda debe permitir flexibilidad en las búsquedas ofreciendo la posibilidad de elegir entre búsquedas mediante clasificación temática o por medio de formularios. Los formularios deben ofrecer tanto búsquedas sencillas como búsquedas más complejas que permitan algún tipo de herramientas como truncado de palabras, operadores booleanos, términos compuestos, acotación de búsquedas, etc. y con diferentes campos de búsqueda en los que se requiera lenguaje libre o controlado (título, palabras clave, idioma, localización, tipo de información, etc.). También deben ser capaces de controlar el vocabulario para deshacer ambigüedades, sinonimias, polisemias, etc. Además, los sistemas de búsqueda, deben presentar los resultados de la búsqueda de una forma también flexible permitiendo varios criterios de aparición y ordenación de los datos y ofreciendo diferentes formatos para que el usuario elija el que se ajusta a su gusto y necesidades. Se pueden establecer una serie de criterios para que una página web pueda ser indexada de forma automática.
El funcionamiento de un buscador se basa en una tecnología algo compleja ya que intervienen diferentes herramientas que se ocupan de funcionalidades distintas. La arquitectura de un buscador se basa en 4 elementos fundamentales:
Fuente: LÓPEZ FRANCO, José Manuel.
Funcionamiento de un buscador. Del funcionamiento de un buscador podemos extraer la conclusión de que existen 2 procesos distintos para hacer posible la búsqueda de información: la recopilación de información (que incluye el rastreo, análisis de las páginas, indización y clasificación de las mismas), y la recuperación en sí misma. La recopilación puede ser manual (en algunos casos se incluyen las páginas en el índice del motor de búsqueda previo pago), pero los potentes motores de búsqueda actuales llevan a cabo la recopilación de información de forma automática por medio de robots y agentes y atendiendo a factores diversos como la popularidad de las páginas, haciendo uso de los metadatos embebidos en los documentos, extrayendo palabras del propio contenido, etc. Los robots no son más que programas que rastrean la estructura hipertextual de la Web, recogen información sobre las páginas, indizan la información, la clasifican y conforman una base de datos que es a la que posteriormente acudirán los motores para buscar la información. Los robots o herramientas que recopilan las páginas web para formar los índices de los motores de búsqueda han adoptado distintas y variadas denominaciones, pero todas ellas tienen que ver con la metáfora de la World Wide Web como telaraña o espacio a recorrer y en la cual los robots se mueven y diseminan como virus: "crawlers" (orugas), "spiders" (arañas), "worms" (hormigas), "walkers" (paseantes), etc. La labor de indización también puede realizarse de forma manual, de forma automática, o combinando ambos métodos. Y la información puede extraerse bien de los datos que proporcionan los autores, como del propio documento, extrayendo la información expresada en metadatos, metadescripciones y palabras clave; o buscando en el propio contenido del documento, en el título, encabezados, analizando los enlaces, frecuencia de ciertas palabras, haciendo búsquedas a texto completo, etc. En este sentido, el funcionamiento de los motores de búsqueda varía sustancialmente de unos a otros y, mientras que algunos realizan un rastreo superficial, otros por el contrario, realizan un rastreo profundo, cuentan con soporte para marcos o frames, rastrean los enlaces por popularidad, tienen capacidad para aprender de la frecuencia con que se modifican las páginas, cuentan con capacidad para rastrear imágenes y texto alternativo, etc. También los índices que conforman los motores de búsqueda varían en su complejidad. En algunos se trata de una simple lista de palabras que describen el contenido de las URL indizadas o de un fichero inverso, sin embargo, cuando el índice es muy extenso, se presentan numerosos problemas para gestionarlo y se deben introducir una serie de técnicas que permitan reducir el tamaño de la base de datos, como suprimir las palabras vacías, eliminar las palabras derivadas (lematización), convertir las mayúsculas a minúsculas, etc. Una característica de estos índices es la llamada granularidad, que permite evaluar la precisión de dichos índices puesto que mide la exactitud con la que un índice localiza una palabra o descriptor. G. Chang estable los siguientes niveles de granularidad:
Google es de los pocos motores de búsqueda que ha hecho público el funcionamiento de su sistema y el algoritmo (PageRank) con el que lleva a cabo su ranking de resultados. Este motor de búsqueda no sólo tiene en cuenta los enlaces incluidos dentro de una página web, sino también los enlaces que apuntan hacia esa página desde el exterior. Así pues, Google hace uso de la conectividad, una de las principales características de la hipertextualidad de la Web para calcular el grado de calidad e importancia de cada página. Este motor de búsqueda se compone de 2 módulos que llevan a cabo la indización: un indexador y un clasificador. El primero lee las páginas y los enlaces, los analiza y selecciona; y el segundo resume el documento en un conjunto de palabras y le otorga un orden de posicionamiento, alineamiento o PageRank. Cuantas más veces aparezca enlazada una página web, mayor será su importancia y relevancia. Esta idea es similar a la que se utiliza dentro de la comunidad científica que ofrece una mayor relevancia a las obras y autores que son más citados y referenciados por otros autores y en otras obras distintas. Existen 2 parámetros que condicionan el posicionamiento de las páginas web en los resultados que ofrece un buscador: relevancia y popularidad. Se denomina relevancia a la importancia que tiene una página con respecto al criterio de búsqueda introducido en la consulta. Los motores de búsqueda muestran los resultados ordenados por relevancia de mayor a menor. Por su parte, por popularidad se mide bien por medio de la cantidad de visitas que recibe una web, o bien mediante la cantidad de enlaces que apuntan hacia esa web. La tendencia actual es primar la popularidad, pero sin olvidar la relevancia de las páginas que enlazan a la web referente a las mismas palabras clave. Por otro lado, para determinar la relevancia y la posición, cada vez se tiene más en cuenta la calidad y origen de los enlaces frente a la cantidad para mostrar los resultados ordenados de una búsqueda. Algunos buscadores como Google, tienen en cuenta el texto que sirve de anclaje de inicio como una inferencia para calcular la relevancia de la página de destino. Esto ha conducido a que muchos internautas utilicen esta funcionalidad con el fin de obtener resultados curiosos o jocosos, puesto que si muchas páginas apuntan como destino a un término -aunque este no conste en el propio documento enlazado- se considera que éste es enormemente relevante en dicha materia. Así, si como anclaje de inicio de un enlace se utiliza la palabra "ladrones" y como destino, se toma la URL de la Sociedad General de Autores y Editores, se considera que la SGAE es una autoridad en la materia, aunque la SGAE no contenga la palabra "ladrones" en ninguna de sus páginas.
Resultados obtenidos tras la consulta:
ladrones en el buscador Google: Los algoritmos utilizados para mostrar las páginas de resultados se pueden agrupar en 3 tipologías fundamentales:
Estas tipologías no son excluyentes y muchos motores de búsqueda combinan estos modelos. Ninguno de los principales buscadores presentes en Internet es capaz de indizar los millones de páginas que pueblan la red. Además, cada uno de ellos ofrece funcionalidades y características distintas, por lo que la elección de utilizar uno u otro se deberá basar en preferencias relacionadas con las opciones de búsqueda que ofrezcan, capacidad para búsquedas avanzadas, preferencias en el diseño y funcionalidades de las interfaces de consulta y resultados, si ofrecen herramientas de ayuda para realizar las consultas, grado de exhaustividad, pertinencia, refinamiento y cobertura, frecuencia en la actualización de la base de datos, descripción y resumen de páginas que ofrezcan, agilidad en la muestra de resultados, etc. También hay que tener en cuenta que, además de los buscadores generalistas, existen una serie de buscadores especializados que ofrecen resultados adaptados a áreas concretas y específicas de búsqueda. En general, se pueden dar una serie de reglas para utilizar uno u otro tipo de buscador:
En resumen, el análisis de los distintos motores de búsqueda debe hacerse teniendo en cuenta diferentes perspectivas:
En cuanto a la utilización de buscadores para un hipertexto fuera de la red, existen numerosas herramientas y aplicaciones disponibles para crear nuestra propia herramienta de búsqueda. Una exhaustiva lista de herramientas de búsqueda para webs e Intranets se puede encontrar en Search Tools Products Listings in Alphabeticarl Order: http://www.searchtools.com/tools/tools.html
Bibliografía:
AGUILAR GONZÁLEZ, Rogelio. Monografía sobre motores de búsqueda. Yahoo, Geocities, 2002. http://www.geocities.com/motoresdebusqueda/introduccion.html BOSWELL, Wendy. Web Search. http://websearch.about.com/ CANDEIRA, Javier. "La web como memoria organizada: el hipocampo colectivo de la Red". En Revista de Occidente, Nº 239, marzo 2001.
CHANG, G. et al. Mining the World Wide Web:
An information
search approach. Norwell, Massachusetts, Kluwer Academic Publishers, 2001.
CODINA, Lluís y PALMA, María del Valle. "Bancos de imágenes y sonido y motores de indización en la www". Revista Española de Documentación Científica, Vol.24, núm.3, 2001. http://www.cindoc.csic.es/redc/redc.html
Infobuscadores.com http://www.infobuscadores.com/ LÓPEZ FRANCO, José Manuel. Integración de tecnologías a través de servidores web. http://trevinca.ei.uvigo.es/~txapi/espanol/proyecto/superior/memoria/memoria.html LÓPEZ YEPES, Alfonso. "Bancos de imágenes en Internet". Red Digital. Revista de Tecnologías de la Información y Comunicación Educativas, núm. 3, enero 2003. http://reddigital.cnice.mecd.es/3/firmas_nuevas/informes/infor_yepes_res.html MALDONADO MARTÍNEZ, Ángeles; FERNÁNDEZ SÁNCHEZ, Elena. Evaluación de los principales ‘buscadores’ desde un punto de vista documental: Recogida, análisis y recuperación de recursos de información. En FESABID VI Jornadas Españolas de Documentación. http://fesabid98.florida-uni.es/Comunicaciones/a_maldonado/A_Maldonado.htm MARTÍNEZ MÉNDEZ, Francisco Javier. Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet. Tesis doctoral. Universidad de Murcia, 2002. http://cervantesvirtual.com/FichaObra.html?Ref=10010&ext=pdf
Search
Tools for Web Sites and Intranets. Home Page.
http://www.searchtools.com/index.html
TRAMULLAS, Jesús. Localización y acceso a la información:
http://www.tramullas.com/ri/index.html
TRAMULLAS, Jesús. "Sección 3:
La recuperación de información”. En Introducción a la Documática.
http://tek.docunautica.com/
TRAMULLAS, Jesús. "Sección 4. Sistemas informáticos de
tratamiento y recuperación de información documental". En Introducción
a la Documática.
http://tek.docunautica.com/
Trucos de
Google, buscadores y gestión documental.
http://trucosdegoogle.blogspot.com/
Web Indicators Portal.
http://www.webindicators.org/
Tipos de Buscadores
URL:
http://www.hipertexto.info
Fecha de Actualización:
08/12/2013
Fundación Ricardo Lamarca, Ajedrez y
cultura
http://www.fundacionlamarca.es
Mapa de navegación
/ Tabla de contenido /
Mapa conceptual /
Tabla de documentos /
Buscador /
Bibliografía utilizada / Glosario de Términos /
Índice Temático /
Índice de Autores
|
|