|


Los sistemas de recuperación de
información (Information Retrieval Systems) ofrecen al usuario
herramientas para la búsqueda, acceso y recuperación de recursos en soporte
informático. Estos sistemas son capaces de crear y gestionar fuentes y recursos de
información. En los entornos empresariales se habla también de sistemas de
gestión documental, aunque este término, usado para denominar todo el sistema
que facilita el control y gestión de toda la documentación recibida por una
unidad, es mucho más impreciso.
Ya hemos hablado de que la
información a recuperar puede ser de 2 tipos:
Según Blair,
estos dos tipos de información "data retrieval"
(recuperación de datos, RD) e "information retrieval" (recuperación de
información, RI), necesitan una gestión y un tratamiento de la información
distinto:
Siguiendo a Blair, las diferencias entre estos dos sistemas se pueden
establecer teniendo en cuenta los siguientes criterios:
-
Según la forma de responder a la pregunta: en RD se
utilizan preguntas altamente formalizadas, cuya respuesta es directamente la
información deseada. En RI las preguntas resultan difíciles de trasladar a
un lenguaje normalizado, y la respuesta es un conjunto de documentos que
pueden contener, sólo probablemente, lo deseado, con un evidente factor de
indeterminación.
-
Según la relación entre el requerimiento al sistema y la
satisfacción de usuario: en RD la relación es determinante entre la
pregunta y la satisfacción. En RI es probabilística, a causa del nivel de
incertidumbre presente en la respuesta.
-
Según el criterio de éxito: en RD el criterio a
emplear es la corrección y la exactitud, mientras que en RI el único
criterio de valor es la satisfacción del usuario, basada en un criterio
personal de utilidad.
-
Según la rapidez de respuesta: en RD depende del
soporte físico y de la perfección del algoritmo de búsqueda y de los
índices. En RI depende de las decisiones y acciones del usuario durante el
proceso de interrogación.
Estos 2 sistemas de tratamiento de la
información (datos y documentos) han seguido, tradicionalmente 2 modelos de
tratamiento de la información distintos:
-
Modelo
relacional:
característico de los sistemas de gestión administrativa. Este modelo se basa en
la utilización de una serie de tablas que
almacenan la información relativa a un conjunto de datos relacionados. Las tablas
se organizan en filas y columnas que definen los registros y los
campos. Las tablas pueden relacionarse entre sí a partir de campos comunes lo
que garantiza su versatilidad.
-
Modelo
textual:
es el modelo más apropiado para
tratar documentos. Se basa en el "fichero invertido" y
en campos de extensión variable con valores repetidos. Cada
cadena de caracteres puede ser punto de acceso al registro, lo cual constituye
una de las principales diferencias con el modelo relacional. El registro se
constituye así como representación del documento original y, a la vez, cada término
o palabra puede servir de punto de acceso al documento.
Sin embargo, tanto los modelos de gestión
de bases de datos, como los modelos que tratan documentos han evolucionado
enormemente en los últimos años debido, sobre todo, a la necesidad de adaptarlos
para su uso en red y, más concretamente, en la World Wide Web. Veamos pues, con más detalle, las características y peculiaridades de estos dos
sistemas de tratamiento y recuperación de información.
Sistemas de Gestión de Bases de Datos (SGBD)
Los SGBD
también llamados DBMS por sus siglas en inglés: DataBase
Management Systems, no manipulan documentos, sino que manipulan registros.
Un Sistema de Gestión de Bases de Datos es un programa o aplicación capaz de gestionar adecuadamente las
bases
de datos. Actualmente casi todos los SGBD implementan los conceptos
descritos en la teoría relacional. Un SGBDR (sistema gestor de bases
de datos relacional) almacena la información en tablas organizadas
lógicamente que se enlazan definiendo relaciones y contienen datos. El lenguaje
de consulta SQL (Structured Query Language), que ha sido
estandarizado por la ISO, proporciona la recuperación y gestión de estos datos.
Generalmente las bases de datos manejan transacciones que
deben cumplir una serie de propiedades, a las que, comúnmente, se les suele
denominar como propiedades ACID (Atomicity, Consistency, Isolation, Durability):
-
Atomicidad:
garantiza que o se ejecutan todas las acciones, o no lo hace ninguna.
-
Consistencia: garantiza que,
aunque haya muchos usuarios accediendo a la base de datos de manera
concurrente, se mantenga la integridad de la
información.
-
Aislamiento: garantiza que las transacciones que se
están realizando concurrentemente en el sistema no interfieran entre ellas.
-
Durabilidad: garantiza que una
transacción que finaliza correctamente queda adecuadamente reflejada. Además,
el
sistema será capaz de recordar todas la transacciones que han sido realizadas.
Los sistemas de gestión de bases de
datos más conocidos son, entre otros:
Y existen otros muchos programas gratuitos que se pueden
encontrar en cualquier sitio de descargas de software que existen en la
Web.
Sin embargo, los sistemas de gestión de bases de datos
que más se utilizan en la actualidad son los que se pueden integrar en la red,
entre los que destacan:
-
MySQL: se trata de la base de datos relacional
de código abierto más popular en Internet. Existen distribuciones para distintas
plataformas (Win32/NT, Unix/Linux), y en muchas de ellas, como Red Hat Linux, se
instala por defecto. Actualmente es propiedad de una empresa sueca llamada MySQL AB, que se encarga de su desarrollo y ofrece servicios auxiliares
de consultoría y soporte técnico. El software es gratuito, pero, su uso
en algunas aplicaciones está sujeto a licencia de pago.
-
mSQL (Mini SQL): se trata
de un gestor de bases de
datos ligero, diseñado para proporcionar acceso rápido a conjuntos relativamente
pequeños de datos almacenados en sistemas con poca memoria. Implementa un
subconjunto de SQL e inicialmente fue desarrollado como un proyecto académico en
código abierto. http://www.hughes.com.au
-
PostgreSQL: es un gestor de bases de datos
Relacional-Objetual. Es uno de los sistemas de gestión de bases de datos
relacional de código abierto más antiguos, pues la primera versión data de 1985. Está muy
extendido en el mundo Unix/Linux ya que muchas distribuciones Linux, como
Red Hat lo instalan por defecto, aunque existen versiones para plataformas
Windows. Soporta casi todas las construcciones SQL, tiene una amplia
conectividad y una gran diversidad de herramientas disponibles.
http://www.postgresql.org
-
Microsoft SQL Server:
aunque Microsoft cuenta con productos de escritorio para gestión de bases de
datos como Access, este es el sistemas de gestión de bases de datos más
potente. Se integra en la nueva plataforma .NET y funciona sobre
Windows NT/2000.
http://www.microsoft.com/sql/default.asp
-
Informix: las herramientas y
productos de Informix han estado presentes en el mercado de bases de datos de
forma constante, pero hoy esta empresa ha sido adquirida por IBM.
http://www.informix.com
-
Sybase Adaptative Server:
proporciona una plataforma diseñada para soportar aplicaciones que utilizan
transacciones de manera intensiva.
http://www.sybase.com
-
Sistemas Oracle: existen un
gran número de sistemas desarrollados por la empresa Oracle, una de las compañías que
desarrollan bases de datos que tienen una mayor presencia en la Web actual.
Se trata de sistemas muy potentes, configurables, escalables y confiables
y que proporcionan bastantes funcionalidades, muchas de ellas no soportadas por
los sistemas de gestión de bases de datos de código libre. Sin embargo, no son
gratuitos y debido a las grandes posibilidades de configuración que ofrecen,
y sólo pueden ser utilizados por expertos.
http://www.oracle.com/
De los 6 sistemas anteriores, los 3 primeros son libres y
el resto son soluciones comerciales de pago. Una de las tendencias más claras en
la Web actual es integrar el acceso a datos en los servidores de
aplicaciones. Esta tendencia llevada a sus extremos hace que casi todos los
fabricantes de sistemas de gestión de bases de datos comerciales
ofrezcan sus propios servidores de aplicaciones que se integran a bajo nivel con
los productos de bases de datos de la misma empresa. Como ejemplos Sybase
Enterprise Server y Oracle Application Server.
Tanto los sistemas de tratamiento y
recuperación de información documental (STRID) como los sistemas de bases de datos (SGBD)
tienen las mismas bases teóricas, aunque estos últimos sean más rígidos y
sujetos a normas fijas por tratar datos más precisos y homogéneos. Lo corriente
es que aparezcan programas y aplicaciones mixtas que adoptan técnicas comunes a
ambos. Lo cierto que todos estos sistemas de recuperación de información
son posibles gracias a la existencia de programas y aplicaciones que ejecutan
ecuaciones de búsqueda y que son capaces de de trasladar una pregunta del
usuario realizada en lenguaje natural, a los
lenguajes documentales
Sistemas de Tratamiento y Recuperación de Información
Documental (STRID)
Los sistemas de tratamiento y recuperación de información documental (STRID)
manipulan documentos, esto es, construcciones cognitivas que representan
creaciones humanas. Entre estos sistemas podemos destacar:
-
Sistemas de gestión de bases de datos documentales (sistemas
que automatizan las características de los sistemas tradicionales de creación
y gestión de bases de datos, control de usuarios, etc.)
-
Indizadores (sistemas que crean ficheros índice y que
permiten la recuperación posterior utilizando operadores booleanos)
-
Exploradores o escáneres (sistemas que pueden realizar
búsquedas mediante cadenas de caracteres sin necesidad de crear ficheros
inversos o diccionarios, a veces combinan la exploración con la indexación)
-
Gestión bibliográfica (sistemas especializados para la
gestión y tratamiento de bibliografías especializadas)
-
Recuperación de información (programas que permiten la
consulta en bases de datos documentales no modificables, generalmente
publicados en
CD-ROM u ofrecidos por proveedores de bases de datos en línea)
-
Sistemas hipertextuales (como forma de gestionar los
documentos)
-
Sistemas de gestión electrónica de documentos (GED) (sistemas
que ofrecen una solución administrativa de gestión integral. El
Grupo de Trabajo
sobre Gestión Electrónica de Documentos del SEDIC ha elaborado una
lista de Productos de Gestión electrónica documental que se pueden
encontrar en España: http://www.sedic.es/prodweb.xls)
-
Gestores de información personal
-
Sistemas integrados para unidades de información (ofrecen
soporte a todas las operaciones que tienen lugar en una unidad informativa
concreta como un archivo, biblioteca o centro de documentación; tanto en los
aspectos técnicos como administrativos)
-
Sistemas de gestión de
bases de conocimiento: también
conocidos como KBMS o Knowledge Base Management System. Mientras que una base
de datos almacena datos, esto es, hechos del universo del discurso para
facilitar la edición y consulta de los datos, una base de conocimiento puede
almacenar, además de los hechos, un conjunto de reglas que se sirven de esos
hechos para obtener información que no se encuentra almacenada de forma
explícita, sino que es fruto de aplicar una cierta capacidad de deducción a
partir de la información contenida. Por esto, estas bases de conocimiento
también se han denominado sistemas expertos.
En realidad, el término base de conocimiento es un término informal para
referirse a una colección de información que incluye una
ontología como uno de sus componentes. Una
base de conocimiento debe contener información especificada en un lenguaje
declarativo tal como reglas lógicas o sistemas expertos, aunque también incluye
información no estructurada o formalizada expresada en lenguaje natural o código procedural.
Así pues, muchas de las herramientas
citadas en este tesis en relación a la construcción de
ontologías o algunos
paquetes de programas que incluíamos a la
hora de citar herramientas para construir
tesauros son, en realidad, sistemas de gestión de
bases de conocimiento.
Un sistema STRID se basará en:
- Creación de bases de datos documentales
- Introducción/edición de documentos
- Recuperación de información
- Salida de información
- Análisis de respuesta
- Creación de distintos perfiles de usuario
- Mecanismos de control terminológico
- Ayuda al usuario
- Otras funciones como acceso a múltiples
usuarios, niveles de seguridad, recuperación de archivos, etc.
Los
elementos característicos de una base de datos documental son:
- Modelo de registro textual integrado por campos de extensión
variable basado en un diccionario de datos.
- Fichero invertido.
- Diccionarios de control de indización (diccionarios de palabras vacías,
diccionarios de sinónimos, diccionarios de autoridades)
- Sistema de recuperación basado en el álgebra de Boole que permita
realizar combinaciones lógicas entre conjuntos de documentos
- Sistema de recuperación basado en relaciones entre cadenas de
caracteres.
Subsistemas de un Sistema
de Tratamiento y Recuperación de Información Documental son, según
Lancaster y Warner son:
- De selección de documentos
- De indización
- De vocabulario
- De búsqueda
- De interacción hombre-máquina
- De comparación
Como ya hemos afirmado, una fase más avanzada en la recuperación de información
son los llamados sistemas de gestión de bases de conocimiento basados en la
utilización de ontologías,
tesauros y otros sistemas de gestión del conocimiento, todos ellos
constituyen lo que se ha denominado sistemas expertos, aunque también podemos
citar
el llamado KD o Knowledge
Discovery, basado en:
- Enfoque de Data Mining o minería de datos
(también existe el Web Mining para referirse al descubrimiento de la
información en la Web)
- Descubrir patrones y asociaciones ocultas entre los datos y documentos
- Ofrecer al usuario información relacionada
- Ofrecer al usuario nuevas relaciones
La evaluación de cualquier sistema de tratamiento y
recuperación de información para por su capacidad para manipular información
textual o de otro tipo (imágenes,
audio, etc.), los métodos de
indización y clasificación
empleados, los mecanismos, ecuaciones de búsqueda, interfaces y lenguajes de
interrogación que ofrece, los resultados obtenidos en la recuperación:
pertinencia, exhaustividad, etc. Muchos sistemas añaden a estas funcionalidades
la capacidad de recuperación mediante exploración hipertextual e incluso son
capaces de generar modelos visuales de representación, a modo de
mapas de conocimiento, para mostrar el contenido
relevante.
Gestores de información
Entre los sistemas de gestión documental más conocidos se
encuentran los productos y aplicaciones de FileMaker,
Knosys,
el software
CDS/ISIS
desarrollado por la UNESCO o los productos de la compañía
Inmagic, que cuenta con
varias soluciones como
DB/TextWorks,
DB/Text
WebPublisher o
DBText
Intranet Spider. Todos estos sistemas cuentan con pasarelas web
para permitir las consultas, desde el
navegador web, a las
bases de datos creadas por ellos. Es de destacar
también el software multilingüe de fuente abierta
Greenstone
Digital Libraries
(http://www.greenstone.org/cgi-bin/library)
que sirve para crear y distribuir colecciones de bibliotecas digitales.
También existen otra serie de herramientas muy sencillas y
menos conocidas,
algunas de ellas de libre disposición, pero que cuentan
con un gran
potencial para gestionar documentos en diferentes
morfologías de información: texto,
imágenes, audio, etc. Las más potentes sirven también para gestionar sitios web y
permiten clasificar los documentos,
indizarlos, hacer tablas de contenido,
realizar búsquedas, etc. Algunos incluyen hasta diccionarios y
tesauros.
No cabe duda de que la forma hipertextual
es en sí misma una herramienta para organizar y gestionar la información. A muchos de estos
programas también se les denomina herramientas de autor, porque sirven para
gestionar a pequeña escala nuestros propios
hiperdocumentos.

TreePad
http://www.treepad.com

Catalogador
CatalogaTodo
http://www.personal/telefonica.terra.es/web/quinipan

Catalogador
http://www.yursuf.com

Catalogador Cathy
http://rvas.webzdarma.cz

CD Database Expert
http://www.cddexpert.com

CD Catalog Expert
http://www.zero2000.com

Collectibles Organizer Deluxe
http://www.primasoft.com/deluxepr/clodx.htm
 
Advance File Organizer
http://www.softprime.com y
Archivero Digital.
http://www.fonomax.com/archivero (permite exportar a HTML)

InsideCat Lite Edition
http://www.inside.com

Maple
http://www.crystaloffice.com

Ejemplo de Maple con la Tabla
de contenidos de esta tesis
Incluso el programa de
Microsoft HTML Help
Workshop que es el estándar para elaborar las Ayudas en Windows, permite
catalogar, indizar, hacer tablas de contenido y búsquedas de nuestros documentos
tanto en formato texto como HTML y permite otros lenguajes como, ActiveX,
Java, JScript y Microsoft Visual Basic, formatos
de imagen: .jpeg, .gif, y .png. He aquí un ejemplo con el
propio hipertexto de esta tesis en su fase de elaboración.

Ejemplo de HTML HelpWork
http://www.microsoft.com
con la Tabla de contenidos de esta tesis
El programa
HTML Help
Workshop se puede descargar desde la página de Microsoft:
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/htmlhelp/html/hwMicrosoftHTMLHelpDownloads.asp
Con la aparición de la llamada
Web 2.0, han proliferado los
Sistemas de gestión de contenidos o Content Management System
(CMS).
Estas herramientas permiten la creación y administración de contenidos de
páginas web. Se trata de una interfaz que controla
una o varias bases de datos donde se aloja el
contenido del sitio web. Hay gestores para páginas web,
foros,
blogs,
wikis, etc. Estos sistemas permiten
tratar de manera separada el diseño del contenido. Una relación exhaustiva de
estas herramientas se ofrece en esta tesis en Sistemas
de Gestión de Hipertextos para la Web 2.0.
Bibliografía:
ACM SIGMOD. Publicly Avalaible Database software.
http://www.sigmod.org/databaseSoftware/
BLAIR, D.C. Language and
Representation in Information Retrieval. Amsterdam: Elsevier, 1990 [Volver]
CMS-Spain.com
http://www.ecm-spain.com/home.asp
CODINA,
Lluis. Bases de Datos Documentales: Talleres de Sistemas de Gestión de
Bases de DAtos Documentales.
http://www.lluiscodina.com/metodos.htm#ii
LANCASTER,
F.W. y WARNER, A.J.: Information Retrieval Today. Arlington: Information
Resources Press, 1993. [Volver]
PÉREZ, Chantal. Bases de datos y Bases de
conocimiento.
http://elies.rediris.es/elies18/522.html
TRAMULLAS, Jesús. "Sección
2:
Los sistemas de bases de datos y los SGBD”. En Introducción a la Documática.
http://tek.docunautica.com/
TRAMULLAS, Jesús. "Sección 3:
La recuperación de información”. En Introducción a la Documática.
http://tek.docunautica.com/
TRAMULLAS, Jesús. "Sección 4. Sistemas informáticos de
tratamiento y recuperación de información documental". En Introducción
a la Documática.
http://tek.docunautica.com/
 |