Indización automática

María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen.

"Los sustantivos 'categorizan', esto es, determinan clases de objetos
mientras que los adjetivos 'describen' propiedades que no constituyen clases".
Ignacio Bosque: Las categorías gramaticales, Madrid, Ed. Síntesis, 1991.

Los textos que aparecen en los documentos se escriben en lenguaje natural y, por lo tanto, están sujetos a las imprecisiones y ambigüedades del lenguaje natural: polisemia, homonimia, sinonimia, anfibologías, metáforas, anáforas, etc. que impiden la identificación entre un significante y un significado, entre una palabra y un único significado concreto y preciso.

Tradicionalmente, en la búsqueda y recuperación de la información, tanto la clasificación como la indización manual han sido dos procesos básicos del análisis del contenido bien sea utilizando vocabularios controlados, o por medio de términos libres. Y de igual forma, la clasificación y la indización informatizadas para la búsqueda y recuperación de información, se han convertido en dos de las bases fundamentales para el tratamiento del contenido de los documentos digitales. Existen actualmente muchos softwares documentales que se basan en el lenguaje natural para las búsquedas en bases de datos por ordenador, pero también, la indización y clasificación automáticas han evolucionado mucho desde los inicios, con lenguajes totalmente libres, hasta el uso creciente de tesauros y ontologías totalmente automatizados, y el desarrollo de lenguajes con posibilidad de una estructuración semántica muy rica que favorecen la búsqueda y recuperación de información online.

Caracterizar el contenido de un documento sigue siendo una tarea compleja tanto en su vertiente manual como en la vertiente automatizada, puesto que la indización depende no sólo del conocimiento y control de los lenguajes y técnicas documentales, sino también del grado de conocimiento que se tenga sobre el tema o materia de que trate el documento e, incluso, de la facultad y dominio en el manejo de procesos de abstracción conceptual. Para la indización se suele echar mano de los títulos, encabezados, párrafos introductorios, resúmenes, conclusiones, etc. Y también de otros elementos más complejos basados tanto en la función sintáctica de palabras y expresiones, como en la función semántica de los términos que aparecen en los textos, y otras estrategias como la repetición de palabras, acudir al ámbito del saber en el que se enmarca el texto, etc.

La indización automatizada, igual que la manual, persigue identificar el documento mediante el uso de palabras clave que resuman su contenido. La indización automatizada extrae o asigna los términos de indización de una forma automática por medio de máquinas y sin intervención humana. La indización puede ser libre, cuando la identificación se realiza a través de una lista o conjunto abierto de términos, o puede tratarse de una indización controlada, cuando se utilizan listas cerradas a modo de listas de autoridad, listas de encabezamientos, listas de descriptores, tesauros, ontologías, etc.

La mayoría de los particulares y las organizaciones, han cambiado sus archivos manuales por sistemas de tratamiento automatizado de los datos y la gestión electrónica de los documentos se ha convertido en una práctica habitual que abarca todos los procesos documentales: almacenamiento, recuperación, acceso y reproducción de documentos, etc. La gestión electrónica de documentos precisa de nuevas estrategias de comprensión y deducción de los contenidos para que sea posible la descripción e indización automáticas, con el fin de la posterior recuperación.

La proliferación de documentos digitales ha conducido, pues, a un desarrollo exponencial de la indización automática, puesto que describir de forma manual toda la información que aparece en la red se ha convertido en un imposible. Además, la permanencia de los documentos tanto en Internet, como en cualquier Intranet, suele tener una duración limitada. Por otro lado, cada vez son más corrientes las bases de datos en las que se pueden consultar documentos a texto completo y esto hace que la indización automatizada haya empezado a considerarse uno de los elementos esenciales en el campo de la búsqueda y recuperación de información. La casi totalidad de los sistemas de gestión electrónica de documentos, incluyen ya un motor de indización y búsqueda automática que procesa el lenguaje natural y que permite la recuperación del contenido y existen muchas y muy variadas herramientas y aplicaciones informáticas para realizar estas nuevas funciones.

Modelos de Indización automática

La indización automática se suele definir con la siguiente fórmula: Lingüística + estadística + informática = Indización automática, a la que hoy podemos añadir un cuarto elemento: Bases de conocimiento + lingüística + estadística + informática = Indización automática.

Sin embargo, los distintos modelos de indización automatizada utilizan estos elementos en distintos grados. Los modelos de indización automática se pueden clasificar atendiendo a los siguientes criterios (criterios que no son excluyentes, sino muchas veces concordantes).

Según el método de extracción terminológica:

Métodos lingüísticos: utilizan distintos niveles de análisis lingüístico: análisis léxico, sintáctico, semántico y contextual. Estos tipos de análisis se llevan a cabo mediante la utilización de herramientas automáticas para cada nivel, como lexicones con información morfológica, bases de datos léxicas, utilización de corpus textuales o textos representativos de una lengua, uso de diccionarios, tesauros, desambiguadores, analizadores sintácticos, analizadores semánticos, analizadores del contexto, etc.
Métodos no lingüísticos:
- extracción estadística de términos: El primero en usar el análisis estadístico para la indización automática fue Hans Peter Luhn de IBM, quien ya en los años 60 mecanizó el análisis del contenido gracias a la autocodificación de los textos y la formación de índices KWIC (Key Word In Context), que todavía se sigue utilizando para localizar términos en algunos tesauros.
- extracción probabilística de términos: basada en la frecuencia de aparición media de los términos.
- extracción bibliométrica de términos: basado en el análisis cuantitativo de determinadas términos presentes en los documentos de la bibliografía empleada en un campo concreto.
- extracción infométrica de términos: basado en el tratamiento informático de los términos y la ingeniería del conocimiento. Es lo que se suele denominar data mining o minería de datos, esto es, la explotación de datos para extraer conocimiento.

Según la parte del documento que indizan:

Indizan las partes principales del documento: título, resumen, etc.: Se calcula que en ámbitos muy especializados, un 60% de los términos pertinentes para la indización, están de forma explícita en el título, un 30% está implicado en alguna palabra del título y un 10% en el texto.
Indizan el texto completo

Según el control del vocabulario:

Lenguajes controlados: la identificación del documento se realiza utilizando un vocabulario controlado como listas de materias, taxonomías, tesauros, ontologías, etc.
Lenguajes libres: la identificación se realiza a través de una lista o conjunto abierto de términos.

Evolución en los sistemas de Indización automática

Los modelos de indización automática son muy variados y van desde métodos muy simples como es la mera extracción de palabras del lenguaje natural, hasta métodos muy complejos basados en una indización inteligente que trata no las palabras, sino los conceptos. Todos estos métodos conviven a la vez, aunque podamos hablar de un proceso evolutivo en la indización automatizada sirviéndonos del tratamiento que se ha ido dando al lenguaje natural y que podemos resumir así:

Primera etapa: las palabras se entienden como objetos: En los años 60, a comienzos de la utilización del ordenador como procesador de textos, los primeros intentos de indización automática se basaban en la identificación de las palabras que aparecen en los títulos. Las palabras vacías son descartadas mediante un filtro y las demás pasan a considerase descriptores. Se trata pues, de una indización morfológica. Sin embargo, si se manipula el texto completo, se obtiene una indización indiscriminada que no distingue las ambigüedades de los términos, puesto que no diferencia las formas flexivas (género y número) ni tampoco los sinónimos, homónimos, polisemias, etc; por lo que se empieza a analizar también el contexto, igual que se venía haciendo con los índices de concordancias.

Se configuran así índices permutados con una entrada por cada palabra no vacía que aparece en el documento. Y, en muchos casos, se utiliza la información que presentan los registros bibliográficos o se parte de los títulos y resúmenes para obtener términos más representativos y adecuados. Un gran avance fue introducir métodos estadísticos y probabilísticos, analizando la frecuencia estadística de aparición de cada palabra. Se dejan fuera las palabras cuya aparición es excesiva y aquellas cuya aparición es muy escasa o rara, y se eligen las palabras que aparecen con una frecuencia media. Estos modelos, aunque algo primitivos, supusieron un gran avance respecto a los modelos de indización manuales y hoy todavía siguen utilizándose tanto como métodos para extraer palabras y elaborar tesauros, como métodos que se usan en combinación con otros modelos basados en el análisis lingüístico.

Segunda etapa: desde los años 70 se destaca el análisis lingüístico para evitar la ambigüedad en los términos: se comienza a procesar el lenguaje natural en todos sus aspectos: morfológico, sintáctico, semántico y pragmático.

Procesamiento morfológico-léxico: primero se segmenta el texto en unidades más pequeñas. Se identifican así no sólo las palabras, sino también los sintagmas, las locuciones, siglas, etc. a los que se dan una serie de identificadores para ser utilizados como puntos de referencia. Se cuenta con 2 diccionarios, un diccionario que contiene todas las entradas de una lengua y otro diccionario con locuciones. Estas palabras, en los métodos usados actualmente, pueden sufrir un proceso de lematización, esto es, se puede extraer la forma canónica transformando las formas conjugadas y flexivas en entradas de un diccionario.

Procesamiento sintáctico: una vez obtenido el léxico mediante este procesamiento morfológico, se pasa a utilizar una gramática o diccionario sintáctico que describa la estructura de las oraciones. Se separan las oraciones en simples y compuestas, y se desambiguan las distintas categorías morfológicas. Los analizadores sintácticos pueden determinar las funciones de las palabras en el texto: sujeto, verbo, tipo de complemento, etc. Estas dos etapas anteriores se pueden realizar a la vez mediante los llamados analizadores morfosintácticos que utilizan un analizador con una gramática particular adaptada a la naturaleza de los textos que indizan.

Procesamiento semántico: posteriormente, el análisis semántico permitirá agrupar y jerarquizar el contenido del texto a través de un nuevo reconocimiento morfológico que tenga en cuenta los significados, y a través del reconocimiento de sinónimos e hiperónimos. También puede realizarse un análisis semántico desde el punto de vista gramatical, que estudie las relaciones sintagmáticas bien sea en el contexto de la frase o en el del documento completo. Se reducen así los términos léxicos indizados y se homogenizan. Posteriormente, se pueden elaborar árboles que representen gráficamente los enlaces dentro de estos esquemas para poder descender desde los términos genéricos a los términos específicos, y viceversa, con el fin de establecer y representar los diferentes dominios semánticos, temáticos o conceptuales del texto y sus jerarquías o asociaciones. En esta etapa, se usan tesauros muy especializados de términos que establecen tanto las jerarquías como las asociaciones temáticas o conceptuales, y que permiten reducir o ampliar cada búsqueda con gran precisión. A raíz de esto nacieron los mapas léxicos que representan los términos del texto asociados a una o varias parejas de términos del tesauro.

Procesamiento pragmático: esta indización es muy compleja ya que se basa no sólo en el conocimiento lingüístico, sino también en el conocimiento del mundo real. Se trata de que el universo del discurso sólo puede comprenderse poniéndolo en relación o enmarcándolo en el contexto del universo real. Se utilizan, entonces, algoritmos muy complejos que recogen las relaciones contextuales para poder comprender el contexto del discurso. Un paso más avanzado y ya a caballo entre esta etapa y la siguiente es la consideración no sólo del análisis puramente semántico, sino también del llamado Análisis Cognitivo del Discurso, con el fin de extraer lo que se denomina la Estructura Fundamental del Significado, y para ello se utilizan otras técnicas como la constitución de Redes Semánticas.

Tercera etapa: indización inteligente basada no sólo en la abstracción de conceptos, sino también en modelos conceptuales sostenidos sobre bases de conocimiento: se trata de la etapa actual en la cual se integran todos los modelos anteriores intentando dotar a las máquinas de competencias lingüísticas y cognitivas basadas tanto en la lingüística, como en las bases de conocimiento. Lo que se persigue es el acceso directo a los documentos a través del procesamiento lingüístico y cognitivo automáticos y la utilización del lenguaje natural, combinado con otras técnicas como el análisis estadístico o la medición terminológica. No haría falta que los usuarios conocieran los lenguajes documentales, sino que interfaces inteligentes facilitarían utilizar el lenguaje natural y los ordenadores, mediante agentes inteligentes, se encargarían de todo el proceso de manipulación, selección y procesamiento de la información.

Los llamados motores de indexación y búsqueda, que son las herramientas que llevarían a cabo la indización automatizada en los nuevos sistemas de gestión del conocimiento, se dotan de un sistema de extracción de conceptos que puede construir Redes Semánticas de salida y entrada, fundamentadas en bases de conocimiento que, por medio de ontologías, permitan construir la semántica del texto y asociar las relaciones del contexto. Esto permitiría la recuperación de información por conceptos e ideas.

Las bases de conocimiento de estos sistemas inteligentes, no son más que un tesauro enriquecido con información morfológica, sintáctica y semántica, esto es, una ontología cuyo vocabulario se extrae de los documentos de un área específica del conocimiento, de un campo especializado del saber. Al tratarse de un vocabulario muy especializado, los documentalistas no poseen las competencias necesarias para el análisis de este campo del saber y, por tanto, estas competencias se extraen del propio documento, del conocimiento que los expertos han plasmado en él. Un conocimiento que va más allá de lo puramente semántico, puesto que se trata de un conocimiento pragmático, ya que se extraen porciones de realidad. Para llevar a cabo este tipo de análisis tan complejo, se necesita un trabajo multidisciplinar en donde intervengan expertos estadísticos, informáticos, lingüistas e ingenieros de la inteligencia artificial.

La diferencia entre los tesauros y las ontologías es que los tesauros contienen relaciones de asociación, pero las ontologías especifican cómo es esa asociación y la representan mediante estructuras en forma de árbol o en planos. Los nuevos programas de software para la gestión del conocimiento realizan una indización automática representando el contenido utilizando conceptos y algoritmos muy complejos. Conjugan software para el tratamiento del texto completo y la gestión electrónica de documentos, con software para el procesamiento del lenguaje natural, lo que permite indizar el documento no sólo mediante palabras clave, sino también analizando el texto completo, y utilizar el lenguaje natural tanto para la indexación como para la formulación de preguntas en las búsquedas. Los sistemas más complejos combinan el modelo lingüístico con el estadístico y suelen estar conformados por 4 módulos distintos: un módulo de construcción de reglas para la canonización de las palabras flexivas y derivativas, un motor de indización, un módulo de cálculo estadístico y una base del conocimiento o diccionario electrónico. Se trata no sólo de sistemas de Gestión Electrónica de Documentos (GED), sino de verdaderos Sistemas de Gestión del Conocimiento (SGC) en los que el motor de indización y los métodos de Procesamiento del Lenguaje Natural (PLN) cumplen un papel fundamental.

Dentro de las distintas etapas de la indización automática que hemos analizado anteriormente, podemos destacar, a su vez, las distintas herramientas o instrumentos de análisis utilizados en el procesamiento lingüístico de los documentos, que también han ido variando con el paso del tiempo. Podemos destacar 3 instrumentos principales:

diccionarios: para llevar a cabo el análisis morfológico y sintáctico utilizando reglas gramaticales
tesauros: para llevar a cabo el análisis semántico mediante el establecimiento de enlaces de equivalencia, jerarquía o asociación a la hora de aplicar las reglas documentales
ontologías: para indicar los tipos de relaciones que se dan entre los conceptos, con el fin de eliminar las ambigüedades en el contenido de los documentos.

Herramientas automáticas, programas de indización y análisis textual, y otros motores lingüísticos

Un documento etiquetado con un lenguaje de marcado tipo HTML, SGML o XML, en realidad funciona como una base de datos textual, que puede ser gestionada por un programa informático. Esta combinación ha dado lugar al llamado "Análisis Textual Asistido por Ordenador", que permite a los lingüistas, estudiosos de la literatura y documentalistas, recorrer el texto de nuevas formas y obtener nuevos datos. Pero también existe el análisis de textos a partir de documentos no etiquetados previamente. Existen muchos sistemas comerciales para indizar de forma automática, sin embargo la mayor parte de estas herramientas no realizan únicamente funciones de indización, sino que son gestores documentales que, además de procesar la información, tienen capacidad para almacenar y recuperar los documentos.

TACT o Text Analysis Computing Tools es una herramienta para el análisis textual. http://tactweb.humanities.mcmaster.ca/tactweb/doc/tact.htm Se trata de un "paquete" de software compuesto por una serie de programas que funcionan de forma independiente. Entre otras posibilidades TACT permite:

Extraer de un texto listados de concordancias KWIC (Key Word In Context), donde la palabra clave aparece en un contexto de extensión predefinida.
Extraer de un texto listados de concordancias KWOC (Key Word Out Context), o de contexto variable, cuya extensión puede ser establecida por el usuario.
Obtener las secciones de texto (o incluso el texto completo) donde aparece una forma determinada.
Obtener gráficos de distribución, que nos muestran cómo se distribuye a lo largo del corpus la forma que nos interesa.

SPIRIT es un indexador automático con un motor de búsquedas inteligentes y que utiliza el lenguaje natural. http://www.spiritengine.com/. Permite la indexación automática de una gran diversidad de tipos de información (archivos .doc, .pdf, .rtf. html, contenido de sitios Intranet o Internet, información proveniente de bases de datos, etc.) y contiene un módulo de categorización automática que permite utilizar una taxonomía estándar o definir una personalizada. La búsqueda en el interior de un sistema de información se hace mediante el navegador y la tecnología de análisis lingüístico permite a los usuarios formular las preguntas en lenguaje natural utilizando frases usuales. Se obtienen así los documentos buscados mediante un conjunto de términos utilizados por los creadores de documentos, teniendo en cuenta los sinónimos y las expresiones con un sentido similar.

Durante el proceso de indexación, se tienen en consideración los enlaces entre los textos y las relaciones lingüísticas, analizando los contenidos en función de:

Detección automática de los errores tipográficos
Eliminación de los palabras no útiles en función de su categoría gramatical
Determinación de la forma normalizada (canonización)
Resolución de los casos de homografía
Identificación automática de las expresiones más utilizadas
Ponderación de las palabras y expresiones mediante un análisis estadístico del texto

El trabajo de análisis morfológico y sintáctico del texto se realiza mediante diccionarios con miles de entradas, que incorporan las diferentes formas de un mismo término: singular, plural, masculino, femenino, formas conjugadas de los verbos, etc. Además, el sistema posee un léxico de expresiones idiomáticas que integran las siglas en sus formas desarrolladas, las locuciones, etc. La eliminación de palabras no útiles se realiza en función de criterios gramaticales y morfológicos, normalizando las palabras útiles. En el caso de homografías, se efectúa una normalización de las categorías gramaticales. Por ejemplo, se distingue "libro", nombre común de "libro", forma conjugada del verbo "librar". También permite hacer búsquedas de términos semánticos mediante otros sinónimos o equivalente. Existen muchas reglas para descifrar los sinónimos.

Los documentos que responden a las preguntas formuladas se presentan en una lista de textos clasificados por orden de pertinencia. Esto viene determinado por las "dependencias lingüísticas" entre los términos de la pregunta y los encontrados dentro de los documentos base.

Muchos indizadores automáticos permiten hacer las preguntas para las búsquedas en múltiples idiomas.

Otras herramientas son los Motores lingüísticos de Signum, ofrecidos en la web lenguaje.com, http://www.lenguaje.com/, el sitio de la ingeniería del lenguaje en español. Entre estos motores encontramos:

Lematizador: que reconoce un palabra y presenta su lema (raíz) e información sobre el tipo de inflexión o derivación de la palabra consultada. Por ejemplo, en el caso de la palabra perrita, el lematizador determina que se trata del lema perro con los atributos femenino, plural y diminutivo. Similarmente, si ingresamos la palabra leerá, nos indicará que es el futuro del indicativo del verbo leer en la tercera persona del singular. El motor de lematización tiene capacidad para almacenar información adicional para cada lema: definición, sinónimos, información semántica, imagen o cualquier otro dato que el usuario desee asociar con la palabra. El motor se puede probar en línea en: http://www.lenguaje.com/herramientas/lematizador.php
Motor de flexiones: El motor de flexiones de SIGNUM provee la funcionalidad de generar todas las flexiones de una palabra española. Dependiendo de la naturaleza de la palabra, se generan, entre otras, las flexiones de género, número, diminutivos, aumentativos, superlativos y derivaciones peyorativas; en el caso de los verbos, todas las conjugaciones verbales y los enclíticos más comunes. Este motor recibe como entrada una palabra, analiza si está correctamente escrita y la encuentra en su base léxico-morfológica, procede a generar todas las derivaciones morfológicas que el vocablo puede aceptar y, adicionalmente, proporciona información sobre el tipo de derivación generada. También puede generar una flexión específica, dado un lema y la especificación morfológica. Por ejemplo, si se ingresa el término el término perro, obtendremos las distintas morfologías de este sustantivo (perro/a, perros/as, perritos/as, perrillo/a, perrillos/as, perrazo/a, perrazos/as, perrote/a y perrotes/as). El conjugador se puede probar en : http://www.lenguaje.com/herramientas/conjugador.php
Motores de corrección ortográfica: con un vocabulario para más de 5 millones de palabras y que comprende muchos términos locales y técnicos. Reconocimiento inteligente y señalamiento de los conflictos homófonos y parónimos del español. Aclara dudas y genera resultados didácticos. Detecta errores fáciles de cometer y ofrece sugerencias opciones de corrección ortográfica para adaptarse al nivel ortográfico del usuario. Más información sobre cómo funciona el motor en: http://www.lenguaje.com/desarrollo/motor_ortografica.php Esta herramienta se puede probar en línea en: http://www.lenguaje.com/herramientas/verificador.php
Motores de sinónimos y antónimos: acepta las diferentes formas de una palabra raíz y presenta sinónimos en la misma forma: modo, tiempo, número y persona, si se trata de un verbo, y género, número, diminutivos, aumentativos, despectivos y/o superlativos, cuando es un sustantivo, adjetivo, pronombre o adverbio. Por ejemplo, para el término librito se tienen los sinónimos obrita, tratadito, manualito y textito, entre otros. Este diccionario contiene miles de entradas y miles de sinónimos, antónimos y expresiones relacionadas. El motor puede presentar la categoría gramatical de cada sinónimo y antónimo encontrado, así como también, indicar su morfología. Es el motor que está incluido en Microsoft Office. El motor se puede probar en: http://www.lenguaje.com/herramientas/tesauro.php y la información está en: http://www.lenguaje.com/desarrollo/motor_sinonimos.php
Motor de conjugaciones: puede generar, con total exactitud, la conjugación completa de más de 13.000 verbos. Incluye todos los modos verbales, tiempos, números y personas. El motor de conjugaciones se puede probar en la URL: http://www.lenguaje.com/herramientas/conjugador.php y la información en: http://www.lenguaje.com/productos/motores/conjugacion.php
Motor de guiones: separa una palabra en sílabas y corta la palabra en puntos estratégicos para que cuando ésta se divida al final de una línea, el resultado sea estético y fácil de leer. Por ejemplo: "bien-in-ten-cio-na- do" y no "bie-nin-ten-cio-na-do", "en-hora-bue-na" y no "enho-ra-bue-na". El silabeador y guionizador se puede probar en la URL: http://www.lenguaje.com/herramientas/silabeador.php y la información sobre el motor de guiones en: http://www.lenguaje.com/desarrollo/motor_guiones.php
Motor de semejanza fonética: que aumenta la versatilidad de aplicaciones que trabajan con el lenguaje natural. Sus aplicaciones pueden incluir la función cómo suena para el español. Esto tiene muchos usos, por ejemplo búsqueda de palabras en textos completos, reconocimiento del habla, generación de homófonos y parónimos, detección de marcas y nombres comerciales semejantes y sugerencias en caso de palabras mal escritas, entre otros. El motor se puede probar en: http://www.lenguaje.com/herramientas/fonetica.php
Revisor de Signum: es un paquete integrado que contiene un verificador o corrector ortográfico, diccionario de sinónimos y antónimos (tesauro), conjugador de verbos y silabeador-guionizador. http://www.lenguaje.com/productos/productos.php

Existen otra serie de herramientas que no se limitan a los aspectos lingüísticos, sino que categorizan y hacen un tratamiento y análisis inteligente de la información. Es el caso de Online Miner, una herramienta para la búsqueda, categorización y tratamiento y análisis inteligente de la información textual, tanto si se encuentra estructurada como si no. Recupera documentos y los estructura en formato XML. También extracta, organiza y monitoriza características importantes en los documentos de texto. Finalmente, organiza los documentos en grupos coherentes para facilitar la navegación dentro de la colección documental. Online Miner ha sido desarrollado por la empresa francesa TEMIS: http://www.temis-group.com/index.php?id=88&selt=1 Esta herramienta integra, a su vez, otra serie de herramientas que se pueden utilizar por separado, se trata de:

Extractor: herramienta que usa una avanzada tecnología lingüística y semántica para extractar conocimiento de documentos estructurados. Identifica los conceptos y las relaciones entre conceptos y está guiado por reglas de extracción de conocimiento especializado.
Categorizer: herramienta que se sirve de algoritmos matemáticos muy avanzados para asignar categorías a los documentos. Lee y aprende de un conjunto de documentos que ya están situados en una determinada categoría. Cuando en el sistema se incluye un nuevo conjunto de documentos, los categoriza por comparación con los documentos previamente categorizados. Trabaja en modo "supervisado" y "sin supervisión". Se usa para organizar bases de conocimiento y es una solución para la sobrecarga de información. El modo "supervisado" sugiere una o más categorías para cada documento. El modo automático o no supervisado asigna documentos a las categorías más relevantes.
Clusterer: es una herramienta para estructurar información no estructurada previamente. Clasifica y reagrupa documentos basándose en su similaridad semántica, dentro de clases coherentes: los clusters. Clusterer ejecuta automáticamente este proceso en tiempo real. Crea un árbol de conceptos pertinente para una colección de documentos dados. Clustering es un proceso iterativo que crea subclusters para cada cluster. Clusterer ofrece una excelente visibilidad en grandes conjuntos de documentos y en dominios complejos. El usuario puede navegar dentro de los clusters para obtener una exhaustiva comprensión de la base de conocimiento.

Existen numerosas empresas que desarrollan todo tipo de software para la gestión de documentos, categorización e indexación. Algunas de ellas son Verity http://www.verity.com, Hummingibird: http://www.hummingbird.com, Entrieva: http://www.entrieva.com/, Cyberlex (en español): http://www.cyberlex.pt/cyberlex_es.html que ha desarrollado Tropes, para análisis de textos; ZyLAB: http://www.zylab.com/, Optix: http://mindwrap.com/, Interwoven: http://www.interwoven.com/ o Inmagic: http://www.inmagic.com/, aunque existen muchísimas en la red. Todos estos gestores de la información funcionan de manera excelente en entornos finitos, homogéneos y, normalmente, monolingües como es una Intranet, donde los documentos suelen centrarse en una área temática determinada y así la selección, descripción y organización de recursos se suele referir a un área concreta del conocimiento bastante más fácil de tipificar que el entorno Internet, que es un ámbito no finito, multilingüe y muy heterogéneo. De esta forma, normalizar los atributos de los metadatos aplicables o categorizar e indizar los documentos de un entorno cerrado ya sea utilizando listas de autoridad, vocabularios controlados, clasificaciones y tesauros, o extrayendo la información descriptiva de forma automática mediante búsquedas en el texto completo, es una tarea mucho más sencilla que en un entorno abierto como es la Web.

De cualquier forma, también existen una serie de herramientas muy sofisticadas enfocadas para la recuperación y búsqueda de información en la Web, tales como Harvest http://sourceforge.net/projects/webharvest/, un paquete de aplicaciones que sirve para indizar webs y que ha sido diseñado para la indización distribuida. También incluye Harvest-NG o Harvest-Next Generation: http://webharvest.sourceforge.net/ng/, un crawler o robot de indización web basado en Perl. Más información sobre esta herramienta se puede obtener en: http://www.searchtools.com/tools/harvest.html Dentro del proyecto Desiré impulsado por la Unión Europea se desarrolló el sistema Combine (http://combine.it.lth.se/), una herramienta de harvesting y threshing (indización) para indizar recursos de Internet y que hoy se perfecciona y continúa a través del proyecto Alvis (http://www.alvis.info/alvis/) que desarrolla un paquete de aplicaciones con varias herramientas que incluyen un crawler, un lector de RSS, un extractor de bases de datos en XML, herramientas de etiquetado e indización, recursos para procesar información lingüística y semántica, y una interfaz de búsqueda capaz de usar redes P2P. La arquitectura de este complejo, completo e interesante sistema se puede ver en: http://www.alvis.info/alvis/architecture.

Y, por supuesto, también existen indizadores para imágenes, entre los que cabe destacar aLIP (Automatic Linguistic Indexing of Pictures): http://wang.ist.psu.edu/IMAGE/alip.html, SIMPLIcity (Semantics-sensitive Integrated Matching for Picture Libraries) http://wang14.ist.psu.edu/cgi-bin/zwang/regionsearch_show.cgi o Story Picturing Engine: http://wang.ist.psu.edu/IMAGE/SPE/. Algo más completo es VIA2 Platform: http://www.visualcentury.com/products/via2platform.htm un paquete de arquitectura modular basado en XML que sirve para gestionar vídeo, audio e imágenes y que permite un análisis inteligente para extractar información en estas morfologías. Entre las funciones que ofrece están las de indizar, anotar, etiquetar con metadatos y realizar búsquedas. Los metadatos se extraen automáticamente de la secuencia de vídeo y audio en tiempo real.

Una exhaustiva lista de herramientas de búsqueda que contiene, entre otras, muchas herramientas para indización tanto de sitios web como de Intranets, se puede encontrar en "Search Tools Listings in Alphabetical Order": http://www.searchtools.com/tools/tools.html donde también se informa detalladamente de cómo funciona un indizador en: "Site Search Indexing": http://www.searchtools.com/guide/index.html#Indexer

Bibliografía

Alvis. Home Page. http://www.alvis.info/alvis/

CODINA, Lluis. MARCOS, Mari Carmen. "Posicionamiento web: conceptos y herramientas". El profesional de la información, v. 14, n. 2, marzo-abril, 2005. http://www.mcmarcos.com/pdf/2005_posicionamiento-epi-maq.pdf

Corpora and Corpus Annotation Tools on the WWW (collected by Markus Dickinson and Detmar Meurers (OSU), February, 2002) http://www.ling.ohio-state.edu/~dickinso/corpus.html

LOPEZ UREÑA, L. Alfonso Resolución de la ambigüedad léxica en Tareas de Clasificación Automática de Documentos. http://www.sepln.org/monografiasSEPLN/monografiaUrena.pdf

MOREIRO GONZÁLEZ, José Antonio. "Aplicaciones al análisis automático del contenido provenientes de la teoría matemática de la información". Anales de Documentación N.º 5, 2002. http://www.um.es/fccd/anales/ad05/ad015.pdf

PEÑAS PADILLA, Anselmo. Técnicas lingüísticas aplicadas a la búsqueda textual bilingüe: Ambigüedad, variación terminológica y multingüismo. http://www.sepln.org/monografiasSEPLN/monografiaAnselmo.pdf

Search Tools for Web Sites and Intranets. Home Page. http://www.searchtools.com/

Search Tools Products Listings in Alphabeticarl Order: http://www.searchtools.com/tools/tools.html

SIGNUM. Motores para el procesamiento del español. http://www.lenguaje.com/desarrollo/desarrollo.php

SIGNUM. http://www.lenguaje.com/

Sociedad Española para el Procesamiento del Lenguaje natural (SEPLN). http://www.sepln.org

SPIRIT. http://www.spiritengine.com/

TACTWeb 1.0 Home Page. http://tactweb.humanities.mcmaster.ca/tactweb/doc/tact.htm

The Combine Harvesting Robot. http://combine.it.lth.se/

Visual Century. http://www.visualcentury.com/

Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen Autora: María Jesús Lamarca Lapuente (currículo personal) Contacta Tesis doctoral. Universidad Complutense de Madrid URL: http://www.hipertexto.info Fecha de Actualización: 08/12/2013 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb. 34.389 enlaces (10.436 externos y 23.953 internos)	Esta obra está licenciada bajo las siguientes condiciones: Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.
OTRAS PÁGINAS DE LA AUTORA
Blog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ Ageteca. Base de Datos de Gestión Cultural: http://www.agetec.org/ageteca Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es	Blog La artesa digital http://artesadigital.blogspot.com.es Especial Poesía: Hasta allí hemos llegado Flickr La artes@ digital: Galería de fotos mundo digital y mundo analógico: http://www.flickr.com/photos/artesadigital/ Blog Miembras: Usos lingüísticos, políticos y sociales del lenguaje http://miembras.blogspot.com

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores