|


"Los sustantivos 'categorizan', esto es,
determinan clases de objetos
mientras que los adjetivos 'describen' propiedades que no constituyen clases".
Ignacio Bosque: Las categorías gramaticales, Madrid, Ed. Síntesis, 1991.
Los textos que aparecen en los documentos se escriben en
lenguaje natural y, por lo tanto, están sujetos a las imprecisiones y ambigüedades
del lenguaje natural: polisemia, homonimia, sinonimia, anfibologías, metáforas,
anáforas, etc. que impiden la identificación entre un significante y un
significado, entre una palabra y un único significado concreto y preciso.
Tradicionalmente, en la búsqueda y recuperación
de la información, tanto la clasificación como la indización manual han sido
dos procesos básicos
del análisis del contenido bien sea utilizando vocabularios controlados, o por
medio de términos libres. Y de igual forma, la clasificación y la indización informatizadas para
la búsqueda y recuperación de información, se han convertido en dos de las bases
fundamentales para el tratamiento del contenido de los documentos
digitales. Existen actualmente muchos softwares documentales que se basan en
el lenguaje natural para las búsquedas en bases de datos por
ordenador, pero también, la indización y
clasificación automáticas han
evolucionado mucho desde los inicios, con lenguajes totalmente libres, hasta el
uso creciente de
tesauros y ontologías totalmente automatizados,
y el desarrollo de lenguajes con posibilidad de una estructuración semántica muy
rica que favorecen la búsqueda y recuperación de información online.
Caracterizar el contenido de un
documento sigue siendo una tarea compleja tanto en su vertiente manual como en
la vertiente automatizada, puesto que la indización depende no sólo del
conocimiento y control de los lenguajes y técnicas documentales, sino también
del grado de conocimiento que se tenga sobre el tema o materia de que trate el
documento e, incluso, de la facultad y dominio en el manejo de procesos de
abstracción conceptual. Para la indización se suele echar mano de los títulos,
encabezados, párrafos introductorios, resúmenes, conclusiones, etc. Y también
de otros elementos más complejos basados tanto en la función sintáctica de
palabras y expresiones, como en la función semántica de los términos que
aparecen en los textos, y otras estrategias como la repetición de palabras,
acudir al ámbito del saber en el que se enmarca el texto, etc.
La indización automatizada,
igual que la manual, persigue identificar el documento mediante el uso de
palabras clave que resuman su contenido. La indización automatizada extrae o
asigna los términos de indización de una forma automática por medio de máquinas
y sin intervención humana. La indización puede ser libre, cuando la
identificación se realiza a través de una lista o conjunto abierto de términos,
o puede tratarse de una indización controlada, cuando se utilizan listas
cerradas a modo de listas de autoridad, listas de encabezamientos, listas de
descriptores, tesauros,
ontologías, etc.
La mayoría de los particulares y
las
organizaciones, han cambiado sus archivos manuales por sistemas de tratamiento
automatizado de los datos y la gestión electrónica de los documentos se ha
convertido en una práctica habitual que abarca todos los procesos documentales:
almacenamiento, recuperación, acceso y reproducción de documentos, etc. La gestión electrónica
de documentos precisa de nuevas estrategias de comprensión y deducción de los
contenidos para que sea posible la descripción e indización automáticas, con
el fin de la posterior recuperación.
La proliferación de documentos digitales
ha conducido, pues, a un desarrollo exponencial de la indización automática,
puesto que describir de forma manual toda la información que aparece en la red
se ha convertido en un imposible. Además, la permanencia de los documentos
tanto en Internet, como en cualquier Intranet, suele tener una duración
limitada. Por otro lado, cada vez son más corrientes las bases de datos en las
que se pueden consultar documentos a texto completo y esto hace que la indización
automatizada haya empezado a considerarse uno de los elementos esenciales en el
campo de la búsqueda y recuperación de información. La casi totalidad de los
sistemas de gestión electrónica de documentos, incluyen ya un motor de
indización y búsqueda automática que procesa el lenguaje natural y que
permite la recuperación del contenido y existen muchas y muy variadas
herramientas y aplicaciones informáticas para realizar estas nuevas funciones.
Modelos de Indización
automática
La indización automática se
suele definir con la siguiente fórmula: Lingüística + estadística
+ informática = Indización automática, a la que hoy podemos añadir un
cuarto elemento: Bases de conocimiento + lingüística
+ estadística + informática = Indización automática.
Sin embargo, los distintos modelos de indización
automatizada utilizan estos elementos en distintos grados. Los modelos de
indización automática se pueden clasificar atendiendo a los siguientes
criterios (criterios que no son excluyentes, sino muchas veces
concordantes).
Según el método de extracción
terminológica:
-
Métodos lingüísticos:
utilizan distintos niveles de análisis lingüístico: análisis léxico,
sintáctico, semántico y contextual. Estos tipos de análisis se llevan a cabo
mediante la utilización de herramientas automáticas para cada nivel, como
lexicones con información morfológica, bases de datos léxicas, utilización
de corpus textuales o textos representativos de una lengua, uso de
diccionarios, tesauros, desambiguadores, analizadores sintácticos,
analizadores semánticos, analizadores del contexto, etc.
-
Métodos no lingüísticos:
-
extracción estadística de términos: El
primero en usar el análisis estadístico para la indización
automática fue Hans Peter Luhn de IBM, quien ya en los años 60
mecanizó el análisis del contenido gracias a la autocodificación de
los textos y la formación de índices KWIC (Key Word In Context), que
todavía se sigue utilizando para localizar términos en algunos
tesauros.
-
extracción probabilística de términos:
basada en la frecuencia de aparición media de los términos.
-
extracción bibliométrica de términos:
basado en el análisis cuantitativo de determinadas términos presentes en
los documentos de la bibliografía empleada en un campo concreto.
-
extracción infométrica de términos:
basado en el tratamiento informático de los términos y la ingeniería del
conocimiento. Es lo que se suele denominar data mining o minería
de datos, esto es, la explotación de datos para extraer conocimiento.
Según la parte del documento que indizan:
-
Indizan las partes
principales del documento: título, resumen, etc.: Se calcula que en
ámbitos muy especializados, un 60% de los términos pertinentes para la
indización, están de forma explícita en el título, un 30% está
implicado en alguna palabra del título y un 10% en el texto.
-
Indizan el texto completo
Según el control del vocabulario:
-
Lenguajes controlados:
la identificación del documento se realiza utilizando un vocabulario
controlado como listas de
materias, taxonomías, tesauros, ontologías, etc.
-
Lenguajes libres:
la identificación se realiza a través de una lista o
conjunto abierto de términos.
Evolución en los sistemas de
Indización automática
Los modelos de
indización automática son muy variados y van desde métodos muy simples como
es la mera extracción de palabras del lenguaje natural, hasta métodos muy
complejos basados en una indización inteligente que trata no las palabras, sino
los conceptos. Todos estos métodos conviven a la vez, aunque podamos hablar de
un proceso evolutivo en la indización automatizada sirviéndonos del
tratamiento que se ha ido dando al lenguaje natural y que podemos resumir así:
-
Primera etapa: las
palabras se entienden como objetos: En los años 60, a comienzos de la
utilización del ordenador como procesador de textos, los primeros intentos
de indización automática se basaban en la identificación de las palabras
que aparecen en los títulos. Las palabras vacías son descartadas mediante
un filtro y las demás pasan a considerase descriptores. Se trata pues, de
una indización morfológica. Sin embargo, si se manipula el texto completo,
se obtiene una indización indiscriminada que no distingue las ambigüedades
de los términos, puesto que no diferencia las formas flexivas (género y
número) ni tampoco los sinónimos, homónimos, polisemias, etc; por lo que
se empieza a analizar también el contexto, igual que se venía haciendo con
los índices de concordancias.
-
Se configuran así índices
permutados con una entrada por cada palabra no vacía que aparece en el
documento. Y, en muchos casos, se utiliza la información que presentan los
registros bibliográficos o se parte de los títulos y resúmenes para obtener
términos más representativos y adecuados. Un gran avance fue introducir
métodos estadísticos y probabilísticos, analizando la frecuencia estadística
de aparición de cada palabra. Se dejan fuera las palabras cuya aparición es
excesiva y aquellas cuya aparición es muy escasa o rara, y se eligen las
palabras que aparecen con una frecuencia media. Estos modelos, aunque algo
primitivos, supusieron un gran avance respecto a los modelos de indización
manuales y hoy todavía siguen utilizándose tanto como métodos para extraer
palabras y elaborar tesauros, como métodos que se usan en combinación con
otros modelos basados en el análisis lingüístico.
-
Segunda etapa: desde los
años 70 se destaca el análisis lingüístico para evitar la ambigüedad en
los términos: se comienza a procesar el lenguaje natural en todos sus
aspectos: morfológico, sintáctico, semántico y pragmático.
-
Procesamiento
morfológico-léxico: primero se segmenta el texto
en unidades más pequeñas. Se identifican así no sólo las palabras, sino
también los sintagmas, las locuciones, siglas, etc. a los que se dan una
serie de identificadores para ser utilizados como puntos de referencia. Se
cuenta con 2 diccionarios, un diccionario que contiene todas las entradas de
una lengua y otro diccionario con locuciones. Estas palabras, en los métodos
usados actualmente, pueden sufrir un proceso de lematización, esto es, se
puede extraer la forma canónica transformando las formas conjugadas y
flexivas en entradas de un diccionario.
-
Procesamiento
sintáctico: una vez obtenido el léxico
mediante este procesamiento morfológico, se pasa a utilizar una gramática o
diccionario sintáctico que describa la estructura de las oraciones. Se
separan las oraciones en simples y compuestas, y se desambiguan las distintas
categorías morfológicas. Los analizadores sintácticos pueden determinar las
funciones de las palabras en el texto: sujeto, verbo, tipo de complemento,
etc. Estas dos etapas anteriores se pueden
realizar a la vez mediante los llamados analizadores morfosintácticos que
utilizan un analizador con una gramática particular adaptada a la naturaleza
de los textos que indizan.
-
Procesamiento
semántico: posteriormente, el análisis
semántico permitirá agrupar y jerarquizar el contenido del texto a través
de un nuevo reconocimiento morfológico que tenga en cuenta los significados,
y a través del reconocimiento de sinónimos e hiperónimos. También puede
realizarse un análisis semántico desde el punto de vista gramatical, que
estudie las relaciones sintagmáticas bien sea en el contexto de la frase o en
el del documento completo. Se reducen así los términos léxicos indizados y se
homogenizan. Posteriormente, se pueden elaborar árboles que
representen gráficamente los enlaces dentro de estos esquemas para poder
descender desde los términos genéricos a los términos específicos, y
viceversa, con el fin de establecer y representar los diferentes dominios
semánticos, temáticos o conceptuales del texto y sus jerarquías o
asociaciones. En esta etapa, se usan
tesauros muy especializados de términos que establecen tanto las jerarquías
como las asociaciones temáticas o conceptuales, y que permiten reducir o
ampliar cada búsqueda con gran precisión. A raíz de esto nacieron los mapas
léxicos que representan los términos del texto asociados a una o varias
parejas de términos del tesauro.
-
Procesamiento
pragmático: esta indización es muy compleja ya que se basa no sólo
en el conocimiento lingüístico, sino también en el conocimiento del mundo
real. Se trata de que el universo del discurso sólo puede comprenderse
poniéndolo en relación o enmarcándolo en el contexto del universo real.
Se utilizan, entonces, algoritmos muy complejos que recogen las relaciones
contextuales para poder comprender el contexto del discurso. Un paso más
avanzado y ya a caballo entre esta etapa y la siguiente es la consideración
no sólo del análisis puramente semántico, sino también del llamado Análisis
Cognitivo del Discurso, con el fin de extraer lo que se denomina la
Estructura Fundamental del Significado, y para ello se utilizan otras técnicas como
la constitución de Redes Semánticas.
Tercera etapa:
indización inteligente basada no sólo en la abstracción de conceptos,
sino también en modelos conceptuales sostenidos sobre bases de
conocimiento: se trata de la etapa actual en la cual se integran todos
los modelos anteriores intentando dotar a las máquinas de competencias
lingüísticas y cognitivas basadas tanto en la lingüística, como en las bases
de conocimiento. Lo que se persigue es el acceso directo a los
documentos a través del procesamiento lingüístico y cognitivo
automáticos y la utilización del lenguaje natural, combinado con otras
técnicas como el análisis estadístico o la medición terminológica. No
haría falta que los usuarios conocieran los lenguajes documentales, sino
que interfaces inteligentes facilitarían utilizar el lenguaje natural y los
ordenadores, mediante agentes inteligentes, se encargarían de todo el
proceso de manipulación, selección y procesamiento de la información.
Los llamados motores de
indexación y búsqueda, que son las herramientas que llevarían a cabo la
indización automatizada en los nuevos sistemas de gestión del conocimiento, se
dotan de un sistema de extracción de conceptos que puede construir Redes
Semánticas de salida y entrada, fundamentadas en bases de conocimiento que,
por medio de ontologías,
permitan construir la semántica del texto y asociar las relaciones del
contexto. Esto permitiría la recuperación de información por conceptos e
ideas.
Las bases de conocimiento de
estos sistemas inteligentes, no son más que un tesauro enriquecido con
información morfológica, sintáctica y semántica, esto es, una ontología cuyo vocabulario se extrae
de los documentos de un área específica del conocimiento, de un campo
especializado del saber. Al tratarse de un vocabulario muy especializado, los
documentalistas no poseen las competencias necesarias para el análisis de este
campo del saber y, por tanto, estas competencias se extraen del propio
documento, del conocimiento que los expertos han plasmado en él. Un
conocimiento que va más allá de lo puramente semántico, puesto que se trata de
un conocimiento pragmático, ya que se extraen porciones de realidad. Para
llevar a cabo este tipo de análisis tan complejo, se necesita un trabajo
multidisciplinar en donde intervengan expertos estadísticos, informáticos,
lingüistas e ingenieros de la inteligencia artificial.
La diferencia entre los
tesauros y las ontologías es que los tesauros contienen relaciones
de asociación, pero las ontologías especifican cómo es esa
asociación y la representan mediante estructuras en forma de árbol o en
planos. Los nuevos programas de software para la gestión del conocimiento
realizan una indización automática representando el contenido utilizando
conceptos y algoritmos muy complejos. Conjugan software
para el tratamiento del texto completo y la gestión electrónica de
documentos, con software para el procesamiento del lenguaje natural, lo que
permite indizar el documento no sólo mediante palabras clave, sino también
analizando el texto completo, y utilizar el lenguaje natural tanto para la
indexación como para la formulación de preguntas en las búsquedas. Los
sistemas más complejos combinan el modelo lingüístico con el estadístico y
suelen estar conformados por 4 módulos distintos: un módulo de construcción
de reglas para la canonización de las palabras flexivas y derivativas, un
motor de indización, un módulo de cálculo estadístico y una base del
conocimiento o diccionario electrónico. Se trata no sólo de sistemas de
Gestión Electrónica de Documentos (GED), sino de verdaderos Sistemas de
Gestión del Conocimiento (SGC) en los que el motor de indización y los
métodos de Procesamiento del Lenguaje Natural (PLN) cumplen un papel
fundamental.
Dentro de las distintas etapas
de la indización automática que hemos analizado anteriormente, podemos
destacar, a su vez, las distintas herramientas o instrumentos de análisis
utilizados en el procesamiento lingüístico de los documentos, que también han
ido variando con el paso del tiempo. Podemos destacar 3 instrumentos
principales:
-
diccionarios:
para
llevar a cabo el análisis morfológico y sintáctico utilizando reglas
gramaticales
-
tesauros:
para
llevar a cabo el análisis semántico mediante el establecimiento de
enlaces de equivalencia, jerarquía o asociación a la hora de aplicar las
reglas documentales
-
ontologías:
para
indicar los tipos de relaciones que se dan entre los conceptos, con el fin
de eliminar las ambigüedades en el contenido de los documentos.
Herramientas automáticas, programas de
indización y análisis textual, y otros motores lingüísticos
Un documento
etiquetado con un lenguaje de marcado
tipo HTML, SGML o
XML, en realidad funciona como una base de datos
textual, que puede ser gestionada por un programa informático. Esta
combinación ha dado lugar al llamado "Análisis Textual Asistido por
Ordenador", que permite a los lingüistas, estudiosos de la literatura y
documentalistas, recorrer el texto de nuevas formas y obtener nuevos datos.
Pero también existe el análisis de textos a partir de documentos no
etiquetados previamente. Existen muchos sistemas comerciales para indizar de
forma automática, sin embargo la mayor parte de estas herramientas no realizan
únicamente funciones de indización, sino que son gestores documentales que,
además de procesar la información, tienen capacidad para almacenar y recuperar
los documentos. TACT o Text
Analysis Computing Tools es una herramienta para el
análisis textual.
http://tactweb.humanities.mcmaster.ca/tactweb/doc/tact.htm Se trata de un
"paquete" de software compuesto por una serie de programas que funcionan de forma
independiente. Entre otras posibilidades TACT permite:
-
Extraer de un texto listados de
concordancias KWIC (Key Word In Context), donde la palabra clave
aparece en un contexto de extensión predefinida.
-
Extraer de un texto listados de
concordancias KWOC (Key Word Out Context), o de contexto variable, cuya
extensión puede ser establecida por el usuario.
-
Obtener las secciones de texto (o
incluso el texto completo) donde aparece una forma determinada.
-
Obtener gráficos de distribución,
que nos muestran cómo se distribuye a lo largo del corpus la forma que nos
interesa.
SPIRIT es un indexador
automático con un motor de búsquedas inteligentes y que utiliza el lenguaje
natural.
http://www.spiritengine.com/.
Permite la indexación automática de una gran diversidad de
tipos de información (archivos .doc, .pdf, .rtf. html, contenido de sitios
Intranet o Internet, información proveniente de bases de datos, etc.) y
contiene un módulo de categorización automática que permite utilizar una
taxonomía estándar o definir una personalizada. La búsqueda en el
interior de un sistema de información se hace mediante el navegador y la
tecnología de análisis lingüístico permite a los usuarios formular las
preguntas en lenguaje natural utilizando frases usuales. Se
obtienen así los documentos buscados mediante un conjunto de términos
utilizados por los creadores de documentos, teniendo en cuenta los sinónimos y
las expresiones con un sentido similar.
Durante el proceso de indexación, se tienen en consideración los
enlaces entre los textos y las relaciones lingüísticas, analizando los
contenidos en función de:
-
Detección
automática de los errores tipográficos
-
Eliminación
de los palabras no útiles en función de su categoría gramatical
- Determinación
de la forma normalizada (canonización)
-
Resolución
de los casos de homografía
-
Identificación
automática de las expresiones más utilizadas
-
Ponderación
de las palabras
y expresiones mediante un
análisis estadístico del texto
El
trabajo de análisis morfológico y sintáctico del texto se realiza mediante
diccionarios con miles de entradas, que incorporan las diferentes formas de un
mismo término: singular, plural, masculino, femenino, formas conjugadas de los verbos, etc.
Además, el sistema posee un léxico de expresiones idiomáticas que integran las
siglas en sus formas desarrolladas, las locuciones, etc. La eliminación de palabras no útiles se realiza en función de
criterios gramaticales y morfológicos, normalizando las palabras útiles. En
el caso de homografías, se efectúa una normalización de las
categorías gramaticales. Por ejemplo, se distingue "libro", nombre
común de "libro", forma conjugada del verbo "librar". También permite hacer búsquedas
de términos semánticos mediante otros sinónimos o equivalente. Existen
muchas reglas para descifrar los sinónimos.
Los documentos que
responden a las preguntas formuladas se presentan en una lista de textos
clasificados por orden de pertinencia. Esto viene determinado por las "dependencias
lingüísticas" entre los términos de la pregunta y los encontrados
dentro de los documentos base.
Muchos indizadores
automáticos permiten hacer las preguntas para las búsquedas en múltiples
idiomas.
Otras herramientas son los Motores lingüísticos
de Signum, ofrecidos en la web lenguaje.com,
http://www.lenguaje.com/,
el sitio
de la ingeniería del lenguaje en español. Entre estos motores
encontramos:
-
Lematizador: que reconoce un palabra y presenta su lema
(raíz) e información sobre el tipo de inflexión o derivación de la palabra
consultada. Por ejemplo, en el caso de la palabra perrita, el lematizador determina que se trata del lema
perro
con los atributos femenino, plural y diminutivo. Similarmente, si
ingresamos la palabra leerá, nos indicará que es el futuro del
indicativo del verbo leer en la
tercera persona del singular. El motor de lematización tiene
capacidad para almacenar información adicional para cada lema: definición, sinónimos,
información semántica, imagen o cualquier otro dato que el usuario desee
asociar con la palabra. El motor se puede probar en línea en:
http://www.lenguaje.com/herramientas/lematizador.php
-
Motor de flexiones:
El motor de flexiones de SIGNUM provee la
funcionalidad de generar todas las flexiones de una palabra española.
Dependiendo de la naturaleza de la palabra, se generan, entre otras, las
flexiones de género, número, diminutivos, aumentativos, superlativos y
derivaciones peyorativas; en el caso de los verbos, todas las conjugaciones
verbales y los enclíticos más comunes. Este motor recibe como entrada una
palabra, analiza si está correctamente escrita y la encuentra en su base
léxico-morfológica, procede a generar todas las derivaciones morfológicas que
el vocablo puede aceptar y, adicionalmente, proporciona información sobre el
tipo de derivación generada. También puede generar una flexión específica,
dado un lema y la especificación morfológica. Por ejemplo, si se ingresa el
término el término perro, obtendremos las distintas morfologías de este
sustantivo (perro/a, perros/as, perritos/as, perrillo/a, perrillos/as,
perrazo/a, perrazos/as, perrote/a y perrotes/as). El conjugador se puede probar en :
http://www.lenguaje.com/herramientas/conjugador.php
-
Motores de corrección
ortográfica: con un vocabulario para más de 5 millones de palabras y
que comprende muchos términos locales y técnicos. Reconocimiento inteligente y
señalamiento de los conflictos homófonos y parónimos del español. Aclara dudas
y genera resultados didácticos. Detecta errores fáciles de cometer y ofrece
sugerencias opciones de corrección ortográfica para adaptarse al nivel
ortográfico del usuario. Más
información sobre cómo funciona el motor en:
http://www.lenguaje.com/desarrollo/motor_ortografica.php Esta herramienta
se puede probar en línea en:
http://www.lenguaje.com/herramientas/verificador.php
-
Motores de sinónimos y
antónimos: acepta las diferentes formas de una palabra raíz y
presenta sinónimos en la misma forma: modo, tiempo, número y
persona, si se trata de un verbo, y género, número, diminutivos,
aumentativos, despectivos y/o superlativos, cuando es un sustantivo, adjetivo,
pronombre o adverbio. Por ejemplo, para el término librito se
tienen los sinónimos obrita, tratadito, manualito y textito, entre otros. Este diccionario contiene
miles de entradas y miles de sinónimos, antónimos y
expresiones relacionadas. El motor puede presentar la categoría
gramatical de cada sinónimo y antónimo encontrado, así como también,
indicar su morfología. Es el motor que está incluido en Microsoft Office. El
motor se puede probar en:
http://www.lenguaje.com/herramientas/tesauro.php y la información
está en:
http://www.lenguaje.com/desarrollo/motor_sinonimos.php
-
Motor de conjugaciones:
puede generar, con total exactitud, la conjugación completa de más
de 13.000 verbos. Incluye todos los modos verbales, tiempos, números y personas.
El motor de conjugaciones se puede probar en la URL:
http://www.lenguaje.com/herramientas/conjugador.php y la información en:
http://www.lenguaje.com/productos/motores/conjugacion.php
-
Motor
de guiones: separa una palabra en sílabas y corta la palabra en puntos
estratégicos para que cuando ésta se divida al final de una línea, el
resultado sea estético y fácil de leer. Por ejemplo: "bien-in-ten-cio-na- do"
y no "bie-nin-ten-cio-na-do", "en-hora-bue-na" y no "enho-ra-bue-na". El silabeador y guionizador se puede probar en la URL:
http://www.lenguaje.com/herramientas/silabeador.php y la información sobre el
motor de guiones en:
http://www.lenguaje.com/desarrollo/motor_guiones.php
-
Motor de semejanza fonética: que aumenta la versatilidad de
aplicaciones que trabajan con el lenguaje natural. Sus aplicaciones pueden incluir la
función cómo suena para el español. Esto tiene
muchos usos, por ejemplo búsqueda de palabras en textos completos,
reconocimiento del habla, generación de homófonos y parónimos, detección
de marcas y nombres comerciales semejantes y sugerencias en caso de palabras
mal escritas, entre otros. El motor se puede probar en:
http://www.lenguaje.com/herramientas/fonetica.php
-
Revisor
de Signum: es un paquete integrado
que contiene un verificador o corrector ortográfico, diccionario de sinónimos
y antónimos (tesauro), conjugador de verbos y silabeador-guionizador.
http://www.lenguaje.com/productos/productos.php
Existen otra serie de
herramientas que no se limitan a los aspectos lingüísticos, sino que categorizan
y hacen un tratamiento y análisis inteligente de la información. Es el caso de
Online
Miner, una herramienta para la búsqueda, categorización y
tratamiento y análisis inteligente de la información textual, tanto si se
encuentra estructurada como si no. Recupera documentos y los estructura en
formato XML. También extracta, organiza y monitoriza características
importantes en los documentos de texto. Finalmente, organiza los documentos en
grupos coherentes para facilitar la navegación dentro de la colección
documental. Online Miner ha sido desarrollado por la empresa francesa
TEMIS:
http://www.temis-group.com/index.php?id=88&selt=1 Esta herramienta
integra, a su vez, otra serie de herramientas que se pueden utilizar por
separado, se trata de:
Extractor: herramienta que usa una avanzada tecnología lingüística y
semántica para extractar conocimiento de documentos estructurados.
Identifica los conceptos y las relaciones entre conceptos y está guiado por
reglas de extracción de conocimiento especializado.
-
Categorizer:
herramienta que se sirve de
algoritmos matemáticos muy avanzados para asignar categorías a los documentos.
Lee y aprende de un conjunto de documentos que ya están situados en una
determinada categoría. Cuando en el sistema se incluye un nuevo conjunto de
documentos, los categoriza por comparación con los documentos previamente
categorizados. Trabaja en modo "supervisado" y "sin supervisión". Se usa para
organizar bases de conocimiento y es una solución para la sobrecarga de
información. El modo "supervisado" sugiere una o más categorías para cada
documento. El modo automático o no supervisado asigna documentos a las
categorías más relevantes.
Clusterer:
es una
herramienta para estructurar información no estructurada previamente. Clasifica
y reagrupa documentos basándose en su similaridad semántica, dentro de clases
coherentes: los clusters. Clusterer ejecuta automáticamente este proceso
en tiempo real. Crea un árbol de conceptos pertinente para una colección de
documentos dados. Clustering es un proceso iterativo que crea subclusters para
cada cluster. Clusterer ofrece una excelente visibilidad en grandes
conjuntos de documentos y en dominios complejos. El usuario puede navegar dentro
de los clusters para obtener una exhaustiva comprensión de la base
de conocimiento.
Existen numerosas empresas que desarrollan todo
tipo de software para la gestión de documentos, categorización e
indexación. Algunas de ellas son
Verity
http://www.verity.com,
Hummingibird:
http://www.hummingbird.com,
Entrieva:
http://www.entrieva.com/,
Cyberlex
(en español):
http://www.cyberlex.pt/cyberlex_es.html que ha desarrollado
Tropes,
para análisis de textos;
ZyLAB:
http://www.zylab.com/,
Optix:
http://mindwrap.com/,
Interwoven:
http://www.interwoven.com/
o Inmagic:
http://www.inmagic.com/,
aunque existen muchísimas en la red. Todos estos gestores de la información
funcionan de manera excelente en entornos finitos, homogéneos y, normalmente,
monolingües como es una Intranet, donde los documentos suelen centrarse en una
área temática determinada y así la selección, descripción y organización de
recursos se suele referir a un área concreta del conocimiento bastante más fácil
de tipificar que el entorno Internet, que es un
ámbito
no finito, multilingüe
y muy heterogéneo. De esta forma, normalizar los atributos de los
metadatos aplicables o categorizar e indizar
los documentos de un entorno cerrado ya sea utilizando listas de autoridad,
vocabularios controlados, clasificaciones y tesauros, o extrayendo la
información descriptiva de forma automática mediante búsquedas en el texto
completo, es una tarea mucho más sencilla que en un entorno abierto como es la
Web.
De cualquier forma, también existen una serie de herramientas muy
sofisticadas enfocadas para la recuperación y búsqueda
de información en la Web, tales como Harvest
http://sourceforge.net/projects/webharvest/,
un paquete de aplicaciones que sirve para indizar webs y que ha sido
diseñado para la indización distribuida. También incluye Harvest-NG o Harvest-Next
Generation:
http://webharvest.sourceforge.net/ng/,
un crawler o
robot de indización web basado en Perl.
Más información sobre esta herramienta se puede obtener en:
http://www.searchtools.com/tools/harvest.html Dentro del
proyecto Desiré
impulsado por la Unión Europea se desarrolló el
sistema Combine
(http://combine.it.lth.se/),
una herramienta de harvesting y threshing (indización)
para indizar recursos de Internet y que hoy se
perfecciona y continúa a través del
proyecto Alvis
(http://www.alvis.info/alvis/)
que desarrolla un paquete de aplicaciones con varias herramientas que
incluyen un crawler, un lector de RSS, un
extractor de bases de datos en XML,
herramientas de etiquetado e indización, recursos
para procesar información lingüística y semántica, y una
interfaz de búsqueda capaz de usar redes P2P.
La arquitectura de este complejo, completo e interesante sistema se puede ver
en:
http://www.alvis.info/alvis/architecture.
Y, por supuesto, también existen indizadores para
imágenes, entre los que cabe destacar
aLIP (Automatic
Linguistic Indexing of Pictures):
http://wang.ist.psu.edu/IMAGE/alip.html,
SIMPLIcity (Semantics-sensitive Integrated Matching for Picture Libraries) http://wang14.ist.psu.edu/cgi-bin/zwang/regionsearch_show.cgi o
Story Picturing
Engine:
http://wang.ist.psu.edu/IMAGE/SPE/. Algo más completo es
VIA2 Platform:
http://www.visualcentury.com/products/via2platform.htm un paquete de
arquitectura modular basado en XML que sirve para
gestionar vídeo, audio e
imágenes y que permite un análisis inteligente para
extractar información
en estas morfologías. Entre las
funciones que ofrece están las de indizar, anotar,
etiquetar con metadatos y realizar búsquedas. Los
metadatos se extraen automáticamente de la secuencia de
vídeo y
audio en
tiempo real.
Una exhaustiva lista de herramientas de búsqueda que contiene, entre otras,
muchas herramientas para indización tanto de sitios web como de
Intranets, se puede encontrar en "Search Tools Listings in Alphabetical Order":
http://www.searchtools.com/tools/tools.html donde también se informa
detalladamente de cómo funciona un indizador en: "Site Search Indexing":
http://www.searchtools.com/guide/index.html#Indexer
Bibliografía
Alvis. Home Page.
http://www.alvis.info/alvis/
CODINA, Lluis. MARCOS, Mari Carmen. "Posicionamiento web: conceptos y
herramientas". El profesional de la información, v. 14, n. 2,
marzo-abril, 2005.
http://www.mcmarcos.com/pdf/2005_posicionamiento-epi-maq.pdf
Corpora
and Corpus Annotation Tools on the WWW (collected by Markus Dickinson and
Detmar Meurers (OSU), February, 2002)
http://www.ling.ohio-state.edu/~dickinso/corpus.html
LOPEZ UREÑA, L. Alfonso
Resolución de la ambigüedad léxica en Tareas de Clasificación Automática de
Documentos.
http://www.sepln.org/monografiasSEPLN/monografiaUrena.pdf
MOREIRO
GONZÁLEZ, José Antonio.
"Aplicaciones al análisis automático del contenido provenientes de la
teoría matemática de la información". Anales de Documentación
N.º 5, 2002. http://www.um.es/fccd/anales/ad05/ad015.pdf
PEÑAS
PADILLA, Anselmo. Técnicas lingüísticas aplicadas a la búsqueda textual
bilingüe: Ambigüedad, variación terminológica y multingüismo.
http://www.sepln.org/monografiasSEPLN/monografiaAnselmo.pdf
Search Tools for Web Sites and Intranets. Home Page.
http://www.searchtools.com/
Search
Tools Products Listings in Alphabeticarl Order:
http://www.searchtools.com/tools/tools.html
SIGNUM. Motores para el procesamiento del
español.
http://www.lenguaje.com/desarrollo/desarrollo.php
SIGNUM.
http://www.lenguaje.com/
Sociedad Española para el
Procesamiento del Lenguaje natural (SEPLN).
http://www.sepln.org
SPIRIT.
http://www.spiritengine.com/
TACTWeb
1.0 Home Page. http://tactweb.humanities.mcmaster.ca/tactweb/doc/tact.htm
The Combine Harvesting Robot.
http://combine.it.lth.se/
Visual Century.
http://www.visualcentury.com/

|