|


Un resumen es una representación abreviada, objetiva y
precisa del contenido de un documento o recurso. El objeto de un resumen es
exponer de forma breve los contenidos principales de un documento con el fin de
facilitar su indización, búsqueda y recuperación, así como dar a conocer de
antemano el contenido del documento o recurso para que el usuario decida sobre
la conveniencia de consultar o no el texto completo.
He aquí algunas de las definiciones ya clásicas sobre
resumen:
Paul Otlet en su
Tratado de Documentación, define la operación de resumir de la forma
siguiente: "consiste en el análisis bajo forma sucinta de lo que se contiene en
los documentos".
Para Van Dijk
"un resumen es la manifestación textual de la macroestructura de un texto". Para
este mismo autor, resumir es la operación por la que se abrevia el contenido de
un documento y se le representa por un cierto número de oraciones que expresan
la sustancia.
Para Cleveland:
"resumir es es un procedimiento complejo dirigido a representar el contenido de
los documentos analizados en orden a guiar al usuario en la información
apropiada.
José López Yepes
define resumir como una técnica documental que nace de la ciencia moderna y cuyo
resultado, el resumen, es un documento secundario que se desarrolla sobre un
vehículo informativo, como es la publicación de carácter científico.
Para Moreiro
González, "resumir es una actuación sobre el contenido de los documentos
para aminorar la abundancia de información contenida en ellos y para realzar
aquellas partes del mensaje que más convienen a los usuarios. Tras ello el
mensaje del documento original queda transformado, pasando a formar un nuevo
documento que conocemos como resumen: texto autónomo, breve y completo
gramaticalmente, que recoge el contenido substantivo de otro, primero u
original."
Para María Pinto Molina, el
resumen es un nuevo documento representativo del original, que debe incluir
todos los aspectos destacados del documento original siguiendo el estilo y la
ordenación del documento original, y evitando cualquier apreciación y juicio
crítico. María Pinto Molina define la operación de resumir como un proceso
general que implica la metamorfosis que deben experimentar los documentos
textuales desde su estado inicial microestructural (o estructura de superficie
léxico-sintáctica) hasta la obtención, y posterior descripción de su
macroestructura (o estructura profunda lógico-semántica). Para esta autora, se
trata de una tarea de reducción informativa y de una operación de reconstrucción
textual en modelo reducido y, por tanto, es muy difícil cualquier intento de
normalización.
Sin embargo, existen varios estándares internacionales
referidos a los resúmenes, entre los que destacan las siguientes normas:
-
ISO
214:1976. Documentation. Abstracts for publications
and documentation. Esta norma se centra en el tratamiento del contenido de
los documentos y su presentación, y su equivalente en español es la norma:
UNE 50-103-1990.
Tipos de resúmenes:
Se puede establecer una tipología de los
resúmenes atendiendo a distintas perspectivas, entre las que podemos destacar:
Según su autor:
-
el autor es el propio
autor del documento
-
el autor es un experto en la materia tratada (es
estos 2 casos, el autor del resumen es quien mejor conoce la materia tratada,
pero puede carecer de experiencia en las técnicas del resumen y análisis
documental).
-
el autor es un documentalista: en este caso, el
autor del resumen conoce las técnicas del resumen y del análisis documental,
pero puede ser inexperto en la materia tratada.
Según su uso:
-
documento primario: el resumen aparece como una
introducción al comienzo del propio documento.
-
documento secundario: el resumen aparece separado del propio
documento a modo de referencia, ya sea formando parte de un índice, catálogo,
bibliografía o sumario que contenga resúmenes.
-
base de datos: conjunto de resúmenes que reciben
un tratamiento automatizado.
Según su densidad o amplitud:
-
resumen indicativo o descriptivo: se trata de un resumen brevísimo que suele
constar del título del documento ampliado con algún pequeño detalle o
aclaración. Un resumen indicativo no debe contener más de 20 palabras.
-
resumen informativo: este resumen, de entre 50 a 150 palabras como máximo,
contiene la idea general y otra información relacionada como los resultados y
las conclusiones fundamentales.
-
resumen crítico o analítico: se trata de un resumen algo más
detallado y que generalmente consta de entre 150 a 300 palabras.
Según la forma de presentación:
-
resumen en texto libre:
-
resumen estructurado:
-
resumen tabular: presenta las información a modo de
sumario presentado en forma de tablas.
-
resumen modular: presenta la información en distintos
niveles de descripción analítica (nivel referencial, anotación, resumen
indicativo, informativo, crítico, etc.).
Según el modo de distribución o difusión:
-
simultánea: el documento y su resumen se
muestran conjuntamente.
-
sumario de resúmenes: los resúmenes se agrupan y
estructuran siguiendo algún sistema de clasificación preestablecido.
-
bases de datos: los resúmenes de agrupan y
estructuran en una base de datos para permitir una búsqueda y acceso más
rápidos.
La anterior clasificación también puede subdividirse en:
Según el modo de edición y
publicación:
-
resumen analógico: en formato
impreso
-
resumen digital: en formato
digital (CD-ROM, DVD, Web, etc.)
Según la técnica de elaboración
empleada:
-
manual: realizado por mediación humana. El autor
del resumen puede ser el propio autor del documento original que es quien mejor
conoce el tema, o un especialista en la materia tratada. Un problema que puede
derivarse de este tipo de autorías es que tanto el autor como los especialistas
en una materia concreta pueden conocer muy bien el tema, pero desconocer la
metodología del resumen y el análisis documental. En el caso contrario
encontramos los resúmenes elaborados por documentalistas, quienes pueden conocer
perfectamente la metodología del resumen, pero también deben conocer la materia
tratada.
-
automatizado: resumen realizado por métodos
mecánicos, sin intervención humana.
Para elaborar un buen resumen se precisa, además de
seleccionar la información esencial, omitir toda la información accesoria que
desvíe del tema principal, y sintetizar al máximo utilizando términos generales
y significativos que ayuden a la comprensión global del documento, evitando
siempre los juicios de valor.
El resumen de documentos ha sido siempre considerado una labor lenta y tediosa
para los profesionales de la documentación, además de un trabajo técnico complicado.
Se necesita mucha rapidez para tener actualizados y al día los resúmenes de esa ingente cantidad de documentos
que entran o se gestionan en cualquier unidad documental. Antes de
la aparición de la
World Wide Web, ya existieron algunos avances enfocados hacia
la automatización de esta tarea, aunque ha sido la explosión de
Internet, el
verdadero motor del resumen automático de documentos.
¿Cómo obtener únicamente los documentos
y la información que nos interesa entre toda la maraña de documentos y
millones de páginas que pueblan la red? Una ayuda importante sería que alguien
o algo nos informara del contenido de los documentos para así obtener, filtrar,
clasificar y extraer la información que nos interese. El
buscador perfecto sería
aquél que encontrara la información que buscamos preguntándole en nuestro
propia lengua, que nos presentara los documentos por orden de relevancia (en una
o varias lenguas), que los clasificara de acuerdo a uno o unos criterios dados y
que hiciera un resumen sintético del contenido de cada documento en nuestra
propia lengua.
El resumen automático de
documentos está íntimamente relacionado con el análisis del contenido y con la
búsqueda y recuperación de
información, esto es, con poder obtener los documentos que se ajustan a unos
criterios dados y con la posibilidad de extraer de ellos sólo la información
que nos interesa, generando, por ejemplo, un nuevo documento en el que se
presente sólo la información
relevante o creando algún tipo de estructura temática en el que aparezcan
clasificados dichos documentos. Las dos líneas de investigación actuales en el
ámbito del resumen documental tienen que ver con estos dos aspectos: el de la búsqueda
y recuperación de la información documental, y el de la extracción de la
información relevante.
Existen 3 tipos de resúmenes
automáticos, aunque muchos sistemas son híbridos y combinan varias de estas
técnicas:
Resúmenes por extracción: operan sobre uno o varios documentos
entresacando la información más relevante por medio de la extracción de las
oraciones que responden a unos criterios determinados y presentando únicamente
las oraciones del texto original que más se ajustan a los criterios dados.
Seleccionan la información en función de la frecuencia de las palabras clave,
de la localización de información y de otros parámetros relevantes. Los
sistemas de extracción más sofisticados son capaces, también, no sólo de
extraer oraciones, sino de insertar material léxico para que el texto
resultante tenga cohesión.
Resúmenes por abstracción: no se limitan a extraer las oraciones
del texto original, sino que generan un nuevo documento con una nueva redacción,
a partir de la información contenida en el primero. Este tipo de resúmenes
presentan una excesiva dificultad técnica y la investigación
en este ámbito apenas ha comenzado a dar sus primeros pasos por medio de los
recientes avances en el procesamiento del lenguaje natural.
Resúmenes
gráfico-relacionales: basados en técnicas vectoriales y algoritmos
gráficos de mapeo de la información que comparan conjuntos de documentos para
extraer sus similitudes y diferencias .
Los sistemas de resumen automáticos,
al contrario de lo que pudiera pensarse, no se construyen para que imiten los
razonamientos de la mente humana, sino que siguen otras estrategias distintas
que tienen como fin emular un comportamiento inteligente, pero diferente del
pensamiento racional humano. A nadie se le escapa la dificultad técnica que
supone la puesta en marcha de cualquier sistema de resumen automático, una
dificultad que tiene que ser resuelta por medio de la colaboración entre
agentes de diversas disciplinas y campos dispares como la inteligencia
artificial, la ingeniería lingüística, la informática, las ciencias de la
información y documentación, etc. Por otro lado, tampoco existe un único
enfoque a la hora de plantearse la cuestión central de en qué debe consistir
un resumen automático, sino que tal enfoque puede obedecer a muy diversos
factores dependiendo del tipo de resumen que persigamos, del tipo de documentos
que tomemos como origen (artículos, noticias, páginas web, mensajes de correo electrónico,
listas, etc.), del lenguaje en que estén construidos (HTML,
XML, texto sin
marcas...), de si el documento o el texto presentan algún tipo de estructura,
etc.
La tipología de los resúmenes
automáticos es muy variada y por lo tanto, cada uno de estos tipos necesita un
determinado tipo de técnicas y tratamientos diferentes. No es lo mismo un
resumen meramente indicativo (para utilizarse en la clasificación y filtrado de
documentos) que un resumen informativo (para ser leído como abstract o como
sustituto del documento completo), un resumen genérico que un resumen guiado
(en respuesta a una búsqueda concreta), un resumen genérico que un resumen de
actualización (que obvie la información conocida y aporte sólo los elementos
nuevos), un resumen multidocumental (que condense en un único documento otros
documentos que tratan sobre el mismo tema o búsqueda) o un resumen multinivel (que ofrezca distintos niveles de comprensión del documento original), etc.
Técnicas del resumen documental
El resumen automático
de documentos se puede realizar de muy diversas formas, pero las técnicas
utilizadas se pueden englobar en 3 grandes grupos:
-
Técnicas sin análisis
lingüístico: tratan el texto de forma superficial, como si se tratara
de una simple cadena de caracteres. La oración se distinguiría como una
cadena que comienza por una mayúscula y termina con un punto. Los métodos
son variados: selección de los términos más frecuentes y extracción de
las oraciones que los contienen, selección de fragmentos que ocupan
posiciones destacadas como el título, subtítulos, encabezamientos, o las
que contienen cadenas de caracteres tales como: es importante, en
conclusión, en suma, en resumen, etc.
-
Técnicas basadas en el análisis
lingüístico morfosintáctico: permiten reconocer las unidades
lingüísticas mediante algún tipo de reconocimiento y clasificación del
léxico utilizando, por ejemplo, analizadores morfológicos y
desambiguadores léxicos, lematizadores, sistemas de resolución de
referencias anafóricas, bases de conocimiento léxico, reconocedores de
entidades que no forman parte de los diccionarios o vocabularios
comunes, como por ejemplo, siglas o nombres propios, etc. Esto
permite representar las conexiones del texto en forma de grafos para
determinar qué oraciones son las más relevantes para el resumen.
-
Técnicas basadas en la estructura discursiva: se
trata ya de técnicas muy sofisticadas en donde entra en juego la
ingeniería lingüística puesto que se trata de analizar la estructura
argumental del documento para poder detectar los fragmentos más relevantes.
Para ello, serán de gran ayuda la detección y análisis de marcadores
discursivos tales como ejemplo: "en primer lugar", "en segundo
término", "por el contrario", "sin embargo", "además", "es importante", "en
conclusión", "en suma", "en resumen", etc. También es importante la estructura del propio documento hipertextual
ya que la propia armazón
del documento HTML permite reconstruir la estructura argumental del
documento y de los fragmentos más relevantes. Por otro lado, será más fácil
de analizar aún, cualquier documento estructurado en
XML
que contenga
metadatos,
esquemas o que contenga algún tipo de
estructuración semántica basada en
RDF,
OWL o cualquier otro
lenguaje de estructuración semántica.
Algunos ejemplos de herramientas y programas para realizar resúmenes automáticos
Extractor: Software que resume de forma
automática, texto. correos electrónicos y páginas web. Toma un archivo de texto
y genera una lista de palabras clave y una lista de frases.
http://www.extractor.com/
SweSum: software de
resumen automático de texto desarrollado por Hercules Dalianis y Martin Hassel.
http://www.nada.kth.se/~xmartin/swesum/index-eng.html.
La demo resume del inglés, francés, alemán, sueco y español. Permite
establecer el porcentaje de resumen del texto y ofrece palabras clave y
estadísticas.
Summarizer: programa
desarrollado por Copernic produce instantáneamente un resumen del
documento seleccionando frases completas del texto original. No utiliza la
estructura formal de encabezados, subtítulos, etc., ni los puntos de enumeración.
Funciona automáticamente en 4 idiomas: español, inglés, francés y alemán;
reconoce varios formatos de texto: Word, pdf, HTML, etc. y se coloca en el
navegador web donde, en la parte inferior de la pantalla, muestra el
resumen de la página web. También permite seleccionar texto, arrastrarlo y
llevarlo a la barra de navegación para que forme parte del resumen. http://www.copernic.com/en/products/summarizer/ La forma de
funcionar es la siguiente: se
prepara el documento mediante una conversión en un formato estándar, se
detecta el idioma y luego se aíslan los segmentos de información en el texto y
se asocia un contexto de uso para cada palabra. Luego se extraen los conceptos
claves del texto, su estructura nuclear y se chequea que funcionan con la
totalidad del documento. Con la información recopilada, el programa selecciona
las frases que formarán el resumen. Se puede elegir el tanto por ciento de reducción.
También podemos comprobar, sin conexión a la red, el
elemental sistema de autorresumen que nos ofrece el procesador de textos Microsoft
Word y al que se accede desde el menú Herramientas/Autorresumen.
De cualquier forma, existen numerosos productos comerciales que realizan estas
tareas. Una lista exhaustiva se relaciona en el apartado de esta tesis:
Recursos Resumen Automático de documentos.
Ejemplos de resúmenes:

Fuente: NovaTIca.
http://www.ati.es/novatica/2002/155/nv155sum.html#art9

Fuente: Universidad Complutense. Cisne. Catálogo de la
Biblioteca.
http://cisne.sim.ucm.es/search*spi~S7/X?SEARCH=hipertexto&searchscope=7&SORT=D

Fuente: Biblioteca de la Universidad de Sevilla. Sumarios
electrónicos. Base de datos Summarev.
http://bib.us.es/summarev/articulos/indice.asp
Bibliografía
ANGHELUTA, Roxana. DE BUSSER, Rik. MOENS, Marie-Francine. The use of topic
segmentation for Automatic Summarization.
http://www-nlpir.nist.gov/projects/duc/pubs/2002papers/kuleuven_angheluta.pdf
BARDIN. Análisis del contenido. Madrid, Akal, 1986.
CLEVELAND, D. & A. Introduction to indexing and
abstracting. Linttleton, Libraries Unlimited, 1983.
[Volver]
CRAVEN,
Timothy C. "Human creation of abstracts with selected computer assistance
tools". Information Reserarch, Vol. 3. Nº 4, April 1998.
http://informationr.net/ir/3-4/paper47.html
ESCARPIT, R. Teoría general de la información y de la comunicación.
Barcelona, Icaria, 1981.
Extractor.
http://www.extractor.com/
LOPEZ
UREÑA, L. Alfonso Resolución de la ambigüedad léxica en Tareas de
Clasificación Automática de Documentos.
http://www.sepln.org/monografiasSEPLN/monografiaUrena.pdf
LÓPEZ YEPES, José. "Investigación
científica. Ciencia de la documentación y Análisis documental".
Documentación de las Ciencias de la Información, 1989, nº 12.
[Volver]
MOREIRO GONZÁLEZ; J. A. "El resumen científico en el
contexto de la teoría de la documentación". Documentación de las Ciencias
de la Información, 1989, nº 12. [Volver]
OTLET, Paul. Traité de Documentation. Le
livre sur le livre. Theorie et practique. Bruselas, Ed. Mundaneum, 1990.
[Volver]
PINTO MOLINA,
María Organización, filtración y
representación de la información.
http://www.mariapinto.es/e-coms/or_con_elect.htm
PINTO MOLINA, María. El resumen documental.
Principios y métodos. Salamanca, Fundación Germán Sánchez Ruipérez, 1992.
[Volver]
PINTO MOLINA ,
M. GARCÍA MARCO,
F.J. AGUSTÍN LACRUZ,
C. Indización y resumen de
documentos digitales y multimedia: técnicas y procedimientos.
Gijón, Trea, 2002.
PINTO, M. MITRE, M. DOUCET, A-V. SÁNCHEZ, M.J.
Aprendiendo a resumir: Prontuario de resolución de casos. Gijón, Trea, 2005.
Summarizer.
http://www.copernic.com/en/products/summarizer/download.html
SweSum.
http://www.nada.kth.se/~xmartin/swesum/index-eng.html
VALLE GASTAMINZA, Félix del. Resumen.
http://www.ucm.es/info/multidoc/prof/fvalle/Resumen.pps
VAN DIJK, T.A. La ciencia del texto.
Barcelona, Paidós, 1983. [Volver]
VAN DIJK, T.A. Texto y contexto. Madrid, Cátedra, 1980.

Recursos Resumen automático de documentos
|