Resumen de hipertextos

María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen.


 
 

Inicio     navega al azar mapa conceptual  buscar

Un resumen es una representación abreviada, objetiva y precisa del contenido de un documento o recurso. El objeto de un resumen es exponer de forma breve los contenidos principales de un documento con el fin de facilitar su indización, búsqueda y recuperación, así como dar a conocer de antemano el contenido del documento o recurso para que el usuario decida sobre la conveniencia de consultar o no el texto completo.

He aquí algunas de las definiciones ya clásicas sobre resumen:

Paul Otlet en su Tratado de Documentación, define la operación de resumir de la forma siguiente: "consiste en el análisis bajo forma sucinta de lo que se contiene en los documentos".

Para Van Dijk "un resumen es la manifestación textual de la macroestructura de un texto". Para este mismo autor, resumir es la operación por la que se abrevia el contenido de un documento y se le representa por un cierto número de oraciones que expresan la sustancia.

Para Cleveland: "resumir es es un procedimiento complejo dirigido a representar el contenido de los documentos analizados en orden a  guiar al usuario en la información apropiada.

José López Yepes define resumir como una técnica documental que nace de la ciencia moderna y cuyo resultado, el resumen, es un documento secundario que se desarrolla sobre un vehículo informativo, como es la publicación de carácter científico.

Para Moreiro González, "resumir es una actuación sobre el contenido de los documentos para aminorar la abundancia de información contenida en ellos y para realzar aquellas partes del mensaje que más convienen a los usuarios. Tras ello el  mensaje del documento original queda transformado, pasando a formar un nuevo documento que conocemos como resumen: texto autónomo, breve y completo gramaticalmente, que recoge el contenido substantivo de otro, primero u original."

Para María Pinto Molina, el resumen es un nuevo documento representativo del original, que debe incluir todos los aspectos destacados del documento original siguiendo el estilo y la ordenación del documento original, y evitando cualquier apreciación y juicio crítico. María Pinto Molina define la operación de resumir como un proceso general que implica la metamorfosis que deben experimentar los documentos textuales desde su estado inicial microestructural (o estructura de superficie léxico-sintáctica) hasta la obtención, y posterior descripción de su  macroestructura (o estructura profunda lógico-semántica). Para esta autora, se trata de una tarea de reducción informativa y de una operación de reconstrucción textual en modelo reducido y, por tanto, es muy difícil cualquier intento de normalización.

Sin embargo, existen varios estándares internacionales referidos a los resúmenes, entre los que destacan las siguientes normas:

  •  ISO 214:1976. Documentation. Abstracts for publications and documentation. Esta norma se centra en el tratamiento del contenido de los documentos y su presentación, y su equivalente en español es la norma: UNE 50-103-1990.

Tipos de resúmenes:

Se puede establecer una tipología de los resúmenes atendiendo a distintas perspectivas, entre las que podemos destacar:

Según su autor:

  •  el autor es el propio autor del documento

  •  el autor es un experto en la materia tratada (es estos 2 casos, el autor del resumen es quien mejor conoce la materia tratada, pero puede carecer de experiencia en las técnicas del resumen y análisis documental).

  •  el autor es un documentalista: en este caso, el autor del resumen conoce las técnicas del resumen y del análisis documental, pero puede ser inexperto en la materia tratada.

Según su uso:

  •  documento primario: el resumen aparece como una introducción al comienzo del propio documento.

  •  documento secundario: el resumen aparece separado del propio documento a modo de referencia, ya sea formando parte de un índice, catálogo, bibliografía o sumario que contenga resúmenes.

  •  base de datos: conjunto de resúmenes que reciben un tratamiento automatizado.

Según su densidad o amplitud:

  •  resumen indicativo o descriptivo: se trata de un resumen brevísimo que suele constar del título del documento ampliado con algún pequeño detalle o aclaración. Un resumen indicativo no debe contener más de 20 palabras.

  •  resumen informativo: este resumen, de entre 50 a 150 palabras como máximo, contiene la idea general y otra información relacionada como los resultados y las conclusiones fundamentales.

  •  resumen crítico o analítico: se trata de un resumen algo más detallado y que generalmente consta de entre 150 a 300 palabras.

Según la forma de presentación:

  •  resumen en texto libre:

    • resumen telegráfico: presenta la información de forma breve y concisa.

    •  resumen discursivo: presenta la información con un estilo fluido y discursivo.

  •  resumen estructurado:

    • resumen tabular: presenta las información a modo de sumario presentado en forma de tablas.

    •  resumen modular: presenta la información en distintos niveles de descripción analítica (nivel referencial, anotación, resumen indicativo, informativo, crítico, etc.).

Según el modo de distribución o difusión:

  •  simultánea: el documento y su resumen se muestran conjuntamente.

  •  sumario de resúmenes: los resúmenes se agrupan y estructuran siguiendo algún sistema de clasificación preestablecido.

  •  bases de datos: los resúmenes de agrupan y estructuran en una base de datos para permitir una búsqueda y acceso más rápidos.

La anterior clasificación también puede subdividirse en:

  •  en línea

  •  fuera de línea

Según el modo de edición y publicación:

  •  resumen analógico: en formato impreso

  •  resumen digital: en formato digital (CD-ROM, DVD, Web, etc.)

Según la técnica de elaboración empleada:

  •  manual: realizado por mediación humana. El autor del resumen puede ser el propio autor del documento original que es quien mejor conoce el tema, o un especialista en la materia tratada. Un problema que puede derivarse de este tipo de autorías es que tanto el autor como los especialistas en una materia concreta pueden conocer muy bien el tema, pero desconocer la metodología del resumen y el análisis documental. En el caso contrario encontramos los resúmenes elaborados por documentalistas, quienes pueden conocer perfectamente la metodología del resumen, pero también deben conocer la materia tratada.

  •  automatizado: resumen realizado por métodos mecánicos, sin intervención humana.

Para elaborar un buen resumen se precisa, además de seleccionar la información esencial, omitir toda la información accesoria que desvíe del tema principal, y sintetizar al máximo utilizando términos generales y significativos que ayuden a la comprensión global del documento, evitando siempre los juicios de valor.

El resumen de documentos ha sido siempre considerado una labor lenta y tediosa para los profesionales de la documentación, además de un trabajo técnico complicado. Se necesita mucha rapidez para tener actualizados y al día los resúmenes de esa ingente cantidad de documentos que entran o se gestionan en cualquier unidad documental. Antes de la aparición de la World Wide Web, ya existieron algunos avances enfocados hacia la automatización de esta tarea, aunque ha sido la explosión de Internet, el verdadero motor del resumen automático de documentos.

¿Cómo obtener únicamente los documentos y la información que nos interesa entre toda la maraña de documentos y millones de páginas que pueblan la red? Una ayuda importante sería que alguien o algo nos informara del contenido de los documentos para así obtener, filtrar, clasificar y extraer la información que nos interese. El buscador perfecto sería aquél que encontrara la información que buscamos preguntándole en nuestro propia lengua, que nos presentara los documentos por orden de relevancia (en una o varias lenguas), que los clasificara de acuerdo a uno o unos criterios dados y que hiciera un resumen sintético del contenido de cada documento en nuestra propia lengua.

El resumen automático de documentos está íntimamente relacionado con el análisis del contenido y con la búsqueda y recuperación de información, esto es, con poder obtener los documentos que se ajustan a unos criterios dados y con la posibilidad de extraer de ellos sólo la información que nos interesa, generando, por ejemplo, un nuevo documento en el que se presente sólo la información relevante o creando algún tipo de estructura temática en el que aparezcan clasificados dichos documentos. Las dos líneas de investigación actuales en el ámbito del resumen documental tienen que ver con estos dos aspectos: el de la búsqueda y recuperación de la información documental, y el de la extracción de la información relevante.

Existen 3 tipos de resúmenes automáticos, aunque muchos sistemas son híbridos y combinan varias de estas técnicas: 

  •  Resúmenes por extracción: operan sobre uno o varios documentos entresacando la información más relevante por medio de la extracción de las oraciones que responden a unos criterios determinados y presentando únicamente las oraciones del texto original que más se ajustan a los criterios dados. Seleccionan la información en función de la frecuencia de las palabras clave, de la localización de información y de otros parámetros relevantes. Los sistemas de extracción más sofisticados son capaces, también, no sólo de extraer oraciones, sino de insertar material léxico para que el texto resultante tenga cohesión.

  •  Resúmenes por abstracción: no se limitan a extraer las oraciones del texto original, sino que generan un nuevo documento con una nueva redacción, a partir de la información contenida en el primero. Este tipo de resúmenes presentan una excesiva dificultad técnica y la investigación en este ámbito apenas ha comenzado a dar sus primeros pasos por medio de los recientes avances en el procesamiento del lenguaje natural.

  •  Resúmenes gráfico-relacionales: basados en técnicas vectoriales y algoritmos gráficos de mapeo de la información que comparan conjuntos de documentos para extraer sus similitudes y diferencias .

Los sistemas de resumen automáticos, al contrario de lo que pudiera pensarse, no se construyen para que imiten los razonamientos de la mente humana, sino que siguen otras estrategias distintas que tienen como fin emular un comportamiento inteligente, pero diferente del pensamiento racional humano. A nadie se le escapa la dificultad técnica que supone la puesta en marcha de cualquier sistema de resumen automático, una dificultad que tiene que ser resuelta por medio de la colaboración entre agentes de diversas disciplinas y campos dispares como la inteligencia artificial, la ingeniería lingüística, la informática, las ciencias de la información y documentación, etc. Por otro lado, tampoco existe un único enfoque a la hora de plantearse la cuestión central de en qué debe consistir un resumen automático, sino que tal enfoque puede obedecer a muy diversos factores dependiendo del tipo de resumen que persigamos, del tipo de documentos que tomemos como origen (artículos, noticias, páginas web, mensajes de correo electrónico, listas, etc.), del lenguaje en que estén construidos (HTML, XML, texto sin marcas...), de si el documento o el texto presentan algún tipo de estructura, etc.

La tipología de los resúmenes automáticos es muy variada y por lo tanto, cada uno de estos tipos necesita un determinado tipo de técnicas y tratamientos diferentes. No es lo mismo un resumen meramente indicativo (para utilizarse en la clasificación y filtrado de documentos) que un resumen informativo (para ser leído como abstract o como sustituto del documento completo), un resumen genérico que un resumen guiado (en respuesta a una búsqueda concreta), un resumen genérico que un resumen de actualización (que obvie la información conocida y aporte sólo los elementos nuevos), un resumen multidocumental (que condense en un único documento otros documentos que tratan sobre el mismo tema o búsqueda) o un resumen multinivel (que ofrezca distintos niveles de comprensión del documento original), etc.

Técnicas del resumen documental

El resumen automático de documentos se puede realizar de muy diversas formas, pero las técnicas utilizadas se pueden englobar en 3 grandes grupos:

  •  Técnicas sin análisis lingüístico: tratan el texto de forma superficial, como si se tratara de una simple cadena de caracteres. La oración se distinguiría como una cadena que comienza por una mayúscula y termina con un punto. Los métodos son variados: selección de los términos más frecuentes y extracción de las oraciones que los contienen, selección de fragmentos que ocupan posiciones destacadas como el título, subtítulos, encabezamientos, o las que contienen cadenas de caracteres tales como: es importante, en conclusión, en suma, en resumen, etc.

  •  Técnicas basadas en el análisis lingüístico morfosintáctico: permiten reconocer las unidades lingüísticas mediante algún tipo de reconocimiento y clasificación del léxico utilizando, por ejemplo, analizadores morfológicos y desambiguadores léxicos, lematizadores, sistemas de resolución de referencias anafóricas, bases de conocimiento léxico, reconocedores de entidades que no forman parte de los diccionarios o vocabularios comunes,  como por ejemplo, siglas o nombres propios, etc.  Esto permite representar las conexiones del texto en forma de grafos para determinar qué oraciones son las más relevantes para el resumen.

  •  Técnicas basadas en la estructura discursiva: se trata ya de técnicas muy sofisticadas en donde entra en juego la ingeniería lingüística puesto que se trata de analizar la estructura argumental del documento para poder detectar los fragmentos más relevantes. Para ello, serán de gran ayuda la detección y análisis de marcadores discursivos tales como  ejemplo: "en primer lugar", "en segundo término", "por el contrario", "sin embargo", "además", "es importante", "en conclusión", "en suma", "en resumen", etc. También es importante la estructura del propio documento hipertextual ya que la propia armazón del documento HTML permite reconstruir la estructura argumental del documento y de los fragmentos más relevantes. Por otro lado, será más fácil de analizar aún, cualquier documento estructurado en XML que contenga metadatos, esquemas o que contenga algún tipo de estructuración semántica basada en RDF, OWL o cualquier otro lenguaje de estructuración semántica.

Algunos ejemplos de herramientas y programas para realizar resúmenes automáticos

Extractor: Software que resume de forma automática, texto. correos electrónicos y páginas web. Toma un archivo de texto y genera una lista de palabras clave y una lista de frases. http://www.extractor.com/

SweSum: software de resumen automático de texto desarrollado por Hercules Dalianis y Martin Hassel. http://www.nada.kth.se/~xmartin/swesum/index-eng.html. La demo resume del inglés, francés, alemán, sueco y español. Permite establecer el porcentaje de resumen del texto y ofrece palabras clave y estadísticas.

Summarizer: programa desarrollado por Copernic produce instantáneamente un resumen del documento seleccionando frases completas del texto original. No utiliza la estructura formal de encabezados, subtítulos, etc., ni los puntos de enumeración. Funciona automáticamente en 4 idiomas: español, inglés, francés y alemán; reconoce varios formatos de texto: Word, pdf, HTML, etc. y se coloca en el navegador web donde, en la parte inferior de la pantalla, muestra el resumen de la página web. También permite seleccionar texto, arrastrarlo y llevarlo a la barra de navegación para que forme parte del resumen. http://www.copernic.com/en/products/summarizer/ La forma de funcionar es la siguiente: se prepara el documento mediante una conversión en un formato estándar, se detecta el idioma y luego se aíslan los segmentos de información en el texto y se asocia un contexto de uso para cada palabra. Luego se extraen los conceptos claves del texto, su estructura nuclear y se chequea que funcionan con la totalidad del documento. Con la información recopilada, el programa selecciona las frases que formarán el resumen. Se puede elegir el tanto por ciento de reducción.

También podemos comprobar, sin conexión a la red, el elemental sistema de autorresumen que nos ofrece el procesador de textos Microsoft Word y al que se accede desde el menú Herramientas/Autorresumen.

De cualquier forma, existen numerosos productos comerciales que realizan estas tareas. Una lista exhaustiva se relaciona en el apartado de esta tesis: Recursos Resumen Automático de documentos.

Ejemplos de resúmenes:

Ejemplo1 de resumen

Fuente: NovaTIca. http://www.ati.es/novatica/2002/155/nv155sum.html#art9

Ejemplo2 de resumen

Fuente: Universidad Complutense. Cisne. Catálogo de la Biblioteca.
http://cisne.sim.ucm.es/search*spi~S7/X?SEARCH=hipertexto&searchscope=7&SORT=D

Fuente: Biblioteca de la Universidad de Sevilla. Sumarios electrónicos. Base de datos Summarev. http://bib.us.es/summarev/articulos/indice.asp

 


Bibliografía

ANGHELUTA, Roxana. DE BUSSER, Rik. MOENS, Marie-Francine. The use of topic segmentation for Automatic Summarization http://www-nlpir.nist.gov/projects/duc/pubs/2002papers/kuleuven_angheluta.pdf

BARDIN. Análisis del contenido. Madrid, Akal, 1986.

CLEVELAND, D. & A. Introduction to indexing and abstracting. Linttleton, Libraries Unlimited, 1983.  [Volver]

CRAVEN, Timothy C. "Human creation of abstracts with selected computer assistance tools". Information Reserarch, Vol. 3. Nº 4, April 1998.  http://informationr.net/ir/3-4/paper47.html

ESCARPIT, R. Teoría general de la información y de la comunicación. Barcelona, Icaria, 1981.

Extractor. http://www.extractor.com/

 LOPEZ UREÑA, L. Alfonso Resolución de la ambigüedad léxica en Tareas de Clasificación Automática de Documentos. http://www.sepln.org/monografiasSEPLN/monografiaUrena.pdf

LÓPEZ YEPES, José. "Investigación científica. Ciencia de la documentación y Análisis documental". Documentación de las Ciencias de la Información, 1989, nº 12.  [Volver]

MOREIRO GONZÁLEZ; J. A. "El resumen científico en el contexto de la teoría de la documentación". Documentación de las Ciencias de la Información, 1989, nº 12. [Volver]

OTLET, Paul. Traité de Documentation. Le livre sur le livre. Theorie et practique. Bruselas, Ed. Mundaneum, 1990. [Volver]

  PINTO MOLINA, María Organización, filtración y representación de la información. http://www.mariapinto.es/e-coms/or_con_elect.htm

PINTO MOLINA, María. El resumen documental. Principios y métodos. Salamanca, Fundación Germán Sánchez Ruipérez, 1992. [Volver]

PINTO MOLINA, M. GARCÍA MARCO, F.J. AGUSTÍN LACRUZ, C. Indización y resumen de documentos digitales y multimedia: técnicas y procedimientos. Gijón, Trea, 2002.

PINTO, M. MITRE, M. DOUCET, A-V. SÁNCHEZ, M.J. Aprendiendo a resumir: Prontuario de resolución de casos. Gijón, Trea, 2005.

Summarizer. http://www.copernic.com/en/products/summarizer/download.html

SweSum.  http://www.nada.kth.se/~xmartin/swesum/index-eng.html

VALLE GASTAMINZA, Félix del. Resumen. http://www.ucm.es/info/multidoc/prof/fvalle/Resumen.pps

VAN DIJK, T.A. La ciencia del texto. Barcelona, Paidós, 1983. [Volver]

VAN DIJK, T.A. Texto y contexto. Madrid, Cátedra, 1980.

  Arriba

 


Recursos Resumen automático de documentos

 

 Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen
 Autora: María Jesús Lamarca Lapuente (currículo personal)

 Contacta

 Tesis doctoral. Universidad Complutense de Madrid

 URL: http://www.hipertexto.info

 Fecha de Actualización: 08/12/2013   

 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb.
 34.389 enlaces (10.436 externos y 23.953 internos)
  

 

Ver el perfil de María Jesús Lamarca Lapuente en LinkedIn

Esta obra está licenciada bajo las siguientes condiciones: 
Creative Commons License
Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.

 


OTRAS PÁGINAS DE LA AUTORA
 

           Blog El Cultural a la PuertaBlog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ 

                                                                                                                AGETECA. Base de Datos de Gestión Cultural
                                                                                                                 Ageteca. Base de Datos de Gestión Cultural:
      
                                                                                                    http://www.agetec.org/ageteca

Fundación Ricardo Lamarca, ajedrez y cultura

Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es

 

 

La artesa digital

Blog La artesa digital
http://artesadigital.blogspot.com.es

Especial Poesía: Hasta allí hemos llegado

Blog La artesa digital Flickr La artes@ digital: Galería de fotos mundo
 digital y mundo analógico: http://www.flickr.com/photos/artesadigital/

Blog miembras

Blog Miembras: usos lingüísticos, políticos y sociales del lenguajeBlog Miembras: Usos lingüísticos, políticos
 y sociales del lenguaje http://miembras.blogspot.com

 

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores