Metadatos en HTML

María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen.


 
 

Inicio   navega al azar mapa conceptual  buscar

La mayoría de los metadatos están incrustados dentro de los recursos de la Web. Esto limita la riqueza estructural de los metadatos que pueden ser aplicados, pero tiene una gran virtud que es la simplicidad. La World Wide Web ofrece un sistema que es añadir los metadatos en forma de metaetiquetas  HTML y, con los editores actuales, cualquier persona puede crear una página web y añadir las etiquetas meta de forma sencilla. En realidad, el marcado es, en sí mismo una forma de metadatos y todos los lenguajes de marcado permiten la inclusión de marcas o etiquetas de metadatos, desde el muy sofisticado y rico XML, variante del estándar SGML, hasta el más simple HTML. Pero si queremos crear páginas web con propósito general y únicamente para facilitar la búsqueda y recuperación de nuestros documentos, no es necesario utilizar un lenguaje muy estructurado ni un sistema muy sofisticado de metadatos, basta con utilizar las etiquetas <META> que pueden ser embebidas dentro del propio documento creado en lenguaje HTML. Caso bien distinto es si pretendemos crear un sistema de información bien estructurado pues, en este caso, sí es necesario utilizar otros sistemas de metadatos y otros lenguajes más elaborados y estructurados.

 

No hace falta ser un usuario avezado para saber que si creamos una página web y queremos tener presencia en Internet, debemos incluir información por medio de etiquetas o metatags para que los robots que sustentan a los buscadores o índices puedan indizar nuestras páginas. El acceso a una web a través de Internet es muy fácil de encontrar cuando se trata de webs de instituciones o empresas que poseen una dirección que coincide con el nombre de la institución o de la empresa. Sin embargo, la mayor parte de las páginas poseen una URL que nada tiene que ver con su nombre o contenido y más aún cuando se trata de páginas que ocupan un tercer o cuarto nivel. 

 

Para que las páginas puedan ser encontradas por otros usuarios, es preciso no sólo dar de alta la web en los principales buscadores, sino también introducir metadatos o texto descriptivo en las páginas a través de etiquetas (metatags) que indiquen información sobre el contenido, materia, autor, etc. para que esta información pueda ser extraída de forma automática por los principales robots, bases de datos e indizadores automáticos de páginas web que existen en Internet.

El lenguaje HTML era, en principio un lenguaje semántico que se convirtió en lenguaje de formato, puesto que elementos como los encabezados indicaban no sólo la importancia de un texto marcado con caracteres de un primer nivel, sino también la forma y tipografía de los títulos y encabezamientos.

La sintaxis para asignar metainformación en lenguaje HTML se basa en las etiquetas <META>. Los principales robots y agentes que indizan de forma automática, cuentan con la posibilidad de búsquedas avanzadas a través de la etiqueta: <META> y, aunque las funciones de las etiquetas meta son muy variadas, cabe destacar además de las etiquetas básicas que ofrece el estándar Dublin Core, dos etiquetas principalmente: "description" y "keywords".

La etiqueta description ofrece al robot la información general sobre la página: de qué trata, qué tipo de información contiene, qué institución u organización es la responsable, etc.

<META name="description" content="Esta es la descripción general de la página">

Por su parte, las keywords son las palabras clave o descriptores del contenido de la página. Podemos utilizar un lenguaje libre, pero si queremos ser más rigurosos en la descripción, podremos utilizar una lista de materias o, incluso, un tesauro.

<META name="keywords" content="Palabras clave separadas por comas">

Las palabras clave y la descripción deben introducirse en la lengua elegida y, aunque los principales robots suelen indizar las páginas por su título y contenido en inglés, ya existen muchos buscadores que indizan el castellano y otras lenguas para facilitar su recuperación en estos idiomas.

Sin embargo, hay otra forma de incluir metadatos en HTML  es cumplir con los estándares de la especificación elaborada por el World Wide Web Consortium (W3C). En dicha especificación, se denomina metadatos a la "información sobre el documento en lugar del contenido del documento".

La Especificación HTML 4.01 (HTML 4.01 Specification) se convirtió en Recomendación del W3C el 24 de diciembre de 1999 http://www.w3.org/TR/html401/. Una traducción al castellano de dicho documento puede encontrase en http://html.conclase.net/w3c/html401-es/cover.html

El capítulo 7 de la Especificación trata de la estructura global de un documento HTML y cuenta con una sección específicamente dedicada a los metadatos.  Sección 7.4.4 Metadatos http://www.w3.org/TR/html401/struct/global.html#h-7.4.4

En ella se afirma que el lenguaje HTML permite a los autores especificar metadatos. Por ejemplo, para especificar el autor de un documento, puede utilizarse el elemento META como sigue:

<META name="Author" content="Dave Raggett">

El elemento <META> especifica una propiedad (en este caso "Author") y le asigna un valor (en este ejemplo "Dave Raggett").

 

El significado de una propiedad y el conjunto de valores para esa propiedad debería estar definida en un diccionario de referencia denominado perfil. Por ejemplo, un perfil diseñado para ayudar a los motores de búsqueda a indexar documentos podría definir propiedades tales como "author", "copyright", "keywords", etc. Un ejemplo de perfil es el modelo de metadatos Dublin Core. Cada perfil define un conjunto de propiedades recomendadas para descripciones bibliográficas electrónicas y su objetivo es promover la interoperabilidad entre modelos descriptivos dispares.

 

En general, la especificación de metadatos implica dos pasos:

  •  Declaración de una propiedad y de un valor para esta propiedad. Esto puede hacerse de dos maneras: 
    1.  desde dentro de un documento, por medio del elemento <META>
    2.  desde fuera de un documento, vinculando los metadatos por medio del elemento <LINK> en el <HEAD>..
  •  Referencia a un perfil en el que se definen la propiedad y sus valores legales. Para designar un perfil, se usa el atributo profile del elemento HEAD

Para los siguientes atributos, los valores permitidos y su interpretación dependen del perfil:

  •  name = name: Este atributo identifica un nombre de propiedad. Esta especificación no enumera los valores legales para este atributo. 

  •  content = cdata: Este atributo especifica el valor de una propiedad. Esta especificación no enumera los valores legales para este atributo. 

  •  scheme = cdata: Este atributo especifica un esquema que se usará para interpretar el valor de la propiedad.

  •  http-equiv = name: Este atributo puede utilizarse en lugar del atributo name. Los servidores HTTP utilizan este atributo para obtener información sobre los encabezados del mensaje de respuesta HTTP

Otros atributos son:

  •  lang (información sobre el idioma)

  •  dir (dirección del texto) 

El encabezado de un documento HTML especificado en la cabecera o HEAD es el que contiene, generalmente, información o metainformación acerca del documento. En ella se sitúan los elementos <META> y <LINK>. El elemento <META> contiene la metainformación y el elemento <LINK> define las relaciones entre ese documento y otros (de esta forma se puede enlazar también el documento con otro archivo que contenga la metainformación específica). Un documento puede tener varios elementos <LINK>. En realidad, tanto la función que realiza el elemento <LINK> en lenguaje HTML como la función realizada mediante la asignación de un perfil, son similares a la función que realizan los espacios de nombre (namespaces) en XML y RDF

Ejemplo de HEAD:

<HTML>
  <HEAD>
    <TITLE> Hipertexto:el nuevo concepto de documento en la cultura de la imagen </TITLE>
    <BASE HREF="http://www.hipertexto.info/documento.html">
    <LINK HREF="http://www.hipertexto.info/documento/index.html" REL="index">
  </HEAD>
  <BODY>
    ..... texto del documento
  </BODY>
</HTML>

El elemento <META> puede utilizarse para identificar propiedades de un documento (por ejemplo el autor, la fecha de caducidad, una lista de palabras clave, etc.) y para asignar valores a esas propiedades. La especificación no define un conjunto normativo de propiedades, pero ofrece algunos ejemplos como los que se ofrecen a continuación.

 

Cada elemento <META> especifica una pareja propiedad/valor. Los principales atributos son: NAME, CONTENT, SCHEME y HTTP-EQUIV.

 

El atributo name identifica la propiedad y el atributo content especifica el valor de la propiedad. Por ejemplo, la siguiente declaración establece un valor para la propiedad Author:

<META name="Author" content="María Jesús Lamarca Lapuente">

Puede utilizarse el atributo lang de <META> para especificar el idioma del valor del atributo content. Esto permite a los sintetizadores de voz aplicar reglas de pronunciación dependientes del idioma.

 

En este ejemplo, se declara que el nombre del autor está en francés:

<META name="Author" lang="fr" content="Arnaud Le Hors">

Cuando una propiedad especificada mediante un elemento <META> toma un valor que es un URI, algunos autores prefieren especificar los metadatos mediante el elemento <LINK>. Así, la siguiente declaración de metadatos:

<META name="DC.identifier"
      content="http://www.ietf.org/rfc/rfc1866.txt">

también podría haberse escrito así:

<LINK rel="DC.identifier"
      type="text/plain"
      href="http://www.ietf.org/rfc/rfc1866.txt">

El elemento <META> es un mecanismo genérico para la especificación de metadatos. Sin embargo, hay algunos elementos y atributos HTML que ya manejan determinados metadatos y que pueden ser utilizados por los autores en lugar de <META> para especificar dichos metadatos, como por ejemplo el elemento <TITLE>, el elemento <ADDRESS>, los elementos <INS> y <DEL>, el atributo title, y el atributo cite. (Y lo mismo ocurre con los elementos de metadatos del modelo Dublin Core).

Un uso común de <META> es especificar palabras clave que pueden usar los motores de búsqueda para mejorar la calidad de los resultados de una búsqueda. Cuando se proporcionen varios elementos <META> con información para varios idiomas, motores de búsqueda pueden utilizar el atributo lang como filtro para mostrar los resultados de la búsqueda usando las preferencias de idioma del usuario. Por ejemplo,

<!-- Para hablantes de inglés americano -->
<META name="keywords" lang="en-us" 
      content="vacation, Greece, sunshine">
<!-- Para hablantes de inglés británico -->
<META name="keywords" lang="en" 
      content="holiday, Greece, sunshine">
<!-- Para hablantes de español -->
<META name="keywords" lang="es" 
      content="vacaciones, Grecia, sol">

También puede incrementarse la efectividad de los motores de búsqueda usando el elemento <LINK> para especificar vínculos a traducciones del documento en otros idiomas, vínculos a versiones del documento en otros medios (por ejemplo, PDF) y, cuando el documento es parte de una colección, vínculos a un punto apropiado de partida para examinar la colección completa.

En cuanto a los perfiles de metadatos, el atributo profile de HEAD especifica la localización de un perfil de metadatos. El valor del atributo profile es un URI. Los agentes de usuario pueden utilizar este URI de dos maneras: 

  •  Como un nombre único a nivel global. Los agentes de usuario pueden ser capaces de reconocer el nombre (sin necesidad de obtener el perfil) y realizar alguna acción según las convenciones conocidas relativas a ese perfil. Por ejemplo, los motores de búsqueda podrían proporcionar una interfaz para búsqueda en catálogos de documentos HTML, de modo que todos los documentos podrían usar el mismo perfil para representar entradas de un catálogo. 

  •  Como un vínculo. Los agentes de usuario pueden seguir el URI y realizar alguna acción según las definiciones contenidas en el perfil (p.ej., autorizar el uso del perfil dentro del documento HTML actual).  

El siguiente ejemplo, ofrecido por la Especificación, hace referencia a un perfil hipotético que define propiedades útiles para indexar documentos. A las propiedades definidas en este perfil -incluyendo "author", "copyright", "keywords" (palabras clave) y "date" (fecha) -se les asignan valores mediante declaraciones <META> subsiguientes.

 <HEAD profile="http://www.acme.com/profiles/core">
  <TITLE>Cómo completar portadas de Memoranda</TITLE>
  <META name="author" content="José Pérez">
  <META name="copyright" content="&copy; 1997 Acme Corp.">
  <META name="keywords" content="empresarial,instrucciones,catálogos">
  <META name="date" content="1994-11-06T08:49:37+00:00">
 </HEAD>

El atributo scheme permite proporcionar a los agentes de usuario más contexto para la interpretación correcta de los metadatos. A veces, esta información adicional puede ser crítica, por ejemplo cuando los metadatos pueden ser especificados según formatos diferentes. Por ejemplo, un autor podría especificar una fecha en el formato ambiguo "10-9-97"; ¿significa esto 9 de octubre de 1997 o 10 de septiembre de 1997? El valor "Mes-Día-Año" para el atributo scheme eliminaría la ambigüedad de este valor de fecha. En otras ocasiones, el atributo scheme puede proporcionar información útil aunque no crítica.

 

Por ejemplo, la siguiente declaración scheme  podría ayudar a un agente de usuario a determinar que el valor de la propiedad "identificador" es un número de código ISBN:

<META scheme="ISBN"  name="identificador" content="0-8230-2355-9">

Los valores del atributo scheme  dependen de la propiedad name y del profile asociado. En suma, el atributo scheme  sirve para denominar el esquema que se debe utilizar para interpretar el valor de una propiedad.

 

Por último, el atributo HTTP-EQUIV que se utiliza en lugar de name, permite que los servidores que funcionan con el protocolo de transferencia de hipertexto (HTTP), recopilen la información para ofrecer los encabezados del mensaje de respuesta:

 

<META http-equiv="Expires" content="27 Oct 2004 08:00:00 GMT">

 

De esta forma se indica cuándo debe actualizarse (refrescarse) el documento almacenado en la memoria caché, aunque también posee otros usos.

 

A continuación se muestra el uso de etiquetas <META> incrustadas en la cabecera de la página actual de esta tesis:

 

<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<meta name="Author" content="María Jesús Lamarca Lapuente" />
<meta name="description" content="Descripción del documento hipertextual: metadatos en lenguaje HTML" />
<meta name="keywords" content="hipertexto documento metadatos HTML documentación"/>
 

Como ya se ha indicado, el uso de metadatos en el lenguaje HTML a través de las etiquetas <META> tiene muchas limitaciones pues estas etiquetas son demasiado amplias y ambiguas. En la propia especificación sobre HTML 4.01 ya se aludía Marco de Descripción de Recursos o Resource Description Framework (RDF) que se convirtió en Recomendación del W3C en febrero de 1999 y que se actualizó en 2004, como un lenguaje que permitía a los autores especificar metadatos legibles por máquina sobre documentos HTML y otros recursos accesibles por la red. De esta forma se han desarrollado otras estructuras más completas, complejas y flexibles para establecer metadatos en RDF, XML y esquemas (schemas) que constituyen perfiles de metainformación que permiten una descripción de metainformación muy precisa y sin ambigüedades. Uno de los esquemas más utilizados es, precisamente, el esquema Dublin Core.

 

De cualquier forma, los intentos por lograr una descripción semántica dentro de HTML han sido continuos. Así nació el lenguaje SHOE o Simple HTML Ontology Extensions que fue el primer lenguaje de etiquetado para diseñar ontologías en la Web antes de que se ideara la Web Semántica. Tanto las ontologías como las etiquetas se incrustaban en archivos HTML. Este lenguaje permite definir clases y reglas de inferencia, pero no negaciones o disyunciones. A su albur se desarrollaron muchos editores, buscadores, APIS, etc.

 

He aquí un cuadro que describe las estructuras de datos y metadatos correspondientes a los principales lenguajes estructurados:

 

HTML XML SGML

Sólo permite los atributos de la etiqueta <META> que pueden soportar esquemas de metadatos concretos como el DC.

Descripción abierta y personalizable a través de RDF (Resource Description Framework) y de otras tecnologías relacionadas.

Proyectos concretos de codificación de metainformación como parte de DTD específicas (TEI, EAD, etc.)

 

Fuente: "Estructura de datos y metadatos". Eva Rodríguez Menéndez: Metadatos y recuperación de información. Gijón, Ediciones Trea, 2002.

 


Bibliografía

ÁLVAREZ, Rubén. Manual de HTML. http://www.desarrolloweb.com/manuales/21/

MÉNDEZ RODRÍGUEZ, Eva. Metadatos y recuperación de la información: estándares, problemas y aplicabilidad en bibliotecas digitales. Gijón, Trea, 2002.

Vancouver Webages. A Dictionary of HTML META Tags. http://vancouver-webpages.com/META/

W3C. HTML 4.01 Specification. http://www.w3.org/TR/html401/ (Juan Ramón Pozo: Traducción de la Especificación HTML 4.01 al castellano http://html.conclase.net/w3c/html401-es/progreso.html).

  W3C. RDF Primer. http://www.w3.org/TR/rdf-primer/

   Arriba 

 


 

 Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen
 Autora: María Jesús Lamarca Lapuente (currículo personal)

 Contacta

 Tesis doctoral. Universidad Complutense de Madrid

 URL: http://www.hipertexto.info

 Fecha de Actualización: 08/12/2013   

 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb.
 34.389 enlaces (10.436 externos y 23.953 internos)
  

Esta obra está licenciada bajo las siguientes condiciones: 
Creative Commons License
Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.

 


OTRAS PÁGINAS DE LA AUTORA
 

           Blog El Cultural a la PuertaBlog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ 

                                                                                                                AGETECA. Base de Datos de Gestión Cultural
                                                                                                                 Ageteca. Base de Datos de Gestión Cultural:
      
                                                                                                    http://www.agetec.org/ageteca

Fundación Ricardo Lamarca, ajedrez y cultura

Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es

 

 

La artesa digital

Blog La artesa digital
http://artesadigital.blogspot.com.es

Especial Poesía: Hasta allí hemos llegado

Blog La artesa digital Flickr La artes@ digital: Galería de fotos mundo
 digital y mundo analógico: http://www.flickr.com/photos/artesadigital/

Blog miembras

Blog Miembras: usos lingüísticos, políticos y sociales del lenguajeBlog Miembras: Usos lingüísticos, políticos
 y sociales del lenguaje http://miembras.blogspot.com

 

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores