Sistemas de Documentación (grupo 2 UNESR

jueves, 31 de diciembre de 2009

N O R M A: ISO 15836 para catalogar documentos

Para la documentación es muy importante la estandarización. Es por ello que buscamos ahondar en el tema de las normas ISO y Dublin Core para catalogar con metadatos cualquier documento. Como veremos esto tiene por fin último permitir y facilitar la busqueda y acceso a un documento. La información crece de manera exponencial en todo el mundo y en las organizaciones públicas o privadas. También crecen los medios digitales para almacenarla, pero su administración es el problema. También es un problema como buscarla, valorarla y accederla. Para ello son los sistemas de documentación. Desde nuestra visión como grupo de investigación UNESRísta queremos aportar estos conceptos de última generación tecnológica a todo el curso. Allí vamos con los estándares.

Antecedentes
ISO (la Organización Internacional de Normalización) es una federación mundial de organismos nacionales de normalización (organismos miembros de ISO). El trabajo de preparación de normas internacionales normalmente se realiza a través de los comités técnicos de ISO. Todo organismo miembro interesado en una materia para la cual existe un comité técnico tiene el derecho a estar representado en dicho comité. Las organizaciones internacionales, públicas y privadas, que están en contacto con ISO también participan es este trabajo. ISO colabora estrechamente con la Comisión Internacional Electrotécnica (CIE) en materia de normalización electrotécnica.
Las Normas Internacionales se redactan de acuerdo a las normas establecidas en
la parte 2 de las Directrices ISO/IEC. La principal tarea de los comités técnicos es la preparación de Normas Internacionales.
Los proyectos de Normas Internacionales adoptados por los comités técnicos se envían a los organismos miembros para que se proceda a su votación. Para su publicación como Norma Internacional se requiere, al menos, la aprobación del 75%
de los organismos que participan en la votación. Cabe señalar la posibilidad de que alguno de los elementos de este documento
pueda estar sujeto a derechos de patente. ISO no asume responsabilidad alguna en la identificación de cualquier derecho de patente que afecte a algún elemento o a la totalidad de esta norma.
La Norma ISO 15836 fue preparada por la National Information Standards Organization (como ANSI/NISO Z39 85-2001) y adoptada por el Comité Técnico.

Introducción
La Iniciativa de Metadatos Dublin Core (DCMI) comenzó en 1995 con la convocatoria de un taller de trabajo en Dublin, Ohio, que reunió a bibliotecarios, investigadores sobre la biblioteca digital, distribuidores de contenidos y expertos en marcado
textual para mejorar la elaboración de estándares y normas relacionadas con la recuperación de información aplicables a los recursos. El Dublin Core original surgió como un pequeño conjunto de descriptores que rápidamente suscitó el interés
general de una amplia variedad de proveedores de información de los sectores de las artes, las ciencias, la educación, el ámbito empresarial y las administraciones públicas.
Desde que se celebró el primer taller se ha generado un interés cada vez mayor por las descripciones de recursos, que sean fáciles de crear y que casi cualquiera pueda entender. El potencial para aumentar la visibilidad de los recursos en una colección entre sectores y dominios temáticos, y de hacerlo a un bajo coste, está cobrando un interés generalizado. Aquellos servicios que necesitan descripciones ricas desde un punto de vista semántico podrán continuar proporcionándolas, pero podrán ser objeto de una recuperación de información interdisciplinar gracias a que proporcionan también descripciones comprensibles de manera universal, comunes a distintas disciplinas. En este contexto, resulta apropiada la metáfora del «turista digital». Los viajeros en Internet que buscan información en disciplinas que les son ajenas pueden utilizar el vocabulario restringido del Dublin Core para obtener la ayuda básica en un idioma que pueden entender. El acceso completo a la cultura y a sus servicios requiere todavía el dominio de vocabularios locales y del contexto, pero un conjunto de datos sencillos codificados en Dublin Core puede dirigir la atención del «turista» a un portal de información que de otra manera podría haberle pasado desapercibido.
El interés por la localización de información interdisciplinar suscitó una participación creciente en la serie de talleres de la DCMI que se celebraron posteriormente. El conjunto de elementos de metadatos Dublin Core, que se describe aquí, es un conjunto de 15 descriptores, que resultaron de este esfuerzo por alcanzar un consenso interdisciplinar e internacional. En la actualidad, el Dublin Core se ha traducido a más de 20 idiomas, y ha sido adoptado por el CEN/ISSS (Comité Europeo de Normalización/ Sistema de Normalización para la Sociedad de la Información) está documentado en dos RFC (Request For Comments). También tiene carácter oficial dentro del Consorcio de la WWW y de la norma ISO 23950. Los metadatos Dublin Core fueron aprobados como norma nacional en USA (ANSI/NISO Z39.85), formalmente aceptados por más de siete gobiernos para fomentar la recuperación de información gubernamental en formato electrónico, y adoptados por varias agencias supranacionales como la Organización Mundial de a Salud (OMS/WHO). Muchas de las iniciativas de metadatos específicos de una comunidad, como bibliotecas, archivos, aplicaciones educativas o gubernamentales utilizan como base de sus modelos de metadatos el Dublin Core.
El Dublin Core no pretende desplazar a otros estándares de metadatos. Más bien, su intención es coexistir, muchas veces, en la misma descripción de un recurso, con estándares de metadatos que propongan otra semántica. Es muy previsible que los
registros descriptivos contengan una combinación de elementos extraídos de diferentes estándares de metadatos, tanto simples como complejos. Se pueden encontrar ejemplos de este tipo de combinación, así como de la codificación HTML del Dublin Core, en la RFC 2731 [RFC 2731]. La sencillez del Dublin Core puede ser tanto una fortaleza como una debilidad.

La simplicidad reduce el coste de la creación de metadatos y fomenta la interoperabilidad.

Por otro lado, la sencillez de Dublin Core no se ajusta a la riqueza funcional y semántica que proporcionan esquemas de metadatos complejos. De hecho, el Dublin Core renuncia a la riqueza por una visibilidad generalizada. El diseño del Dublin Core compensa esta pérdida fomentando la utilización de esquemas de metadatos más ricos combinados con el propio Dublin Core. Se pueden crear equivalencias entre esos esquemas más sofisticados y el Dublin Core para facilitar la exportación y las búsquedas entre diferentes sistemas. A la inversa, los registros del Dublin Core simple se pueden usar como un punto de partida para la creación de
descripciones más complejas.

El conjunto de elementos de metadatos Dublin Core
1. Objeto y alcance
El conjunto de elementos de metadatos Dublin Core es una norma para la descripción de recursos de información de distintos dominios informativos. En este contexto, un recurso de información se define como cualquier cosa que tiene identidad. Esta es la definición utilizada en la RFC 2396, Identificadores Uniformes de Recursos (URI): Sintaxis Genérica, de Tim Berners-Lee y otros. Para las aplicaciones del Dublin Core, un recurso será normalmente un documento electrónico. Esta norma se refiere sólo al conjunto de elementos, que se utilizan generalmente en el contexto de una aplicación o proyecto específico. Los requisitos y políticas locales o específicas de una comunidad informativa pueden implicar restricciones, reglas o interpretaciones adicionales. No es propósito de esta norma definir los criterios detallados relativos a la aplicación del conjunto de elementos dentro de proyectos y aplicaciones específicas.

2. Normas para consulta
Los siguientes documentos normativos contienen disposiciones que, mediante referencia en este texto, forman disposiciones de este estándar internacional. Para referencias fechadas, modificaciones posteriores, o revisiones de la misma, ninguna de éstas se aplica. Sin embargo, se recomienda a los interesados, en acuerdos basados en este estándar internacional, que analicen la posibilidad de aplicar las versiones más recientes de los documentos normativos incluidos en la lista inferior. Para referencias sin fecha, se aplica la última edición de los documentos referidos. Los miembros de ISOC y de IEC mantienen registros de los estándares internacionales actualmente válidos.La abreviatura entre corchetes al inicio de cada cita indica cómo se cita el documentoen el texto del estándar.
[DCT] DCMI Type Vocabulary DCMI Recommendation, 11 July 2000.
http://dublincore.org/documents/dcmi-type-vocabulary/
en español: http://es.dublincore.org/documents/dcmi-type-vocabulary/
[ISO3166] ISO 3166 - Codes for the representation of names of countries and
their subdivisions.
http://www.iso.ch/iso/en/prods-services/iso3166ma/02iso-3166-codelists/
index.html
[ISO639] ISO 639-2 – Codes for the representation of names of languages.Part
2: Alpha-3 code (ISO 639-2:1998)
http://www.loc.gov/standards/iso639-2/langhome.html
[MIME] Internet Media Types.
http://www.iana.org/assignments/media-types/
[RFC3066] Tags for the identification of Languages, Internet RFC 3066.
http://www.ietf.org/rfc/rfc3066.txt
[RFC2396] Uniform Resource Identifiers (URI): Generic Sintax, Internet RFC
2396.
http://www.ietf.org/rfc/rfc2396.txt
[RFC2413] Dublin Core Metadata for Resource Discovery, Internet RFC
2413.
http://www.ietf.org/rfc/rfc2413.txt
[RFC2731] Encoding Dublin Core Metadata in HTML, Internet RFC 2731.
http://www.ietf.org/rfc/rfc2731.txt
NORMAS
REV. ESP. DOC. CIENT., 29, 2, ABRIL-JUNIO, 287-296, 2006. ISSN 0210-0614 291
[TGN] Getty Thesaurus of Geographic Names.
http://www.getty.edu/research/tools/vocabulary/tgn/index.html
[W3CDTF] Date and Time Formats. W3C Note.
http://www.w3.org/TR/NOTE-datetime
[XML] Extensible Markup Language
http://www.w3.org/TR/REC-xml

3. Definiciones
DCMI — Dublin Core Metadata Initiative. La agencia encargada del mantenimiento del Dublin Core
Recurso de información — «Algo que tiene identidad» (la misma definición que en la RFC 2396) Ciclo de vida de un recurso de información— Una secuencia de hechos que marcan el desarrollo y el uso de un recurso de información. Algunos ejemplos de hechos en un ciclo de vida son: La concepción de una invención, la creación de un borrador, la revisión de un artículo, la publicación de un libro, el proceso de adquisición en una biblioteca, la trascripción a disco magnético, la migración a un sistema de almacenamiento óptico, una traducción al inglés, y la versión de un nuevo trabajo (p. ej. una película).

4. El conjunto de elementos

En la descripción de elementos que se hace a continuación, cada uno de ellos tiene una etiqueta descriptiva, cuya finalidad es dar a conocer una semántica común que facilite la comprensión del elemento, y un nombre constituido por una única palabra, entendible por máquina, cuyo objetivo es simplificar la descripción sintáctica de los elementos para los esquemas de codificación.
Aunque en algunos entornos, como HTML, no hay diferenciación entre mayúsculas y minúsculas, se recomienda siempre como práctica más recomendable atenerse a las convenciones de uso de mayúscula/minúscula en los nombres de los elementos que
se proponen a continuación, para evitar problemas en el caso de que los metadatos se extraigan o se conviertan posteriormente a un entorno donde sí se diferencian mayúsculas y minúsculas como puede ser XML (Lenguaje de Marcado Extensible [XML].
Cada elemento es opcional y repetible. Los elementos de metadatos pueden aparecer en cualquier orden. La ordenación de múltiples ocurrencias del mismo elemento (por ej. Creator) puede tener algún significado intencionado por el que proporciona
el recurso, pero no se puede garantizar que el orden se mantenga en todos los sistemas.
Para promover la interoperabilidad global, algunas de las descripciones de los elementos sugieren un vocabulario controlado para la asignación de valores. Asimismo se asume que se desarrollarán otros vocabularios controlados para conseguir la interoperabilidad dentro de algunos dominios informativos específicos o locales.

5. Elementos

Nombre del elemento: Title
Etiqueta: Título
Definición: Un nombre dado al recurso.
Comentario: Normalmente, el título será el nombre por el que se conoce formalmente el recurso.

Nombre del elemento: Creator
Etiqueta: Creador
Definición: Una entidad que es responsable principal de la elaboración del contenido del recurso.
Comentario: Ejemplos de creador de un recurso pueden ser, una persona, una organización o un servicio. Normalmente este campo debería utilizarse para indicar la entidad.

Nombre del elemento: Subject
Etiqueta: Materias y palabras clave
Definición: Un tema del contenido del recurso
Comentario: Normalmente, la materia se expresará con palabras clave, descriptores o códigos de clasificación que representen el tema del recurso. La práctica más recomendable es seleccionar estos valores de un vocabulario controlado o de un esquema formal de clasificación.

Nombre del elemento: Description
Etiqueta: Descripción
Definición: Una descripción del contenido del recurso
Comentario: Aunque no se limitan a estos, algunos ejemplos de descripción son un resumen, un índice de contenido, una explicación en texto libre o una referencia a una representación gráfica del contenido.

Nombre del elemento: Publisher
Etiqueta: Editor
Definición: Una entidad responsable de que el recurso esté disponible.
Comentario: Ejemplos de editor son: una persona, una organización o un servicio.
Normalmente el nombre de un editor debería utilizarse para indicar la entidad.

Nombre del elemento: Contributor
Etiqueta: Colaborador
Definición: Una entidad responsable de realizar contribuciones al contenido de
un recurso.
Comentario: Ejemplos de colaborador pueden ser: una persona, una organización o un servicio. Normalmente el nombre de un colaborador debe utilizarse para indicar la entidad.

Nombre del elemento: Date
Etiqueta: Fecha
Definición: Una fecha de un hecho relativo al ciclo de vida del recurso.
Comentario: Normalmente la fecha se asociará con la creación o la disponibilidad del recurso. La práctica más recomendable para codificar el valor de la fecha se define en el perfil ISO 8601 [W3CDTF] que incluye fechas de la forma AAAAMM-
DD.

Nombre del elemento: Type
Etiqueta: Tipo de recurso
Definición: La naturaleza o género del contenido del recurso.
Comentario: El tipo se refiere a términos que describen categorías generales,
funciones, géneros o niveles de agregación para el contenido. La práctica más recomendable
en este sentido es seleccionar un valor de un vocabulario controlado (por ejemplo, del DCMI Type Vocabulary [DCT1]). Para describir la manifestación física o digital del recurso debe emplearse el elemento Format.

Nombre del elemento: Formato
Etiqueta: Formato
Definición: La manifestación física o digital del recurso.
Comentario: Normalmente el formato se referirá a los tipos de medios o dimensiones de un recurso. El formato puede usarse para identificar el software, hardware u otros equipamientos necesarios para visualizar el recurso u operar con él. Ejemplos de dimensiones pueden ser el tamaño o la duración. La práctica más recomendable en este caso es seleccionar el valor de un vocabulario controlado (por ejemplo,la lista de Internet Media Types [MIME]).

Nombre del elemento: Identifier
Etiqueta: Identificador del recurso
Definición: Una referencia inequívoca al recurso dentro de un contexto determinado.
Comentario: La práctica más recomendable es identificar el recurso por medio de una cadena de caracteres o por un número conforme a un sistema formal de identificación. Algunos sistemas identificación formal de recursos son, entre otros, el
Uniform Resource Identifier (URI) que incluye el Localizador Uniforme de RecurNORMAS 294 REV. ESP. DOC. CIENT., 29, 2, ABRIL-JUNIO, 287-296, 2006. ISSN 0210-0614 sos (URL), el Digital Object Identifier (DOI) y el International Standard Book Number (ISBN).

Nombre del elemento: Source
Etiqueta: Fuente
Definición: Una referencia a un recurso del cual deriva el que se está describiendo.
Comentario: El recurso que se está describiendo puede derivar, en todo o en parte, de un recurso fuente. La práctica más recomendable en este caso es identificar el recurso referenciado por medio de una cadena de caracteres o número conforme
con un sistema de identificación formal.

Nombre del elemento: Language
Etiqueta: Idioma
Definición: Un idioma del contenido intelectual del recurso.
Comentario: La práctica más recomendable es usar la RFC 3066 [RFC3066] que, en conjunción con la norma ISO 639 [ISO639], define etiquetas de dos y tres letras para identificar el idioma principal, con subetiquetas opcionales. Algunos ejemplos son: «en» o «eng» para Inglés, «akk» para el acadio, y «en-GB» para el inglés utilizado en el Reino Unido.

Nombre del elemento: Relation
Etiqueta: Relación
Definición: Una referencia a un recurso relacionado.
Comentario: La práctica más recomendable es identificar los recursos referenciados por medio de una cadena de caracteres o número conforme a un sistema de identificación formal.

Nombre del elemento: Coverage
Etiqueta: Cobertura
Definición: La extensión o el alcance del contenido del recurso.
Comentario: Normalmente la cobertura incluirá la localización espacial (un nombre de un lugar o unas coordenadas geográficas), el periodo temporal (una expresión que identifica un período, fecha o rango de fecha) o la jurisdicción (por ejemplo una denominación de una entidad administrativa). La práctica más recomendable es seleccionar un valor de un vocabulario controlado (por ejemplo, del
Thesaurus of Geographical Names [TGN]) y usar, cuando sea oportuno, nombres de periodos de tiempo o de lugares, mejor que identificadores numéricos, como conjuntosde coordenadas o rangos de fecha.

Nombre del elemento: Rights
Etiqueta: Derechos
Definición: Información sobre los derechos contenidos en y sobre el recurso.
Comentario: Normalmente los derechos contendrán una declaración de gestión de derechos para el recurso, o una referencia a un servicio que proporcione dicha información. La información sobre los derechos normalmente abarca los derechos de Propiedad Intelectual (PI), derechos de autor y otros derechos relacionados con la propiedad. Si no consta el elemento de derechos no se deben hacer asunciones sobre ningún derecho contenido en el recurso o entorno a él.

Anexo A:
Información complementaria
(Este anexo no forma parte del Estándar Nacional Americano sobre el Conjunto de Elementos de Metadatos Dublin Core, ANSI/NISO Z39.85-2001. Se incluye solamente a nivel informativo). Se puede encontrar información complementaria sobre el Conjunto de Metadatos Dublin Core en el URL http://dublincore.org e información en español sobre esta norma en el mirror de la iniciativa en este idioma en el URL http://es.dublincore.org Ambos sitios web tienen información (en inglés y español, respectivamente) sobre los talleres, informes, documentos de los grupos de trabajo, proyectos y nuevos desarrollos relacionados con la Iniciativa de Metadatos Dublin Core (DCMI).

Anexo B:
Agencia responsable del mantenimiento de este estándar
(Este anexo no forma parte de Estándar Nacional Americano Conjunto de Elementos de Metadatos Dublin Core, ANSI/NISO Z39.85-2001. Se incluye solamente a nivel informativo). La Iniciativa de Metadatos Dublin Core es la responsable del desarrollo, Normalización y promoción del conjunto de elementos de metadatos Dublin Core. Se puede encontrar información sobre la DCMI en el URL http://dublincore.org.

N O R M A S
REVISTA ESPAÑOLA DE DOCUMENTACIÓN CIENTÍFICA
29, 2, ABRIL-JUNIO, 287-296, 2006
ISSN 0210-0614

miércoles, 30 de diciembre de 2009

Estándar para Metadatos Dublin Core

Dublin Core es un modelo de metadatos elaborado y auspiciado por la DCMI (Dublin Core Metadata Initiative), una organización dedicada a fomentar la adopción extensa de los estándares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir recursos para permitir sistemas más inteligentes del descubrimiento del recurso.

Las implementaciones de Dublin Core usan generalmente XML y se basan en el Resource Description Framework. Dublin Core se define por ISO en su norma ISO 15836 del año 2003, y la norma NISO Z39.85-2007.

El nombre viene por Dublín (Ohio, Estados Unidos), ciudad que en 1995 albergó la primera reunión a nivel mundial de muchos de los especialistas en metadatos y Web de la época.

Descripción general: Dublin Core es un sistema de 15 definiciones semánticas descriptivas que pretenden transmitir un significado semántico a las mismas.

Estas definiciones:

Son opcionales
Se pueden repetir
Pueden aparecer en cualquier orden
Este sistema de definiciones fue diseñado específicamente para proporcionar un vocabulario de características "base", capaces de proporcionar la información descriptiva básica sobre cualquier recurso, sin que importe el formato de origen, el área de especialización o el origen cultural.

Clasificación y elementos: En general, podemos clasificar estos elementos en tres grupos que indican la clase o el ámbito de la información que se guarda en ellos:

Elementos relacionados principalmente con el contenido del recurso.
Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual.
Elementos relacionados principalmente con la instanciación del recurso.
Dentro de cada clasificación encontramos los siguientes elementos:

Contenido:
- Título: el nombre dado a un recurso, habitualmente por el autor.

Etiqueta: DC.Title

- Claves: los tópicos del recurso. Típicamente, Subject expresará las claves o frases que describen el título o el contenido del recurso. Se fomentará el uso de vocabularios controlados y de sistemas de clasificación formales.

Etiqueta: DC.Subject

- Descripción: una descripción textual del recurso. Puede ser un resumen en el caso de un documento o una descripción del contenido en el caso de un documento visual.

Etiqueta: DC.Description

- Fuente: secuencia de caracteres usados para identificar unívocamente un trabajo a partir del cual proviene el recurso actual.

Etiqueta: DC.Source

- Lengua: lengua/s del contenido intelectual del recurso.

Etiqueta: DC.Language

- Relación: es un identificador de un segundo recurso y su relación con el recurso actual. Este elemento permite enlazar los recursos relacionados y las descripciones de los recursos.

Etiqueta: DC.Relation

- Cobertura: es la característica de cobertura espacial y/o temporal del contenido intelectual del recurso. La cobertura espacial se refiere a una región física, utilizando por ejemplo coordenadas. La cobertura temporal se refiere al contenido del recurso, no a cuándo fue creado (que ya lo encontramos en el elemento Date).

Etiqueta: DC.Coverage

Propiedad Intelectual:
- Autor o Creador: la persona o organización responsable de la creación del contenido intelectual del recurso. Por ejemplo, los autores en el caso de documentos escritos; artistas, fotógrafos e ilustradores en el caso de recursos visuales.

Etiqueta: DC.Creator

- Editor: la entidad responsable de hacer que el recurso se encuentre disponible en la red en su formato actual.

Etiqueta: DC.Publisher

- Otros Colaboradores: una persona u organización que haya tenido una contribución intelectual significativa, pero que esta sea secundaria en comparación con las de las personas u organizaciones especificadas en el elemento Creator. (por ejemplo: editor, ilustrador y traductor).

Etiqueta: DC.Contributor

- Derechos: son una referencia (por ejemplo, una URL) para una nota sobre derechos de autor, para un servicio de gestión de derechos o para un servicio que dará información sobre términos y condiciones de acceso a un recurso.

Etiqueta: DC.Rights

Instanciación:
- Fecha: una fecha en la cual el recurso se puso a disposición del usuario en su forma actual. Esta fecha no se tiene que confundir con la que pertenece al elemento Coverage, que estaría asociada con el recurso en la medida que el contenido intelectual está de alguna manera relacionado con aquella fecha.

Etiqueta: DC.Date

- Tipo del Recurso: la categoría del recurso. Por ejemplo, página personal, romance, poema, diccionario, etc.

Etiqueta: DC.Type

- Formato: es el formato de datos de un recurso, usado para identificar el software y, posiblemente, el hardware que se necesitaría para mostrar el recurso.

Etiqueta: DC.Format

- Identificador del Recurso: secuencia de caracteres utilizados para identificar unívocamente un recurso. Ejemplos para recursos en línea pueden ser URLs i URNs. Para otros recursos pueden ser usados otros formatos de identificadores, como por ejemplo ISBN ("International Standard Book Number").

Etiqueta: DC.Identifier

Usos: Cualquier persona puede utilizar los metadatos de Dublin Core para describir los recursos de un sistema de información. Las páginas Web son uno de los tipos más comunes de recursos que utilizan las descripciones de Dublin Core.

Los metadatos de Dublin Core están siendo utilizados como la base para los sistemas descriptivos para varios grupos de interés como por ejemplo:

Organizaciones educativas
Bibliotecas
Instituciones del gobierno.
Sector científico de la investigación.
Autores de páginas Web.
Negocios que requieren lugares más investigables.
Corporaciones con sistemas de gerencia extensos en conocimiento
Ventajas [editar]La simplicidad
La flexibilidad
La independencia sintáctica
La interoperabilidad semántica
Alto nivel de normalización formal
Crecimiento y evolución del estándar a través de una institución formal consorciada: la DCMI.
Consenso internacional
Modularidad de Metadatos en la Web
Arquitectura de Metadatos para la Web

Mas sobre metadatos...

Metadatos (del griego μετα, meta, «después de»[1] y latín datum, «lo que se da», «dato»[2] ), literalmente «sobre datos», son datos que describen otros datos. En general, un grupo de metadatos se refiere a un grupo de datos, llamado recurso. El concepto de metadatos es análogo al uso de índices para localizar objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores, títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos.[3]

Para varios campos de la informática, como la recuperación de información o la web semántica, los metadatos en etiquetas son un enfoque importante para construir un puente sobre el intervalo semántico.

Definiciones: El término «metadatos» no tiene una definición única. Según la definición más difundida de metadatos es que son «datos sobre datos». También hay muchas declaraciones como «informaciones sobre datos»,[4] «datos sobre informaciones»[5] e «informaciones sobre informaciones».[6]

Otra clase de definiciones trata de precisar el término como «descripciones estructuradas y opcionales que están disponibles de forma pública para ayudar a localizar objetos»[7] o «datos estructurados y codificadas que describen características de instancias conteniendo informaciones para ayudar a identificar, descubrir, valorar y administrar las instancias descritas».[8] Esta clase surgió de la crítica de que las declaraciones más simples son tan difusas y generales que dificultarán la tarea de acordarse de estándares, pero estas definiciones no son muy comunes.

En el campo biológico los metadatos se han convertido en una herramienta fundamental para el descubrimiento de datos e información, en este contexto se pueden definir los metadatos como «una descripción estandarizada de las características de un conjunto de datos» con esto se incluye la descripción del contexto en el cual los datos fueron coleccionados y además se refiere al uso de estándares para describirlos.

Distinción entre datos y metadatos: La mayoría de las veces no es posible diferenciar entre datos y metadatos. Por ejemplo, un poema es un grupo de datos, pero también puede ser un grupo de metadatos si está adjuntado a una canción que lo usa como texto.

Muchas veces, los datos son tanto "datos" como "metadatos". Por ejemplo, el título de un texto es parte del texto como a la vez es un dato referente al texto (dato como metadato).

Metadatos sobre metadatos: Debido a que los metadatos son datos en sí mismos, es posible crear metadatos sobre metadatos. Aunque, a primera vista, parece absurdo, los metadatos sobre metadatos pueden ser muy útiles. Por ejemplo, fusionando dos imágenes y sus metadatos distintos puede ser muy importante deducir cuál es el origen de cada grupo de metadatos, registrando ello en metadatos sobre los metadatos.

Objetivos: El uso de los metadatos mencionado más frecuentemente es la refinación de consultas a buscadores. Usando informaciones adicionales los resultados son más precisos, y el usuario se ahorra filtraciones manuales complementarias.

El intervalo semántico plantea el problema de que el usuario y el ordenador no se entiendan porque este último no comprenda el significado de los datos. Es posible que los metadatos posibiliten la comunicación declarando cómo están relacionados los datos. Por eso la representación del conocimiento usa metadatos para categorizar informaciones. La misma idea facilita la inteligencia artificial al deducir conclusiones automáticamente.

Los metadatos facilitan el flujo de trabajo convirtiendo datos automáticamente de un formato a otro. Para eso es necesario que los metadatos describan contenido y estructura de los datos.[9]

Algunos metadatos hacen posible una compresión de datos más eficaz. Por ejemplo, si en un vídeo el software sabe distinguir el primer plano del fondo puede usar algoritmos de compresión diferentes y así mejorar la cuota de compresión.[10]

Otra idea de aplicación es la presentación variable de datos. Si hay metadatos señalando los detalles más importantes, un programa puede seleccionar la forma de presentación más adecuada. Por ejemplo, si un teléfono móvil sabe dónde está localizada una persona en una imagen, tiene la posibilidad de reducirlo a las dimensiones de su pantalla. Del mismo modo un navegador puede decidir presentar un diagrama a su usuario ciego en forma táctil o leída.[11]

Clasificación : Los metadatos se clasifican usando tres criterios;

Contenido. Subdividir metadatos por su contenido es lo más común. Se puede separar los metadatos que describen el recurso mismo de los que describen el contenido del recurso. Es posible subdividir estos dos grupos más veces, por ejemplo para separar los metadatos que describen el sentido del contenido de los que describen la estructura del contenido o los que describen el recurso mismo de los que describen el ciclo vital del recurso.
Variabilidad. Según la variabilidad se puede distinguir metadatos mutables e inmutables. Los inmutables no cambian, no importa qué parte del recurso se vea, por ejemplo el nombre de un fichero. Los mutables difieren de parte a parte, por ejemplo el contenido de un vídeo.[12]
Función. Los datos pueden ser parte de una de las tres capas de funciones: subsimbólicos, simbólicos o lógicos. Los datos subsimbólicos no contienen información sobre su significado. Los simbólicos describen datos subsimbólicos, es decir añaden sentido. Los datos lógicos describen cómo los datos simbólicos pueden ser usados para deducir conclusiones lógicas, es decir añaden comprensión.[13]
Ciclo de vida [editar]El ciclo de vida de los metadatos comprende las fases creación, manipulación y destrucción. El análisis minucioso de cada una de las etapas saca a la luz asuntos significativos.

Creación: Se pueden crear metadatos manualmente, semiautomáticamente o automáticamente. El proceso manual puede ser muy laborioso, dependiente del formato usado y del volumen deseado, hasta un grado en el que los seres humanos no puedan superarlo. Por eso, el desarrollo de utillaje semiautomático o automático es más que deseable.

En la producción automática el software adquiere las informaciones que necesita sin ayuda externa. Aunque el desarrollo de algoritmos tan avanzados está siendo objeto de investigación actualmente, no es probable que la computadora vaya a ser capaz de extraer todos los metadatos automáticamente. En vez de ello, se considera la producción semiautomática más realista; aquí un servidor humano sostiene algoritmos autónomos con la aclaración de inseguridades o la proposición de informaciones que el software no puede extraer sin ayuda.

Hay muchos expertos que se encargan del diseño de herramientas para la creación de metadatos pero que ignoran cuestionar este proceso. Según los que no evitan el asunto, la generación no debe comenzar después de la terminación de un recurso si no que debe hacerse durante la fabricación: hay que archivar los metadatos tan pronto como se originan, con los conocimientos especiales del productor, para evitar una laboriosa reconstrucción posterior. Por eso, se tiene que integrar la producción de metadatos en el procedimiento de fabricación del recurso.[12]

Manipulación: Si los datos cambian, los metadatos tienen que cambiar también. Aquí se hace la pregunta quien va a adaptar los metadatos. Hay modificaciones que pueden ser manejadas sencilla y automáticamente, pero hay otras donde la intervención de un servidor humano es indispensable.

La metaproducción, el reciclaje de partes de recursos para crear otros recursos, demanda atención particular. La fusión de los metadatos afiliados no es trivial, especialmente si se trata de información con relevancia jurídica, como por ejemplo la gestión de derechos digitales...

Destrucción: Además hay que investigar la destrucción de metadatos. En algunos casos es conveniente eliminar los metadatos junto con sus recursos, en otros es razonable conservar los metadatos, por ejemplo para supervisar cambios en un documento de texto.

Almacenamiento: Hay dos posibilidades para almacenar metadatos; depositarlos internamente, en el mismo documento que los datos, o depositarlos externamente, en su mismo recurso. Inicialmente, los metadatos se almacenaban internamente para facilitar la administración.

Hoy, por lo general, se considera mejor opción la localización externa porque hace posible la concentración de metadatos para optimizar operaciones de busca. Por el contrario, existe el problema de cómo se liga un recurso con sus metadatos. La mayoría de los estándares usa URIs, la técnica de localizar documentos en la World Wide Web, pero este método propone otras preguntas, por ejemplo qué hacer con documentos que no tienen URI.

Codificación: Los primeros y más simples formatos de los metadatos usaron texto no cifrado o la codificación binaria para almacenar metadatos en ficheros.

Hoy, es común codificar metadatos usando XML. Así, son legibles tanto por seres humanos como por computadoras. Además este lenguaje tiene muchas características a su favor, por ejemplo es muy simple integrarlo en la World Wide Web. Pero también hay inconvenientes: los datos necesitan más espacio de memoria que en formato binario y no está claro cómo convertir la estructura de árbol en una corriente de datos.

Por eso, muchos estándares incluyen utilidades para convertir XML en codificación binaria y viceversa, de forma que se únen las ventajas de los dos.

Vocabularios controlados y ontologías: Para garantizar la uniformidad y la compatibilidad de los metadatos, muchos sugieren el uso de un vocabulario controlado fijando los términos de un campo. Por ejemplo, en caso de sinónimos o interlenguaje hay que acordarse qué palabras se usan para evitar que el buscador localice «español» pero no «española».

Una ontología además define las relaciones de los términos del vocabulario para que la computadora puede evaluarlas automáticamente. Así es posible presentar una página web sobre «Vincent van Gogh» aunque el usuario tecleó «pintores neerlandeses»; usando una ontología adecuada el buscador comprende que van Gogh fue un pintor neerlandés.

Un concepto muy similar a las ontologías son las folksonomías. Las ontologías son definidas por expertos del campo que ordenan los términos, pero las folksonomías son definidas por los mismos usuarios.

Crítica: Algunos expertos critican fuertemente el uso de metadatos. Sus argumentos más sustanciosos son:

Los metadatos son costosos y necesitan demasiado tiempo. Las empresas no van a producir metadatos porque no hay demanda y los usuarios privados no van a invertir tanto tiempo.
Los metadatos son demasiado complicados. La gente no acepta los estándares porque no los comprende y no quiere aprenderlos.
Los metadatos dependen del punto de vista y del contexto. No hay dos personas que añadan los mismos metadatos. Además, los mismos datos pueden ser interpretados de manera totalmente diferente, dependiendo del contexto.
Los metadatos son ilimitados. Es posible adherir más y más metadatos útiles y no hay fin.
Los metadatos son superfluos. Ya hay buscadores potentes para textos, y en el futuro la técnica query by example («búsqueda basada en un ejemplo») va a mejorarse, tanto para localizar imágenes como para música y vídeo.
Algunos estándares de metadatos están disponibles pero no se aplican: los críticos lo consideran una prueba de las carencias del concepto de metadatos. Hay que notar que este efecto también puede ser causado por insuficiente compatibilidad de los formatos o por la enorme diversidad que amedrenta a las empresas. Fuera de eso hay fomatos de metadatos muy populares.[7]

Formatos y estándares: Hay dos grupos que impulsan el desarrollo de formatos de metadatos: la técnica multimedia y la web semántica. El destino de la técnica multimedia es describir un singular recurso de multimedia, el de la web semántica la descripción de recursos de cada tipo y además el encadenamiento de los conocimientos. Los formatos más populares y grandes son:

ID3 hace posible la notación de metadatos muy sencillos, tales como título e intérprete, en ficheros de audio MP3. El formato es muy popular y demuestra que los metadatos pueden ser útiles.
MPEG-7
MPEG-21
TV-Anytime
Dublin Core
LOM
Marco de descripción de recursos (RDF)
RDF Schema
OWL
NewsML
SportsML

Fuentes:
1. Real Academia Española. Diccionario de la lengua española. Entrada «meta». 22.ª edición, 2001
2. Real Academia Española. Diccionario de la lengua española. Entrada «dato». 22.ª edición, 2001
3. Tim Bray. RDF and Metadata. 9 junio 1998, visitado 29 mayo 2006
4. Tom Sheldon. Linktionary. Entrada «Metadata». 2001, visitado 29 mayo 2006
5. A. Steinacker, A. Ghavam, R. Steinmetz. Metadata Standards for Web-Based Resources. IEEE MultiMedia, enero-marzo 2001
6. W3C, Ralph Swick. Metadata Activity Statement. 2002, visto 29 mayo 2006
7. a b D. C. A. Bultermann. Is It Time for a Moratorium on Metadata? IEEE Multimedia, 11(4):10-17, IEEE Computer Society Press, Los Alamitos, Ca, USA, octubre-diciembre 2004
8. W. R. Durrell. Data Administration. A Practical Guide to Data Administration. McGraw-Hill, 1985
9. C. Wroe, C. Goble, M. Greenwood, P. Lord, S. Miles, J. Papay, T. Payne, L. Moreau. Automating Experiments Using Semantic Data on a Bioinformatics Grid. IEEE Intelligent Systems, 19(1):48-55, enero/febrero 2004
10. H. Kosch, L. Böszörményi, M. Döller, M. Libsie, P. Schojer, A. Kofler. The Life Cycle of Multimedia Metadata. IEEE MultiMedia, 12(1), IEEE Computer Society Press, Los Alamitos, Ca, USA, enero 2005
11. M. Horstmann, M. Lorenz, A. Watkowski, et al. Automated interpretation and accessible presentation of technical diagrams for blind people. The New Review of Hypermedia and Multimedia, 10(29:141-163, Taylor & Francis Inc., Pa, USA, 2004
12. a b J. R. Smith, P. Schirling. Metadata Standards Roundup. IEEE MultiMedia, 13(2):84-88, IEEE Computer Society Press, Los Alamitos, Ca, USA, avril 2006
13. G. Stamou, J. v. Ossenbruggen, J. Pan, G. Schreiber. Multimedia Annotations on the Semantic Web. IEEE MultiMedia, 13(1):86-90, IEEE Computer Society Press, Los Alamitos, Ca, USA, enero-marzo 2006
Obtenido de "http://es.wikipedia.org/wiki/Metadato"

pero ¿qué es la Documentación ?

Según Wikipedia:
En sentido restringido, la documentación como ciencia documental se podría definir (a grandes rasgos) como la ciencia del procesamiento de la información. Integradora y globalizadora, se trata de una ciencia enriquecedora y generalista, de ámbito multidisciplinar o interdisciplinar. La ciencias de la documentación engloban, según la mayoría de los autores: la biblioteconomía, la archivística, la documentación y la museología.

A falta de un consenso, hay diversos autores, como Juan Ros García o José López Yepes, que la consideran una ciencia (documental), a la vez que una disciplina, no sólo una técnica. También pueden considerarse, en sentido general, las ciencias de la documentación y la documentación como sinónimos, si el contexto no perturba la intención del emisor, es decir, si no se distorsiona el mensaje del interlocutor porque no se dé ambigüedad semántica.

Historia: Cada ciencia documental tiene una larga historia, pero la más antigua es sin duda la archivística. Según el país, se trata de unos estudios universitarios con titulación superior (existente en dos ciclos antes de la Convergencia Europea, por ejemplo en Japón), con un nombre u otro, pero que también se imparte en centros de enseñanza privados desde hace años. En América Latina, la carrera profesional suele denominarse "Bibliotecología y Ciencias de la Información".

Algoritmo científico: Tiene que ver con la gestión del conocimiento, que es como utilizar cualquier clase de información y hacerla productiva o que dé el máximo beneficio, como si se tratara de otro bien económico. Asimismo, tiene que ver con arquitectura de la información o como se construyen los modelos para los soportes: Internet o encuestas, datos numéricos, fotografías, mapas, diarios, artículos de revistas, etc., es decir, un número ilimitado de soportes. También tiene el modelo la connotación de un método científico, mediante un algoritmo, que valida los resultados de búsqueda mediante la utilización de base de datos relacionales (tablas de datos).

Biblioteconomía: En biblioteconomía es la recuperación y presentación clasificada, ordenada y valorada de documentos impresos y de vídeo y audio sobre un tema preciso, que puede ser un artículo o un sistema o un producto o un descriptor. En una obra científica es la bibliografía de un informe final, tanto la que ha sido utilizada como la sugerida de ampliación. En cinematografía, es la recopilación de fuentes escritas o audiovisuales sobre una película (documentación de un tema).

En la obra científica o de no ficción formará parte de los créditos de la calidad del trabajo o bibliografía utilizada, y es parte del trabajo desarrollado, donde deberán figurar listas de fuentes; también son técnicas de documentación los glosarios, los índices temáticos y de autores citados, tablas auxiliares, etc.

Como funciones de un bibliotecario-documentalista profesional, como autor o como colaborador, el especialista en documentación conoce todas las variantes descritas y utiliza programas de cómputo específicamente desarrollados por programadores y que él mismo puede adaptar a cada tarea, como por ejemplo construir de forma instantánea un índice de materias por el método de palabras utilizadas y sus frecuencias o hacer un análisis de contenido o construir algún tipo de indicador de medida de la información o investigar sobre algoritmos de búsqueda o sobre motores de búsqueda en el ámbito de la informática.

El modelo de un sistema de información será con un modelo sistémico aplicado a un sistema complejo. Incluirá la captación de fuentes y su adecuación al problema a documentar; esto será la primordial tarea. El propósito es hacer máxima la cantidad de información captada y mínima la básica utilizable.

En el proceso de un trabajo sobre cualquier tema se comienza con documentarse sobre lo que se va a trabajar, y la forma más simple es consultar enciclopedias temáticas o bases de datos en Internet, como Wikipedia.org, monografías.com, geocities.com, Dialnet, Diccionario Crítico de Ciencias Sociales, enciclopedia.com, etc. De una forma progresiva se encuentran fuentes nuevas y mucha información precisa.

¿Qué son los Metadatos?

Los metadatos son datos de datos. Son como las fichas bibliográficas de los libros pero en este caso de cualquier documento. Los metadatos consisten en información que caracterizan datos. En esencia intentan responder a las preguntas: ¿Quién? , ¿Qué? , ¿Cuando?, ¿Donde? , ¿ Porque?, y ¿Cómo?, sobre cada una de las facetas relativas a los datos que se documentan. El fin último de los metadatos, es ayudar a publicitar y dar soporte a los datos que las organizaciones han producido. Los metadatos almacenados en BD estándares producen catálogos.
Son muy importantes en la documentación de sistemas (en su comcepto amplio), es decir, sirven para documentar lo que sea pues desde la visión sistémica todo es un sistema y por ende objeto de documentación.
Por esta razón queremos exponer nuestra visión de la documentación desde este concepto para hacer nuestro aporte ya que es importantísimo para los objetivos actuales de esta materia.

Sistemas de Documentación (grupo 2 UNESR - FIEC)