Story Transcript
Metadatos para Catálogo
datos.gob.es
En colaboración con
Las opiniones recogidas en este documento no se corresponden, necesariamente, con las de ninguno de los organismos públicos participantes en esta iniciativa.
Contenidos 1
INTRODUCCIÓN ......................................................................................................... 3
2
ESQUEMA DE INFORMACIÓN .................................................................................. 3
3
FICHA DESCRIPTIVA DEL CATÁLOGO .................................................................... 4
4
FICHAS DESCRIPTIVAS DE DATASETS .................................................................. 6 4.1
Formatos de los datos .......................................................................................................... 9
1 INTRODUCCIÓN Los conjuntos de datos que pueden ser expuestos para su reutilización pueden ser de dos tipos: datos en crudo -o ficheros estáticos que incluyen los datos en formato XML, CVS, etc.-, y datos “Linked Data”, expresados semánticamente siguiendo los principios de la Web Semántica –o Web 3.0–. Para una gestión óptima de los conjuntos de datos es necesario establecer una catalogación de los mismos, que permita visualizar y acceder a la información por parte de los agentes reutilizadores. El catálogo de los conjuntos de datos –o datasets– se generará en base a cierta información introducida por los catalogadores a través de una aplicación de catalogación. En este documento se detallan las características de alto nivel del sistema de catalogación, relativas tanto a las fichas utilizadas para la gestión de los registros del catálogo como a la propia ficha del catálogo. Para su elaboración se ha tenido también en cuenta el Esquema Nacional de Interoperabilidad1, de forma que los metadatos definidos se ajusten a su normativa técnica2.
2 ESQUEMA DE INFORMACIÓN En la figura 1 aparecen representadas las distintas entidades que conforman un catálogo de datos: catálogo, registros del catálogo, los datasets, y las distribuciones. El catálogo se refiere al listado que incluye una colección de registros relacionados con los conjuntos de datos que componen dicho catálogo. En el catálogo se incluye información general descriptiva, los términos de uso de los datos incluidos, e información técnica. Un registro del catálogo es cada una de las entradas del catálogo que están asociadas directamente con los datasets -o conjuntos de datos-. Cada registro incluye información técnica sobre la catalogación de cada dataset (fechas de creación y actualización, o información sobre el origen de la entrada). Cada registro estará relacionado con un único dataset. Un dataset es un conjunto de datos, relacionado con una temática en concreto, que está asociado con un registro del catálogo, e incluye: ▪
información descriptiva y/o técnica sobre los datos que contiene
▪
la licencia aplicada sobre los datos
Cada dataset tiene un volcado de datos asociados, que puede estar representado mediante distintos formatos, esto se conoce como distribuciones. Un dataset tiene una o varias distribuciones. Una distribución es la representación de un acceso al volcado de datos de un dataset en un formato determinado. Además del formato, cada distribución indicará su tamaño y alguna información técnica adicional sobre la interpretación y uso de la misma.
1 2
Texto consolidado Real Decreto 4/2010, de 8 de enero: http://www.csae.map.es/csi/pdf/RD_4_2010_texto_consolidado.pdf Normas Técnicas de Interoperabilididad: http://administracionelectronica.gob.es/?_nfpb=true&_pageLabel=P60215901274203521811
Catálogo
1 1..n
RegistroCatálogo
1
1
Dataset
1 1..n WFS XML XLS
Distribución (formatos)
Figura 1 - Esquema de información que relaciona la definición del catálogo, los datasets y sus distribuciones.
3 FICHA DESCRIPTIVA DEL CATÁLOGO Múltiple: el campo puede tener múltiples valores y deberá repetirse para cada uno Requerido: el campo no puede quedar vacío Auto: el valor del campo puede ser rellenado automáticamente por el sistema
Campo
Descripción
Múltiple
Requerido
Auto
Los metadatos a recoger son los siguientes:
Nombre
Breve título o nombre dado al catálogo de datos. Texto libre. (recomendable limitar a 128 caracteres)
No
Si
No
Descripción
Breve resumen descriptivo del catálogo de datos Texto libre.
No
Si
No
Publicador
Creador del recurso (ficha del catálogo)
No
Si
Si
Tipo de dato
Texto normalizado. Valor fijo correspondiente al responsable de la plataforma y seleccionable de una tabla normalizada de agentes: código alfanumérico único para cada Cadena de órgano/unidad/oficina extraído del Directorio Común gestionado por el MPTAP.
Campo
Descripción
Tipo de dato
Múltiple
Requerido
Auto
Conjuntos de datos
Colección de referencias a la totalidad de datasets que componen el catálogo
Texto. Valores correspondientes a los identificadores de datasets.
Si
Si
Si
Extensión
Indica el número total de conjuntos de datos existentes
Número.
No
No
Si
Identificador
Referencia para identificar el catálogo.
Texto. Valor fijo correspondiente al nombre de dominio del catálogo. (Ejemplo: datos.gob.es)
No
Si
No
Fecha de creación
Indica la fecha de publicación inicial del catálogo Fecha. Valor fijo correspondiente a la fecha de publicación del portal. El formato general será: [T]. 3 Formato ISO8601 .
No
Si
No
Fecha de actualización
Fecha en la que se modifica por última vez el catálogo (se añade, elimina o modifica un dataset).
Fecha. Timestamp en el momento de la actualización. El formato general será: [T]. Formato ISO8601.
No
Si
Si
Idioma
Indica los idiomas en los que se proporciona la información del catálogo.
Texto normalizado. Valor seleccionables entre varias opciones: {ca, es, gl, eu, ca, va}. Se utilizará como vocabulario estandarizado el conjunto de etiquetas definido en el RFC 4 4646 y los valores definidos en el registro de 5 la IANA .
Si
Si
No
Cobertura geográfica
Ámbito geográfico cubierto por el catálogo
Valor fijo para el país seleccionado de la taxonomía propia de cobertura geográfica.
No
No
No
Categorías
Totalidad de materias incluidas en el catálogo.
Texto normalizado. Se utilizarán todos los temas de la 6 taxonomía definida para el catálogo que estén en uso actualmente.
Si
Si
Si
Página de inicio Dirección web de acceso al catálogo de datos.
Texto. Valor fijo correspondiente a la URL de la página web de entrada al catálogo.
No
Si
No
Términos de uso
Texto. Valor fijo correspondiente a la URL de la página web del catálogo con la información de las condiciones.
No
Si
No
Referencia de los términos de uso del catálogo.
3
Todos los elementos, sub-elementos y, en su caso, sub-sub-elementos que requieren información numérica de fecha y hora deben utilizar la norma internacional ISO 8601:2004. Para mayor información, véase http://www.iso.org 4
RFC4646:2006 proporciona una sintaxis para construir descripciones de lenguas utilizando ISO 639 para códigos de lenguas, ISO 3166 para códigos de país, e ISO 15924 para códigos de escrituras. Tags for Identifying Languages http://www.ietf.org/rfc/rfc4646.txt 5
IANA Language Subtag Registry: http://www.iana.org/assignments/language-subtag-registry
6
Véase la última versión del documento PLANCISP-TAX-nn (donde nn es el número de versión)
En caso de utilizar múltiples idiomas no sería necesario crear múltiples fichas, sino que replicarán los metadatos necesarios en los distintos idiomas.
4 FICHAS DESCRIPTIVAS DE DATASETS Múltiple: el campo puede tener múltiples valores y deberá repetirse para cada uno Requerido: el campo no puede quedar vacío Auto: el valor del campo puede ser rellenado automáticamente por el sistema
Los metadatos a recoger son los siguientes:
Campo
Descripción
Tipo de dato
Múltiple
Requerido
Auto
Registro del Catálogo
Catálogo
Referencia al identificador del catálogo al que pertenece el registro.
Texto. Secuencia de caracteres correspondiente al identificador del Catálogo.
No
Si
Si
Fecha de publicación
Fecha en la que se añade el registro al catálogo. No es la fecha de publicación del dataset
Fecha. Timestamp en el momento de la publicación. El formato general es: [T]. Formato ISO8601.
No
Si
Si
Fecha de actualización
Fecha en la que se modifica por última vez la entrada del catálogo. No es la fecha de actualización del propio dataset
Fecha. Timestamp en el momento de la actualización. El formato general es: [T]. Formato ISO8601.
No
Si
Si
Relacionado con
Dataset que está relacionado con la entrada actual, ya que puede ser una versión similar a otra catalogada anteriormente (actualizaciones periódicas de los mismos datos).
Texto normalizado. Valor correspondiente al identificador del dataset realcionado y seleccionable a través de una lista de los datasets ya existentes en el catálogo.
Si
No
No
Campo
Descripción
Tipo de dato
Múltiple
Requerido
Auto
Descripción del dataset
Nombre
Breve título o nombre dado al conjunto de datos.
Texto libre. (recomendable limitar a 128 caracteres)
No
Si
No
Descripción
Descripción detallada del dataset
Texto libre.
No
Si
No
Categoría
Temática o materia primaria del dataset
Texto normalizado. Valor seleccionable de la Taxonomía (Descrita en documento específico aparte)
No
Si
No
Tags / Etiquetas
Conjunto de etiquetas textuales específicas sobre Texto normalizado. la temática del dataset Valores seleccionables de una lista de etiquetas 7 gestionable desde el CMS . (Podrán ser varias palabras separadas por algún signo de puntuación concreto)
Si
No
No
7
Véase el punto “4 Extensión temática” de la última versión del documento PLANCISP-TAX-nn (donde nn es el número de versión).
Campo
Descripción
Tipo de dato
Múltiple
Requerido
Auto
Descripción del dataset
Identificador
Referencia de uso interno para identificar al dataset
Texto. Su valor será un código identificador / URI
No
Si
Si
Fecha de creación
Fecha de creación del dataset
Fecha. El formato general es: [T]. Formato ISO8601 .
No
No
No
Fecha de última actualización
Última fecha conocida en la que se modificó o actualizó el contenido del dataset
Fecha. El formato general es: [T]. Formato ISO8601.
No
No
No
Frecuencia de Periodo de tiempo aproximado que suele pasar actualización entre actualizaciones del dataset, si hubiera
Texto normalizado. Valor seleccionable entre varias opciones: {minuto, hora, diario, semanal, quincenal, mensual, trimestral, semestral, anual, varios años}
No
No
No
Idioma
Indica el lenguaje en el que se encuentra la información del conjunto de datos
Texto. Valor seleccionable entre varias opciones: {ca, es, gl, eu, ca, va}. Se utilizará como vocabulario estandarizado el 9 conjunto de etiquetas definido en el RFC 4646 .
Si
Si
No
Depositario
Agente actual que mantiene el dataset
Texto. Valor seleccionable de una tabla normalizada de agentes: código alfanumérico único para cada Cadena de órgano/unidad/oficina extraído del Directorio Común gestionado por el MPTAP.
No
Si
No
Creador
Agente original que crea el dataset
Texto. Valor seleccionable de una tabla normalizada de agentes: código alfanumérico único para cada Cadena de órgano/unidad/oficina extraído del Directorio Común gestionado por el MPTAP. Si no hay cambio organizativo el creador es el mismo que el propietario, y si hay cambio el propietario sería el nuevo responsable, y el creador el original.
No
Si
Si
Nombre de Licencia
Nombre descriptivo de la licencia aplicable al Dataset
Texto libre.
No
Si
No
URL a la licencia
Dirección web a la descripción de la licencia.
Texto. URL a una página web del agente correspondiente o del propio catálogo.
No
Si
No
Tasa
Indicador de la existencia o no de contraprestación económica
Texto. Valor seleccionable: {Gratuita, Según tarifa}
No
No
No
10
8
Todos los elementos, sub-elementos y, en su caso, sub-sub-elementos que requieren información numérica de fecha y hora deben utilizar la norma internacional ISO 8601:2004. Para mayor información, véase http://www.iso.org 9
RFC4646:2006 proporciona una sintaxis para construir descripciones de lenguas utilizando ISO 639 para códigos de lenguas, ISO 3166 para códigos de país, e ISO 15924 para códigos de escrituras. Tags for Identifying Languages http://www.ietf.org/rfc/rfc4646.txt 10
Agente: Una corporación, elemento organizativo o sistema responsable de las acciones sobre el catálogo y/o sus conjuntos de datos. No incluye personas individuales.
Auto
Tipo de dato
Requerido
Descripción
URL a la tarifa Dirección web a la descripción de la tarifa aplicable.
Texto. URL a una página web del agente correspondiente. Únicamente se informará si Tasa = Según tarifa.
No
Condicional
Campo
Múltiple
Descripción del dataset
No
Cobertura geográfica
Mayor ámbito geográfico cubierto por el dataset
Texto normalizado. Valores seleccionables de las tablas país, región y provincia, según taxonomía propia de cobertura geográfica.
Si
No
No
Detalle geográfico
Nivel de detalle geográfico del dataset
Texto normalizado. Valor seleccionable de una taxonomía propia de cobertura geográfica: {provincia, comunidad autónoma, nación}.
No
No
No
Inicio Cobertura temporal
Fecha de inicio del periodo cubierto por el dataset Fecha. El formato general es: [T]. Formato ISO8601.
No
No
No
Fin Cobertura temporal
Fecha de fin del periodo cubierto por el dataset
Fecha. El formato general es: [T]. Formato ISO8601.
No
No
No
Detalle temporal
Nivel de detalle temporal del dataset
Texto. Valor seleccionable entre un conjunto de periodos: {minuto, hora, día, semana, quincena, mes, trimestre, semestre, anual, varios años}
No
No
No
Recursos relacionados
Uno o más enlaces apuntando a más información Texto. relativa al dataset (información sobre los propios Una o varias URLs a páginas web del agente datos, material audiovisual, etc.) correspondiente o del propio catálogo, acompañadas cada una con un breve texto descriptivo.
Si
No
No
Si
Si
Si
Distribuciones Referencia a los formatos de distribución del conjunto de datos
Texto. Su valor será una o varias referencias al identificador de los formatos de distribución correspondientes.
Campo
Descripción
Tipo de dato
Múltiple
Requerido
Auto
Formato de Distribución
Identificador
Referencia de uso interno para identificar al formato de distribución
Texto. Su valor será un código identificador / URI
No
Si
Si
URL del dataset
URL que apunta al recurso (fichero, servicio, etc.) Texto. que contiene o da acceso a los datos finales. URL que puede ser a un canal RSS, Servicio Web, a un fichero descargable, etc. Deberá permitirse URL largas, ya que puede ser una consulta a un servicio SPARQL o similar, donde la consulta se incluye en la querystring. Si el fichero se alojara en la propia plataforma del catálogo este campo se cumplimentaría de forma automática.
No
Si
Auto
Tipo de dato
Condicional
Descripción
Requerido
Campo
Múltiple
Formato de Distribución
Tipo de acceso Modalidad de acceso a la fuente del conjunto de datos, que indica el grado de inmediatez en la obtención del conjunto de datos en el formato indicado
Texto. Valor seleccionable entre “directo” o “indirecto” (Indirecto se refiere al acceso a catálogos, fuentes comprimidas, documentación de APIs, etc., lo que implicará la necesidad de algún tipo de procesamiento adicional por el usuario para obtener el conjunto de datos en el formato indicado)
No
Si
No
Formato
Formato en que se encuentra representado el dataset
Texto normalizado. Valor seleccionable de la lista de formatos admitidos para documentos electrónicos en la Norma Técnica de Interoperabilidad de Catálogo de estándares. (También Ver apartado 4.1 en este documento).
No
Si
No
Tamaño
Tamaño aproximado del conjunto de datos
Será un valor fijo entero (de 1 a 1000), acompañado de una de las siguientes unidades digitales: "B” (Bytes), “KB” (Kilobytes), "MB” (Megabytes) y "GB” (Gigabytes).
No
No
No
Más información sobre el formato
Enlaces a documentos relacionados con el formato, donde se indica el formato o esquema utilizado para su representación.
Texto. URL a un documento que indique más información relacionada con el formato en el que se representa el dataset. (Por ejemplo, podría ser un esquema XSD asociado a un dataset en XML o una página HTML con más información sobre el formato seguido).
No
No
No
Se podrán añadir varias distribuciones o formatos de representación a cada entrada del catálogo.
4.1 Formatos de los datos Cada dataset puede tener más de un formato. Cada formato estará identificado por su tipo de formato y por un URI único que identifica el lugar donde se puede acceder para ser consultado o descargado. 4.1.1 Lista de formatos de datos Para la representación de los formatos, se recomienda el empleo de los Tipos MIME11 estándar, así como su representación textual relacionada.
11
MIME Types: http://www.iana.org/assignments/media-types/
A continuación, se muestran los típicos tipos MIME que se pueden encontrar en una plataforma RISP. El tipo MIME podría ser guardado para usos futuros en la base de datos, aunque al usuario sólo se le debería mostrar el nombre legible. Formato
Tipo MIME
CSV
text/csv
HTML
text/html
XHTML
application/xhtml+xml
Texto plano
text/plain
XML
text/xml
Calendario
text/calendar
JSON
application/json
PDF
application/pdf
PostScript
application/postscript
SOAP
application/soap+xml
SPARQL-XML
application/sparql-results+xml
SPARQL-JSON
application/sparql-results+json
RDF-XML
application/rdf+xml
RDF-N3
text/rdf+n3
RDF-Turtle
application/x-turtle
Excel
application/vnd.ms-excel
ZIP
application/zip
WMS
text/xml
WFS
text/xml
geoRSS
text/xml
DjVu
image/vnd.djvu
DWG
image/vnd.dwg
KML
application/vnd.google-earth.kml+xml]
KMZ
application/vnd.google-earth.kmz]
SHP
application/x-zipped-shp
A medida que aparezcan nuevos formatos, se deberán ir añadiendo a la lista existente.