Los diccionarios de datos y su importancia en el mundo de los datos abiertos

Los diccionarios de datos se posicionan como una herramienta de suma importancia para la correcta reutilización y aprovechamiento de los datasets accesibles desde los catálogos de datos abiertos.


Muchas veces al examinar un conjunto de datos nos preguntamos qué significa un campo o columna determinada. No sabemos a qué se refiere. Eso puede suceder porque se utiliza una nomenclatura que sólo es comprensible para quienes preparan dicho activo. Para evitar errores al procesar los datos existen los denominados diccionarios de datos.

En el mundo de los datos abiertos, se recomienda que cada conjunto de datos se publique junto con un diccionario de datos para que los reutilizadores puedan comprenderlos, interpretarlos y utilizarlos correctamente. La forma de presentación y redacción puede variar pero lo importante es que estén disponibles para su consulta y/o descarga, que sean claros, sencillos de utilizar y actualizados. Dicho documento puede estar en formato PDF, archivo de texto, tabla. No existe una única forma de elaborarlos pero se debería adaptar a la naturaleza y complejidad del dataset que se quiere publicar con el objetivo de asegurar su comprensión, planificar el nivel de detalle en función del objetivo final, la audiencia y necesidades de los consumidores de los datos.

Un diccionario de datos básico provee información sobre los campos o variables que se presentan, el tipo de dato, formato, cualquier código utilizado, longitud del campo, valores, entre otros elementos. Además, pueden incluir la fuente de los datos, métodos de muestreo, cualquier transformación sufrida, estándares utilizados, cuestiones de calidad. 

A continuación, se presenta un ejemplo de diccionario de datos del Portal de Datos Abiertos de Brasil:

Aquí se puede observar el dataset "Biblioteca-Contratos" del IFBA que contiene dos recursos: la tabla en CSV y el diccionario de datos sobre dicho recurso en PDF. El mismo contiene los siguientes elementos:

En el portal de Brasil se pueden localizar varios ejemplos de diccionario de datos. Aquí sólo se mostró un caso aplicado al ámbito de las bibliotecas.

En conclusión, elaborar un diccionario de datos para cada dataset que se desea publicar implica una inversión en tiempo pero representa el camino seguro para entender y usar los datos correctamente.

Bibliografía consultada:

Aporta/Ministerio de Asuntos Económicos y Transformación Digital (España). (2021, Octubre 20). ¿Qué es un diccionario de datos y por qué es importante?  https://datos.gob.es/es/blog/que-es-un-diccionario-de-datos-y-por-que-es-importante


México. Agencia Digital de Innovación Pública. (2020). Guía práctica para la elaboración de diccionario de datos. https://politicadedatos.cdmx.gob.mx/assets/ppts/guia_dicc.pdf


What is a data dictionary? - data.govt.nz. (2021). Govt.nz. https://www.data.govt.nz/toolkit/data-management/creating-a-data-dictionary/what-is-a-data-dictionary/

Comentarios

Entradas populares