Esto no son datos abiertos

11-21-2014

El otro día, leyendo opiniones de diversa gente respecto a las bondades de los datos abiertos, hice esto:

Esto no son datos abiertos. No son datos (al menos no si uno supone que esto es una representación visual de un conjunto particular de datos, y no simplemente una colección de bytes que casualmente el navegador web interpreta como una imagen). Tampoco es información. Esto es, si acaso, lo que en el instituto llamábamos despectivamente una “imagen colorida”. Y sin embargo muchas veces algo equivalente a esto se hace pasar por datos abiertos.

Esto tampoco son datos abiertos. Eso es una colección de números sin sentido. Alguien podría imaginarse como pasar de ese archivo a la imagen de arriba. Alguien incluso podría imaginarse más detalles para lograr algo mucho más parecido a la imagen de arriba. Alguien que profesionalmente haga algo relacionado con áreas muy particulares del conocimiento podría incluso llegar a desarrollar una teoría respecto a qué es el contenido del archivo y cómo es que está organizado. Ese alguien podría seguramente tener una idea más clara de cómo llegar del archivo a la imagen, e incluso posiblemente podría darle sentido al tamaño y el color de los círculos.

Lo que no podría hacer es reconstruir exactamente la base de datos de la cual fue extraído ese archivo. Podría imaginarse como construir esa base de datos, y posiblemente alguien podría tener exactamenete la misma idea que yo tuve, e implementar un programa que obtenga los mismos datos de la misma fuenta. Digo “posiblemente” y no “seguramente” no porque crea que mi idea es única y especial, sino porque es mi idea. Otra persona queriendo obtener la misma información podría perfectamente tomar una ruta diferente y llegar a un sitio muy parecido.

Más importante que eso es el hecho que para pasar de la base de datos original al archivo indicado arriba, hubo datos que fueron destruídos por el simple hecho de que yo creí que no eran relevantes para el problema en cuestión. De hecho la destrucción de datos ocurrió precisamente con la finalidad de reducir la cantidad de ellos, para que la imagen de arriba tuviese al menos un chance remoto de tener algo de sentido. Al destruir parte de los datos yo tenía buenas intenciones. Admito que en los datos destruídos hay cosas interesantes, pero lo que yo creía que era la parte más útil es la que preservé. Alguien más podría tener una idea completamente diferente y llegar a conclusiones mucho más elucidantes que las mías.

¿Podría publicar la base de datos original? Sí, podría. Pero tengo incentivos para no hacerlo. En este caso específico el incentivo principal es ilustrar qué constituyen datos abiertos y qué no, y ejemplicar los problemas que resultan cuando alguien decide “limpiar” y “reducir” los datos. Un incentivo secundario es que ese archivo es grande. Dado que el archivo no es la fuente primaria de esos datos, podría publicar el programa que obtiene los datos desde la fuente primaria, pero nuevamente tengo incentivos para no hacer eso.

Eso ilustra un segundo punto, tal vez más sutil que el primero: producir y publicar los datos requiere de cierto nivel de experticia, no es solo “soplar y hacer bombitas”. Convertir esos datos en información también requiere un nivel de experticia, posiblemente de un tipo diferente al primero, pero experticia de todas formas. Trabajar con esa información, opinar sobre esa información, tomar decisiones con esa información, todo eso puede o no puede requerir experticia,y si la requiere puede ser en áreas muy diferentes una de otra, y puede ser en múltiples áreas que nunca se sobreponen. No es bueno caer en la tentación de confundir la producción de los datos con el consumo de los datos.

¿Quién se atreve a explicar qué es la imagen de arriba? Pista: tiene que ver con las personas que participaron de #OGPSanJosé.

Artículos del blog

Esto no son datos abiertos

11-21-2014