Esto son (casi) datos abiertos

11-23-2014

El artículo anterior fue relativamente sencillo de escribir, pues lo hice todo mal:

  • No expliqué qué representa la imagen
  • No indiqué qué datos fueron utilizados para crear esa imagen
  • No expliqué cómo obtuve esos datos
  • No expliqué qué simplificaciones y reducciones apliqué sobre los datos utilizados
  • No expliqué en forma alguna cómo pasar de los datos a la imagen

En otras palabras, lo único que hice fue crear una imagen con muchos colores y mover las manos en el aire suficiente como para causar la impresión de que la imagen es importante y contiene información que es importante considerar.

La imagen en cuestión es esta:

¿Qué es esta imagen?

Al final del artículo decía yo que “tiene que ver con las personas que participaron de #OGPSanJose”. La afirmación es bastante literal: cada nodo en la imagen corresponde a un usuario de Twitter que en algún momento (posiblemente reciente, pero no hay una limitación explícita al respecto, solo aquellas que impone el API de Twitter) escribió un tweet con la palabra “OGPSanJosé” o alguna variante de eso (OGPSanJose, ogpsanjosé, etc), incluído pero no limitado al hashtag #OGPSanJosé. Los enlaces entre los nodos se establecen sí y solo sí los usuarios correspondientes se siguen mutuamente (no es suficiente con que un usuario siga al otro, ambos deben seguirse uno al otro). Los colores _y_ los tamaños de los nodos están dados por la cantidad de enlaces ingresando a cada uno, en otras palabras, mientras más grande y más rojo sea un nodo, más enlaces tiene con otros nodos y mientras más pequeño y más azul, tiene menos. O en otras palabras: el grado de conexión entre los usuarios. Los colores de los enlaces existen únicamente para hacer la imagen más agradable a la vista. La distribución espacial de los nodos busca que las conexiones sean más sencillas de entender, pero no aporta ninguna información adicional.

Primer principio fundamental de datos abiertos: explique qué son los datos que está publicando.

La anterior es una explicación seca del contenido de la imagen. No hay interpretación y no hay opiniones respecto a la imagen. No tengo duda que un periodista quitaría más del 80% de las palabras y cambiaría otras tantas. Sin embargo contiene información que es valiosa para alguien que quiera repetir el ejercicio. Igualmente contiene información valiosa para derivar alguna conclusión de la imagen. Repetir el ejercicio es parte integral de la noción de datos abiertos, pero realizar interpretaciones y sacar conclusiones es una actividad que trasciende el tema.

Para poner esto en contexto, yo puedo por ejemplo abrir el periódico, buscar alguno de los infogramas que casi con seguridad contiene, leer el artículo respectivo y tratar de sacar mis propias conclusiones a partir de toda esa información. El periodista habrá indicado alguna fuente, usualmente limitándose al nombre de la institución que produjo los datos (e.g. MICIT, CONICIT) y en algunas ocasiones indicando el nombre de un informe o trabajo de investigación que los contenga o los haya producido (e.g. “adjudicación de becas de grado en el año 2014″). Solo en rarísimas ocasiones indicará una fuente inequívoca para los datos asociados (por ejemplo un enlace a la fuente original, o un archivo que los contenga), y en ocasiones aún más raras indicará un procedimiento que se pueda emplear en la práctica y que permita a algún lector reproducir el trabajo requerido para, partiendo de los mismos datos, llegar a la misma información.

Segundo principio fundamental de datos abiertos: publique los datos.

(y sí, estoy consciente de que mucha gente opinará que este debería ser el primero; yo difiero)

Un paso en la dirección correcta es entonces publicar al menos un archivo (o servicio de consulta) para los datos requeridos para reproducir un gráfico o infograma. Publicar los datos sin embargo no es suficiente. Por ejemplo, en el post anterior yo señalaba que esto correspondía a los datos para la imagen en cuestión. El archivo está comprimido con un programa ampliamente disponible, pero posiblemente no ampliamente utilizado. Una forma quizás más amigable, pero que igualmente tiene su cuota de problemas, es por ejemplo esta. Es el mismo contenido, solo cambia la forma. El archivo no ofrece grandes explicaciones respecto a qué son las columnas de las tablas, aunque no hay nada que evite tal cosa. La hoja electrónica sí contiene esa información.

Tercer principio fundamental de datos abiertos: publique los datos en una forma tal que otras personas los puedan acceder.

Ya he indicado varias veces que estos no son los datos originales. En ese archivo hay poco más de 4000 filas. El conjunto de datos original tiene más de 250 mil. Este es un problema usual a la hora de abrir datos: lleva un costo asociado, pues como mínimo alguien tiene que pagar la distribución de los archivos. Alguien además tiene que preparar los datos, que también tiene un costo, y alguien tiene que mantener los datos, que también tiene un costo. Menos evidente: una vez que se publican datos, se debe hacer todo lo posible para mantener cada una de las versiones de los archivos publicados en línea, pues habrán documentos en la web que hagan referencia a las versiones antiguas. El corolario que es los archivos con los datos deben tener alguna forma de identificar la versión de los mismos. En otras palabras: no sobreescriba los archivos para actualizarlos, déles un nuevo nombre.

Cuarto principio fundamental de datos abiertos: incluya el costo de la publicación y mantenimiento en su planeamiento.

Superado el problema del costo, todavía queda abierta la pregunta de la reducción. Es sumamente tentador publicar datos reducidos, pues elimina dos “problemas”.

El primero es que quien reciba los datos puede carecer del conocimiento o la experticia para realizar la reducción por cuenta propia. Es decir, la labor de reducción de los datos va plagada de buenas intenciones y las buenas intenciones todos sabemos a dónde llevan. Si esa es su única motivación, resista la tentación de hacer eso.

El segundo problema que se resuelve al reducir los datos publicados es que se cierra la posibilidad de que alguien reproduzca el proceso y encuentre errores o problemas. Por extraño que esto suene, mi experiencia es que existen personas y organizaciones que reducen los datos publicados exactamente con este objetivo. Un ejemplo llevado al absurdo es el caso de una oficina que en lugar de indicar que se compraron dos millones de colones en lápices, cincuenta mil colones en papel y cincuenta mil colones en grapas, en su presupuesto “abierto” indica simplemente que se compraron dos millones cien mil colones en “insumos de oficina”.

En el caso ideal, la información se publicaría individualizada, es decir, en lugar de indicar el monto total que se usó en lápices, se indicarían los montos para cada compra realizada. Es diferente realizar una compra de dos millones de colones vs veinte compras de cien mil, incluso si el total es el mismo. En un reporte individualizado podría indicarse por ejemplo la fecha (que permitiría derivar patrones); se podría incluir información sobre el proveedor; se podría incluir información sobre marcas; se podrían incluir muchas otras cosas que mejorarían las labores de control.

Antes ejemplificaba con periodistas porque es el ejemplo más común de esta situación, pero lo mismo aplica para (interpretaciones de) datos publicados por instituciones u organizaciones de la más variada índole. Por ejemplo, en el contexto de #OGPSanJosé existe este tweet:

Data Meic, el portal de #DatosAbiertos del Ministerio de Economía de Costa Rica. #OGPSanJose. Cc @EconomiaBo http://t.co/bW0TPxvcIQ

— Badanowski (@jbadani) noviembre 18, 2014

En la página web indicada (cuando se puede acceder), se encuentra uno con información altamente reducida y procesada. Por ejemplo, hay un listado de “empresas PYME por región según sector económico”. ¿Por qué no publican una tabla con todas las empresas, con una columna que indique el tipo de empresa (micro, pequeña, mediana, grande) y los sectores económicos donde se desempeña cada una? De algo así se podría derivar muy sencillamente la información que sí publican.

Quinto principio fundamental de datos abiertos: publique los datos de manera desagregada.

En el ejemplo que yo construí, la reducción que ocurrió entre el conjunto de datos grande y el pequeño es que el primero incluye todos los seguidores de todos los usuarios que publicaron usando el hashtag #OGPSanJosé. El conjunto pequeño incluye solo los seguidores que también publicaron usando el mismo hashtag. Es decir, en lugar de ver el universo de todos los seguidores de los usuarios (presuntamente) interesados en #OGPSanJosé, se ve el universo de los seguidores que también están interesados en el tema. La reducción tiene por objetivo identificar la estructura de la comunidad, si es que existe alguna, de los usuarios suficientemente interesados en el tema como para 1) escribir un tweet (contrario a solo retuitear) sobre el tema y 2) identificarlo con el hashtag respectivo. Puede haber gente moderadamente interesada en el tema, que nunca publica nada al respecto y se limita a marcar tuits como favoritos y retuitearlos. Esos usuarios observan a la (posible) comunidad, pero no son parte activa de la misma.

Y en esa última oración, inevitablemente, hay interpretación de la realidad.

Sexto principio fundamental de datos abiertos: si va a aplicar reducciones, explique cuáles y por qué.

¿Por qué digo que estos son datos casi abiertos?

Por dos motivos.

El primero es que los datos provienen de efectuar miles de consultas utilizando el API de Twitter. Al publicar estos datos en esta forma es posible que esté caminando sobre una línea muy delgada entre lo que la licencia de acceso al API permite y no permite hacer. Eso hace que la redistribución de los datos no esté tan libre de restricciones y ataduras como idealmente debería estarlo. Estoy seguro que puedo publicar los datos que estoy publicando precisamente porque son una colección de números sin sentido. No estaría tan seguro si estuviese publicando tweets, nombres de usuarios y otros datos asociados.

El segundo problema es que los datos provienen de efectuar miles de consultas utilizando el API de Twitter. Es perfectamente posible que si alguien reproduce este trabajo no obtenga exactamente los mismos datos, por un lado porque ya ha pasado tiempo desde que _yo_ los obtuve (entre el 10 y el 14 de noviembre), y por otro lado porque la visibilidad de la información variará según quien haga la consulta (cuentas que no son públicas, diferentes formas de usar el API, etc). En otras palabras, la reproducibilidad de estos datos es cuestionable.

También es necesario señalar que es posible que todavía esté omitiendo información importante respecto al proceso, pero me interesa más el fondo del asunto que la forma.

No pretendo con esto dar una definición exhaustiva de qué son datos abiertos, ni enumerar todos los posibles factores que es necesario tomar en cuenta al publicarlos. Pretendo sin embargo poner una luz más en el camino para que tal cosa ocurra en una manera que sea útil y provechoso para todas las partes involucradas, específicamente en la situación donde se casa esto con el tema de Gobierno Abierto. Es sumamente tentador publicar tablas esencialmente aleatorias de datos y levantar la bandera de Gobierno Abierto. Es sumamente tentador asignar la tarea al recién llegado que menos entiende del tema. Es sumamente tentador conseguir financiamiento para montarse en el avión y participar en cuanta conferencia exista del tema para luego venir a presentarse como experto y pionero del tema. Es sumamente tentador establecer “alianzas” con empresas (que entienden que este es un negocio que no se acaba cuando cambie el gobierno de turno) con la finalidad de “acelerar” el proceso y “aprovechar las experiencias de otras latitudes”. Es sumamente tentador recurrir a la red social con las que nos sentimos más a gusto y a la gente que nos lleva tal vez solo uno o dos pasos de ventaja, e ignorar completamente a todos aquellos que van kilómetros por delante, con quienes tal vez no tenemos ninguna relación.

Son demasiadas tentaciones juntas. Estamos en un buen momento para evaluar críticamente si lo que estamos haciendo va por el camino correcto o no. Es también un buen momento para producir y publicar un plan que indique a dónde queremos llegar y cómo queremos llegar ahí.

PS: Para los curiosos: la imagen la produje usando Gephi luego de tomar los archivos indicados antes y procesarlos suficiente como para que el programa los pueda consumir.



  « Anterior: Siguiente: »