Costa Rica abre sus datos

04-26-2012

Sí, claro, contame una de vaqueros.

Ayer se publicó en un diario nacional una nota sobre un “taller de open data” llevado adelante por la Secretaría Técnica de Gobierno Digital, a cargo de Alicia Avendaño.

Leí con interés la nota puesto que llevo muchos años metiendo la cuñita, cada vez que puedo, respecto a la necesidad de publicar no solo resultados sino también los datos a partir de los cuales se derivan esos resultados. Ese interés nació en mi una vez que comencé a notar, probablemente aún estado en el colegio, que la máxima esa de que los artículos científicos deben publicar resultados verificables y reproducibles en la enorme mayoría de los casos no se cumple. En los cursos de laboratorio de Física y Química nos penalizaban severamente si no incluíamos tablas con todos los datos que habíamos medido, al punto que los reportes de laboratorio usualmente incluían páginas y páginas con tablas. Sin embargo una vez que se superan esos laboratorios esas tablas comienzan a desaparecer de los reportes, y son substituidas por versiones resumidas, donde por ejemplo ya no vienen todos los datos individuales que fueron medidos, sino solo sus promedios, con suerte acompañados por incertidumbres. Luego incluso esos datos comienzan a desaparecer y se transforman en gráficos de los cuales es prácticamente imposible recuperar los datos o peor aún, reportes agregados, donde los datos se refieren a dominios cada vez más amplios.

Un buen ejemplo de esto último son las encuestas de opinión. Una encuesta típica en Costa Rica emplea una muestra de mil personas. Suponiendo que se le hagan 10 preguntas a esas mil personas, y que sean preguntas cerradas (¿está casado? ¿cuál galleta le gusta más? ¿a cuántos de sus vecinos conoce por nombre?) y no abiertas (¿qué piensa de los turecas del PASE?), esos datos se pueden guardar en un archivo de 100 kB, es decir, nada del otro mundo. Este archivo existe, pues es necesario para poder reducir los datos (“el 24% de los encuestados en Desamparados está casado”, “el 43% de los encuestados prefiere las Chiqui”, “el 81% de los encuestados no conoce a ninguno de sus vecinos por nombre”), pero nunca se publica.

Alguna vez hace unos tres años, en ocasión de que Manuel Rojas mencionara en radio los resultados de una encuesta en la que había trabajado y que él se quejaba respecto a como las encuestadoras comerciales nunca publican ni siquiera los datos reducidos, sino que se los entregan al cliente para que haga con ellos lo que le venga en gana y los presente como le venga en gana, le escribí al él solicitándole exactamente esto: los datos crudos de la encuesta en la que había trabajado, por supuesto removiendo cualquier información que pudiese servir para identificar a los encuestados, si es que la hubiese. Por supuesto me contestó que tendría que hablarlo con sus colegas y que me respondería luego. Hoy todavía estoy esperando la respuesta, y ni se diga de los datos.

¿Por qué podría querer uno los datos crudos? Por la misma razón que en los laboratorios nos penalizaban no presentar las mediciones originales: verificabilidad. Es muy fácil mentir y decir que según la encuesta el 43% de los encuestados prefiere las Chiqui. Es más difícil construir un conjunto de datos consistente en el que en efecto el 43% de las respuesta sean “prefiero las Chiqui”. Por ejemplo, si fabrico 78 respuestas y en esas 33 personas “dicen” Chiqui, eso corresponde a 42%. Si hago que sean 34 personas, eso es 44%. Otra razón para querer los datos crudos es exploración de los mismos. Tal vez el hecho que 43% prefiera Chiqui no es el dato más relevante. Tal vez ahí esté escondido el hecho que en Moravia nadie come Chiqui y en Desamparados todos comen Chiqui. Tal vez la distribución geográfica sea lo interesante, tal vez la correlación con la edad de los encuestados. Tal vez la hora del día o el día de la semana. Tal vez sea cualquier cosa que no fue considerada originalmente o que no fue presentada en la publicación.

Y esa es exactamente la importancia de “Open Data”: verificar, reproducir y explorar.

Luego de buscar un rato, encontré un comunicado de prensa respecto a este tema. Voy a omitir comentar respecto a lo absurdo de realizar un comunicado de prensa sobre este tema en Facebook, pero eso sí dice muchísimo respecto al entendimiento del tema de los involucrados. Allí hacen referencia a Open Goverment Partnership. Rápidamente da uno con Costa Rica, donde lo notable no es la participación, sino la auscencia de los compromisos (ignorando el paupérrimo Inglés). ¿Cómo se ve una participación que no dé vergüenza? Vean Uruguay. Vean el plan de acción de Uruguay. Vean los datos publicados por Uruguay (bueno, los datos pueden mejorar mucho, ya que están dispersos y en formatos dispares). Vean los principios de manejo de datos de Montevideo. Entre lo que Costa Rica parece decir que podría llegar a hacer y lo que Uruguay hace hay la misma diferencia que entre el Invierno y el Verano.



  « Anterior: Siguiente: »