Uberdimensionado

En ocasión del inicio de operaciones de la transnacional Uber en Costa Rica en estos días ha habido mucha conversación, en línea y en la vida real, respecto a si el gobierno debería dejar a la empresa en paz o no.

Digo que se trata de dejar a la empresa en paz porque honestamente no entiendo qué ha motivado la conversación. El tema de transportarse en Costa Rica ha sido tema desde que me acuerdo. En los ochentas viajar de Heredia a San José era cosa de 45 minutos a una hora y en el 2015 continúa siendo más o menos lo mismo. Para pinches 10 km. Así, la velocidad promedio de viaje en Costa Rica es de 10 a 25 kilómetros por hora. Esto es algo que la gente en Costa Rica acepta como un hecho de la vida. Waze y Google Maps no han cambiado en nada esto, cuando mucho han ayudado a postergar lo inevitable.

La congestión tampoco es el tema detrás de las conversaciones sobre Uber. Los carros de Uber se van a mover en las mismas malas calles con los mismos malos conductores de toda la vida. Como esta no es la primera vez que Uber tiene el problema que está teniendo en Costa Rica, la empresa ya tiene ensayado el guión de la conversación, y este incluye hablar tonterías respecto a ayudar a resolver esta situación. Cuando yo sustituyo un carro por otro carro, el problema de tránsito no se inmuta. Y cuando agrego carros al tránsito existente, el problema empeora. Uber en Costa Rica en este sentido no resuelve nada, y es posible que hasta agrave un poquitito la situación, porque ahora hay un incentivo adicional para que más gente saque el carro y circule todo el día.

Los taxis tampoco son un problema en Costa Rica. De verdad, no lo son. Llevamos no sé cuántos años con casi la misma cantidad de taxis en circulación. Nadie se ha muerto por falta de un taxi y hasta vacas han viajado en ellos. Los usuarios de taxi existen en una burbuja extraña: el taxi es muy caro comparado a un bus, y por kilómetro no compite favorablemente con el costo de tener vehículo propio. Parquear en San José es problemático, pero jamás se compara con el de parquear en Berlín, Nueva York o San Francisco, entonces decir que uno paga un sobreprecio viajando en taxi para ahorrarse el problema del parqueo no tiene sentido. Me atrevo a especular que la mayoría de gente que usa taxi tiene carro propio, y que recurre al taxi cuando definitivamente no puede usar su vehículo particular. Sí, hay gente que ni tiene ni quiere tener carro y usa taxi regularmente. Estoy seguro que son los menos y más raros. En este contexto Uber es peor, pues es más caro.

Nota al margen… Si usted usa un taxi más de cinco veces por semana y paga más de 5000 colones por viaje en promedio, y ha hecho esto por más de diez años, le tengo noticias: ya pagó su carro propio, mantenimiento incluido. La única justificación razonable para usar un taxi regularmente es que usted gane mucho más de 10 mil colones la hora y que tenga forma de continuar ganando eso mientras está en el taxi.

Si Uber no resuelve el tema de tránsito, ni el de transporte público, y económicamente no tiene sentido para el usuario, ¿qué problema real resuelve Uber en Costa Rica? ¿No tener que salir a la calle a buscar un taxi? ¿No tener que llamar para pedir un taxi? ¿No tener que esperar más de cinco minutos para que el taxi llegue? Desde el punto de vista del usuario, el único problema real que resuelve es no tener que lidiar con nuestra falta de un mecanismo para dar una dirección, pero este no es el problema que Uber trata de resolver, esto es sólo un accidente agradable de la solución empleada. En otros países Uber resuelve problemas exclusivos del 1% y no veo como Costa Rica vaya a ser diferente, entonces es justo preguntarse ¿quién del 1% tico va a usar Uber regularmente?

Siendo justos, hay un problema que Uber sí resuelve, pero por razones equivocadas: ganarse la vida como taxista en Costa Rica es miserable. En la mayoría de casos el taxista trabaja para alguien más, entonces el supuestamente buen negocio que es tener un taxi, lo es para alguien más, no para el chofer. Uber le da a los choferes el 80% de lo cobrado, que es bueno, pero hay que entender que no todo ese 80% es ganancia para el chofer, pues tienen que pagar el vehículo, su mantenimiento, los seguros y posiblemente un largo etcétera. Aún así, es posible que a esos choferes les vaya mejor que a los que manejan un taxi para alguien más. Y como es Costa Rica, eventualmente llegaremos al punto donde habrá gente que le pague a otra gente para manejar para Uber, y así volveremos a la situación original. Y digo que Uber resuelve este problema por razones equivocadas pues la empresa desde el día uno iba por la vía de evadir la regulación, al tratar de responder la pregunta ¿cómo hago para aumentar la cantidad de taxis en una situación donde la regulación no lo permite? Uber puede maquillar la situación como quiera, pero la realidad en el fondo es esa. Entonces no es que Uber estaba tratando de mejorar la situación de los conductores, sino que la respuesta que encontraron tiene esa cualidad.

Entonces, si Uber no resuelve ningún problema real en Costa Rica, ¿por qué la discusión apasionada? Mi teoría es que la gente que defiende a Uber en Costa Rica lo hace bajo la idea de cómo es posible que el gobierno pretenda regular un app, como si Uber no tuviese existencia en el mundo real. Es la noción de que todo lo que es posible hacer se debe permitir hacer, que aplica muy bien en el mundo virtual (Lessig, el código es ley) y horriblemente en el real. Fallar en hacer esa distinción entre el mundo virtual y el real típicamente conduce a la clase de discusión estéril que se ha producido en torno a este tema.

Sería muy bonito ver que el esfuerzo y la energía puestos en resolver este no-problema también se pusiera en resolver los problemas urgentes que sí tenemos. La desigualdad, por ejemplo.

PS: Acá me siento en la obligación de señalar que sí, tengo carro, y me sentiría extremadamente feliz de no tener que tenerlo.

PPS: La empresa originalmente se llamaba “UberCab”, el súper taxi.

El efecto de las anualidades

Mucho se ha discutido sobre las anualidades en el sector público, como si fueran una cosa mágica que de hoy para mañana multiplican los salarios por 10.

La UCR publicó, en el contexto de la discusión sobre salarios en los medios, su planilla para el mes de junio de 2015. En el documento se indica no solo el puesto y el salario, sino también los años de servicio correspondientes.

Por curiosidad tomé la categoría de “técnico asistencial A”, saqué todos los salarios, los agrupé por años de servicio, y lo que se muestra a continuación son el mínimo, promedio y máximo para cada uno.

threads

A alguno le resultará chocante que el salario promedio pasa de alrededor de 300 mil colones por mes a más de un millón doscientos cincuenta mil. En más de 35 años de servicio.

Y no es cierto lo que se ha dicho que el crecimiento de estos salarios es exponencial.

Los salarios en el ICE, la UCR y la Asamblea Legislativa

El diputado Otto Guevara publicó en Octubre del año pasado los salarios para los funcionarios de todas las universidades públicas del país. El rector de la UCR, Henning Jensen, ha cuestionado la validez de los datos publicados, no desde el punto de vista de si son o no correctos, sino de la forma en la que han sido interpretados. Don Henning tiene razón cuando dice que no es correcto sacar conclusiones a partir de un único mes de datos, pues se realiza la supocisión que lo que sea que se indica, es el salario del funcionario durante todo el año.

Hecha esa salvedad, creo que vale la pena ver los datos desde el punto de vista de qué dicen colectivamente, es decir, no fijándose en si un puesto particular gana tanto más o tanto menos, sino viendo cómo están distribuídos los salarios. El que sigue es un gráfico de eso para el ICE, la UCR y la Asamblea Legislativa, elaborado a partir de los datos publicados por el diputado.

threads

Dadas las cantidades dispares de empleados en las tres instituciones, es más conveniente ver los porcentajes de empleados que se encuentran en una banda particular y no la cantidad de los mismos. Como se puede apreciar, y contrario al cuadro que ha querido pintar el diputado, una cantidad importante de empleados de la UCR son reportados con sueldos bajos. Además cuando se compara con el ICE, se nota inmediatamente que en el ICE una proporción mucho mayor de empleados ganan al rededor de 800 mil colones, que contrasta con la UCR donde ese bulto se encuentra cercano a los 200 mil colones por mes (queda como ejercicio para el lector explicar por qué sucede esto, para quien haya pasado por la UCR debe ser evidente el motivo).

Contrasta esto con la Asamblea Legislativa, donde hay una proporción mucho más alta de empleados ganando sueldos que rondan los dos millones de colones, y es particularmente notorio el bulto de empleados del primer poder que ganan casi cuatro millones por mes. Ese bulto son los diputados, incluyendo al estimable, que representan poco más del 5% de los empleados reportados a la CCSS.

De datos a propaganda

En este artículo voy a mencionar varias publicaciones del periódico La Nacion y no voy a incluir enlaces a ninguna de ellas. Si quiere saber por qué, lea esto.

Todo parece haber comenzado con el artículo que La Nación tituló “ICE paga a misceláneos y peones hasta ¢1,4 millones”. Yo siempre me he preguntado en cuál curso le enseñan a los periodistas a redactar titulares sensacionalistas, porque esto no es otra cosa que eso. El artículo lo que intenta es realizar una comparación entre los salarios del sector público y los del sector privado. Básicamente establece que los salarios del ICE son cuatro veces más altos. El artículo señala, como quien no quiere la cosa, que el dato citado se refiere al salario de una persona en particular y no al de todos los “peones” del ICE, y procede a mencionar que el promedio de los salarios de todos los “peones” del ICE es de 585 mil colones, casi la tercera parte del número en el titular. El titular podría haber sido “peones del ICE ganan en promedio 70% más que en el sector privado”, pero no hubiese tenido el mismo efecto.

Creo que es necesario dar un paso atrás y volver a la aritmética de primaria. Si ocho peones del ICE ganasen ¢343 mil colones y dos ganasen los ¢1,4 millones del titular, el promedio de sus salarios sería ¢554 mil colones por mes, es decir, en promedio ganarían 60% más que en el sector privado. Si ese fuera el caso, ¿sería el editorial… perdón, noticia… aún noticia? Creo que todos estaríamos de acuerdo en que habría algo extraño en esos dos peones que ganan tanto, pero nadie diría pío por los otros ocho.

O más explícitamente, nadie diría pío por los ocho trabajadores que estarían ganando el salario mínimo, el “problema” serían los que ganasen por encima de este, como si el salario mínimo fuese el único salario que los patronos están autorizados a pagar a un empleado.

La nota se sostiene sobre una publicación que hizo Otto Guevara, el diputado que goza de inmunidad, de todos los salarios de los trabajadores del ICE reportados a la CCSS para el mes de mayo de este año. ¿Y de dónde sacó el diputado esa información? De la misma CCSS, que se la dió cuando él la pidió.

“Suave… ¿¡cómo?!” estará diciendo más de uno.

La Sala IV ha fallado en múltiples ocasiones al sentenciar que la información sobre los salarios de los empleados públicos es pública. La Sala ha llegado al extremo de indicar la información debe ser suministrada con nombres y apellidos, amparándose para ello en la redacción del artículo 30 de la Constitución Política:

ARTÍCULO 30.- Se garantiza el libre acceso a los departamentos administrativos con propósitos de información sobre asuntos de interés público. Quedan a salvo los secretos de Estado.

La Sala alega que de otra forma sería posible ocultar “relaciones de amigos o nepotismos”. En el “razonamiento” de la Sala, si la CCSS le dice al diputado “el peón 1 gana 500 mil, el peón 2 gana 499 mil y el peón 3 gana 501 mil” eso serviría para ocultar la relación entre el peón 3 y quien quiera le asignó al él el puesto y el salario. Tal vez eso tiene sentido, pero entonces es necesario subrayar que, notoriamente, en la información que se entrega a la luz de los fallos mencionados, se omite consistentemente el nombre la persona que recomendó, autorizó o realizó la designación de la persona que ostenta el salario que se indica en los datos.

Como nota al margen, es paradójico que el expediente 13-012328-0007-CO, el que contiene el texto de la sentencia 2014004037 de la Sala Constitucional, no se encuentra disponible para consulta en el sitio web del Poder Judicial, pero sí está disponible a través de un tercero. El Poder Judicial también omite indicar quién interpuso el recurso de amparo. Por el contexto que se da el en voto, yo supongo que fue un periodista. La Sala IV ordenó a la CCSS que se le entregara al amparado el listado completo, con nombres y apellidos, de los salarios reportados mensualmente a la CCSS por todas las instituciones públicas entre los años 1990 y 2013 (que de acuerdo a la CCSS, corresponde al 25% de la totalidad de datos disponibles en SICERE). Otra vez para que quede claro: alguien en este país tiene en su computadora lo que constituye (culturalmente) la mayor invasión a la privacidad de cientos de miles de costarricenses de la que se tiene conocimiento público. Y eso no es noticia.

A propósito del SICERE, ¿qué es eso? Es el “Sistema Centralizado de Recaudación”. Es el nombre que la CCSS da al sistema informático donde se almacenan los datos laborales de cada asegurado (nombre, cédula, salario, patrono, puesto, números de teléfono, fecha de nacimiento, estado civil, nacionalidad, etc). En el SICERE los puestos se describen con términos genéricos (“abogado y notario”, “ingeniero civil”, “economista”, etc), aunque hay términos que son definitivamente extraños y específicos (“arreglista floral”, “inspector de control de calidad”, “peón de minas y canteras”). Mi experiencia personal es que lo indicado en el puesto es bastante antojadizo. Por ejemplo, en mi propio caso ha dicho por años “gerente y subgerente general director y subdirector general …”, cosa que nunca he sido y tampoco es mi intención serlo. En función de eso y viendo los datos publicados por el diputado, mi conclusión es que lo que dice ahí depende del humor de la persona que introdujo el dato, nada más. Por ello creo que el “peón” del título del artículo de La Nación no es realmente un “peón”, sino un empleado relacionado con algo de construcción, con muchos años de experiencia, y que es, bajo cualquier definición, experto en lo que hace. Si La Nación quiere argumentar que un experto en su campo no puede ganar lo que gana en el ICE y que debería estar trabajando en el sector privado, bueno, que escriba otro editorial.

Volviendo al tema del artículo…

El periodista omitió algo importante: viendo los más de 22 mil datos que publicó el diputado, los salarios en en ICE van desde los casi 7 millones de colones hasta los 300 colones.

No, no me equivoqué. Hay una persona cuyo salario reportado a la CCSS en el mes de mayo de 2015 es de trescientos colones.

Viendo eso, y solamente eso, uno está en la obligación de decir “aquí hay algo raro”, pero el asunto no termina ahí. El salario más frecuentemente reportado (la moda) es 650 mil colones. El salario más alto de la mitad inferior (o el más bajo de la mitad superior) es de 852 mil colones. Otra vez: la mitad de los empleados del ICE ganan menos de 852 mil colones por mes y la otra mitad gana más que eso. Y el salario promedio está apenas por encima de un millón de colones. En todo esto hay algo raro y era obligación del periodista cuestionárselo.

Lo que es raro se hace más evidente en el contexto de un comentario en el artículo de La Nación respecto a que el salario mínimo de un bodeguero es de 286 mil colones y que el salario más alto para ese puesto reportado en el ICE es de más de 1,2 millones. Si se revisan los datos provistos por el diputado, uno nota que hay 143 personas cuyo puesto es ese, bodeguero, y de esos hay 2 que ganan por debajo de la suma indicada por el periódico como salario mínimo. ¿Paga el ICE por debajo del mínimo legal? Con seguridad no. ¿Entonces? Lo más probable es que esas dos personas apenas comenzaron a trabajar en mayo. O dejaron de hacerlo. O tenían un permiso sin goce de salario. O algo. Para todas las cosas que SICERE tiene, lo que no tiene (hasta donde entiendo) es la cantidad de días a las que corresponde el salario en cuestión.

Y ahí vamos por mal camino: se reportan en la nota salarios mensuales, pero no se tiene certeza que en efecto sean mensuales. Y eso es exactamente lo que el ICE adujo en respuesta al artículo de La Nación, que algunos de los salarios incluídos en el reporte corresponden a una modalidad extraña de pago contemplada en el código de trabajo: el pago bisemanal, que en la práctica conduce a el pago de 13 salarios mensuales en lugar de 12 (52 semanas al año, pagando cada dos semanas produce 26 pagos en lugar de 24 como la mayoría de la gente esperaría). A la CCSS no le importan ni las quincenas, ni las horas extra, ni los pagos bisemanales, ni nada de eso. La CCSS lo que quiere saber es cuánto dinero recibió el empleado en un mes para calcular lo que nosotros llamamos comúnmente “cargas sociales”. Por ese motivo la gente de recursos humanos se para de manos para convertir de una cosa en la otra, y para el caso del pago bisemanal una práctica común es encaramarle a dos meses del año el 50% del salario del mes “adicional”. Uno de esos meses es, en el caso del ICE, abril, que es, casualmente, el mes del que salieron los datos a partir de los cuales se elaboró el artículo de La Nación.

Y ese es el otro problema: cualquier asalariado de una empresa de mediana para arriba sabe que es raro, muy raro, que el salario reportado a la CCSS en dos meses consecutivos sea exactamente el mismo. Por multitud de razones ese dato varía. Por salario escolar, por vacaciones, por reintegros, por ajustes retroactivos, por bonificaciones extraordinarias, etc. El periodista debió sentirse por lo menos incómodo al tener que trabajar con un único mes de datos y publicar a partir de eso una nota como la que publicó.

Cuando se trabaja con datos, particularmente con grandes cantidades de datos, hay que tener mucho cuidado, pues es sumamente tentador obligar a los datos a decir lo que uno quiere de digan. Si yo tengo el salario de Pedro y de María, no puedo hacer gran cosa con eso. Tal vez María tiene un salario alto. Tal vez Pedro tiene un salario más bajo. Tal vez María es administradora de bases de datos. Tal vez Pedro es ayudante de cocina. No me da para gran cosa. No puedo publicar un artículo titulado “¡mujer tiene salario más alto que hombre!”. Pero cuando tengo grandes cantidades de datos (y 22 mil salarios es una gran cantidad), ¡oh! ¡ahí puedo hacer fiesta! ¡donde hay mucho, hay de todo! Puedo preguntar por máximos, puedo preguntar por promedios, puedo preguntar por las diferencias más amplias, puedo escarbar y encontrar prácticamente lo que quiera. Y si los datos están mutilados, ¡mejor aún, pues puedo dejar volar la imaginación para rellenar los huecos!

Por ejemplo, yo podría decir que la persona con el salario más bajo en el ICE es un peón de construcción que gana 300 colones por mes. Está en la tabla que publicó el diputado. ¿Por qué eso no se mencionó en la noticia? También puedo decir que hay 167 personas en el ICE con un salario inferior a 50 mil colones. También está en la tabla y tampoco se menciona en la noticia. ¿Será acaso que eso está evidentemente mal y por ello mejor lo ignoro para efecto de la nota? Y si eso es asï, ¿por qué lo que es válido para un extremo, no es válido para el otro entonces?

La realidad de los salarios del ICE, a partir de los datos publicados por el diputado, sin opinar nada, sin quitar nada, sin seleccionar nada, simplemente agrupando en bandas de 100 mil colones y contando, se ve así:

threads

Invito a quien tenga curiosidad a examinar los datos. Eso sí, por decencia y respeto a los empleados del ICE, omito los nombres y números de cédula de las personas. El archivo lo que tiene es un identificador genérico, el salario publicado por el diputado y la descripción de SICERE del puesto respectivo.

Por último, caben dos observaciones.

La primera es que La Nación compara los salarios de los empleados del ICE con “estimaciones de compañías que cumplen con las obligaciones de ley”, pero a diferencia del caso del ICE, para las compañías que cumplen las obligaciones de ley no sabemos ni sus nombres ni el de sus empleados. Tampoco sabemos si esas estimaciones corresponden al empleado que acaba de ser contratado o al que lleva 10 años en la empresa, porque créanme, en la empresa privada, al igual que en el ICE, no se paga por el mismo trabajo la misma cantidad.

La segunda es que si La Nación está tan interesada en la transparencia, ¿por qué no da el ejemplo y publica los pagos recibidos por todos sus colaboradores durante los últimos doce meses, junto a sus nombres y puestos que desempeñan, tal cual son reportados a la CCSS? Sus suscriptores, cuyo dinero se usa para que la empresa opere, deberían tener derecho a saber cómo se utilizan esos recursos. Y si no sus suscriptores, por lo menos sus accionistas.

Hoy La Nación me dio asco

El artículo que publicó hoy el periódico La Nación me dio asco.

Sí, es totalmente cierto, la parte referente a la publicación de notas que vayan en contra de las “buenas costumbres” en el borrador de la propuesta para la nueva Ley de Radio y Televisión es de no creerlo. Es impensable que ese documento haya pasado por manos de un departamento legal que no fuera capaz de decir “esto es inconstitucional, y no necesita ir a la Sala IV para que se lo digan”.

Y sí, es comprensible que los afectados directos, los medios de comunicación, peguen el grito al cielo, incluso si es impensable que esa ley pudiese aprobarse en esa forma en la Asamblea Legislativa.

Pero de pegar el grito al cielo a hacer lo que La Nación hizo hoy hay un enorme mar de diferencia.

Si buscan la página 4A de la edición del 7 de abril de 2015, se van a encontrar un artículo a página completa, con análisis y detalles como La Nación nunca publica. Basta pasar las páginas y comparar con las siguientes noticias: superficiales, sin detalles, sin análisis. Es tan grande el interés de la empresa en el tema que le dedica la mejor página disponible: la 2A la tienen comprometida en tonterías, la 3A es para uso exclusivo de quien pague por ella, la 4A es la primera página con contenido real.

El asunto va más allá: en la nota lastimera, los periodistas destacan como la multa de 140 millones de colones arruinaría a cualquier medio (incluso al que pagó muchas veces más que eso para simular una compra de una máquina). Acto seguido admiten que la propuesta no los afecta, pues se refiere únicamente a medios de comunicación que usufructuen de lo que constitucionalmente es propiedad del Estado, a saber, el espectro radioeléctrico. A los lectores no nos queda otra cosa que creer que el artículo se publica con la única finalidad de defender la valiosísima libertad de expresión con la que contamos en este país. Y para este punto, todavía no he llegado ni a la mitad del extenso artículo.

A la mitad del texto se encuentra uno con una oposición bastante tramposa a uno de los objetivos del proyecto de ley: la creación de emisoras comunitarias. Éstas tienen en Costa Rica enormes dificultades para formarse y operar dado que las frecuencias usables de radio se encuentran en manos de un puñado de empresas, y dados los defectos de la actual ley, es prácticamente imposible que esa situación cambie en el corto o largo plazo. La oposición viene en la forma de la insinuación del deseo gubernamental de crear un “coro” de “emisoras oficialistas”, y sin pausa para respirar, asocia a este “coro” directamente con las emisoras regionales y comunitarias.

Si bien no puedo estar de acuerdo con una ley que abra la puerta para que el gobierno acalle opiniones contrarias, tampoco puedo estar de acuerdo con el status quo en el que los medios de comunicación pueden decir lo que se les antoje sin ninguna clase de responsabilidad al respecto y sin ninguna obligación de aportar elementos probatorios cuando se los requiera. El mejor ejemplo costarricense es aquel famoso caso entre Przedborski y Mauricio Herrera, donde la Sala III indicó que el periodista había fallado en comprobar la veracidad de los hechos que medios belgas atribuían al diplomático costarricense, y por tanto condenara tanto al periodista como al medio a pagar una compensación. Esta sentencia de la Sala III fue luego revertida por la Corte Interamericana de Derechos Humanos, la cual condenó al Estado costarricense a pagar una indemnización al periodista por quebrantar su derecho a la libre expresión en razón de que nunca se comprobó malicia en la actuación del mismo.

Cuando se trata de los medios de comunicación en Costa Rica es esencialmente imposible para el lector diferenciar entre hechos y opiniones pues es frecuente la presentación de las últimas como si fuesen los primeros. Es igualmente imposible conocer la filiación política de los periodistas, los directores o los dueños de los medios, y cuando se les cuestiona al respecto, rápidamente apelan a su derecho a la privacidad. Dada la “S.A.” que sigue al nombre de prácticamente todas las empresas de comunicación, tampoco es posible conocer las afiliaciones económicas o los grupos de interés que se encuentran detrás de ellas, y cuando se pregunta al respecto, se invoca rápidamente la libertad de empresa.

En otras palabras, las personas jurídicas que son los medios de comunicación costarricenses quieren todas las libertades sin ninguna de las responsabilidades de un ciudadano. Montesquieu elaboró convincentemente sobre la necesidad de un sistema de pesos y contrapesos que acompañara la separación de poderes en un Estado, donde, por ejemplo, el poder legislativo puede aprobar leyes, el poder ejecutivo puede vetarlas y el poder judicial puede determinar la constitucionalidad de las mismas. Los medios de comunicación se vanaglorian de constituir el “cuarto poder” en un Estado. Cabe entonces la pregunta: ¿quién constituye el contrapeso de este cuarto poder? ¿solo nuestro buen juicio como lectores, escuchas o televidentes?

Actualización 9/4/2015: Como era de esperar, el gobierno se encuentra produciendo un diluvio de disculpas y yonofuífuétetés. La Nación dedica hoy tres páginas enteras a cubrir la no-noticia y continúa no informando sobre el detalle que la ley propuesta va mucho más allá de las sanciones por las que llora, y que es una ley necesaria y urgente.

No existe tal cosa como “datos malos”

De pronto, en el contexto de datos abiertos, surge la duda respecto a qué hacer respecto a los “datos malos”.

Hay una única respuesta: nada.

La razón es que no existe tal cosa como “datos malos”.

Para explicar por qué es necesario considerar a qué se refiere la gente usualmente con esa expresión. Posiblemente “datos malos” es una traducción demasiado literal de “bad data”, por lo que la forma más correcta en Español es “datos malévolos”. En esa forma se refiere a datos con los cuales alguien podría hacer algo malo. Y ahí está la respuesta: no existen datos malos, lo que existe son malos usos de los datos. El ejemplo inmediato es el robo de identidad. Si se encuentran disponibles suficientes datos sobre una person, es posible utilizarlos para suplantar su identidad ante un tercero.

El robo de identidad también ayuda a revelar otro problema con la noción de “datos malos”. Para convencer a un banco de que usted es yo no es suficiente con únicamente mi password ó mi fecha de cumpleaños ó mi nombre ó mi dirección ó el número de mi tarjeta de crédito. La mayoría de bancos implementan políticas de seguridad relativamente pobres, y si bien no se dan por satisfechos si yo les doy solo uno de esos datos al teléfono, muchos sí se dan por satisfechos si les doy todos esos datos. En otras palabras, cada uno de esos datos por sí solo no es “malo”. Lo “malo” serían todos esos datos en conjunto, ¿pero cómo puede algo no ser malo aislado, pero serlo cuando se encuentra junto a otras cosas que tampoco son malas por sí solas? La analogía más evidente es que ni la harina, ni el azúcar, ni la mantequilla, ni los huevos son malos. Lo que es malo para mi organismo es hacer un pastel con todo eso y comérmelo todo de una vez. ¿Deberíamos por eso hacer imposible el acceso a la harina, el azúcar, la mantequilla y los huevos?

No hay “datos malos”, hay “malos usos de los datos”.

Esto son (casi) datos abiertos

El artículo anterior fue relativamente sencillo de escribir, pues lo hice todo mal:

  • No expliqué qué representa la imagen
  • No indiqué qué datos fueron utilizados para crear esa imagen
  • No expliqué cómo obtuve esos datos
  • No expliqué qué simplificaciones y reducciones apliqué sobre los datos utilizados
  • No expliqué en forma alguna cómo pasar de los datos a la imagen

En otras palabras, lo único que hice fue crear una imagen con muchos colores y mover las manos en el aire suficiente como para causar la impresión de que la imagen es importante y contiene información que es importante considerar.

La imagen en cuestión es esta:

¿Qué es esta imagen?

Al final del artículo decía yo que “tiene que ver con las personas que participaron de #OGPSanJose”. La afirmación es bastante literal: cada nodo en la imagen corresponde a un usuario de Twitter que en algún momento (posiblemente reciente, pero no hay una limitación explícita al respecto, solo aquellas que impone el API de Twitter) escribió un tweet con la palabra “OGPSanJosé” o alguna variante de eso (OGPSanJose, ogpsanjosé, etc), incluído pero no limitado al hashtag #OGPSanJosé. Los enlaces entre los nodos se establecen sí y solo sí los usuarios correspondientes se siguen mutuamente (no es suficiente con que un usuario siga al otro, ambos deben seguirse uno al otro). Los colores y los tamaños de los nodos están dados por la cantidad de enlaces ingresando a cada uno, en otras palabras, mientras más grande y más rojo sea un nodo, más enlaces tiene con otros nodos y mientras más pequeño y más azul, tiene menos. O en otras palabras: el grado de conexión entre los usuarios. Los colores de los enlaces existen únicamente para hacer la imagen más agradable a la vista. La distribución espacial de los nodos busca que las conexiones sean más sencillas de entender, pero no aporta ninguna información adicional.

Primer principio fundamental de datos abiertos: explique qué son los datos que está publicando.

La anterior es una explicación seca del contenido de la imagen. No hay interpretación y no hay opiniones respecto a la imagen. No tengo duda que un periodista quitaría más del 80% de las palabras y cambiaría otras tantas. Sin embargo contiene información que es valiosa para alguien que quiera repetir el ejercicio. Igualmente contiene información valiosa para derivar alguna conclusión de la imagen. Repetir el ejercicio es parte integral de la noción de datos abiertos, pero realizar interpretaciones y sacar conclusiones es una actividad que trasciende el tema.

Para poner esto en contexto, yo puedo por ejemplo abrir el periódico, buscar alguno de los infogramas que casi con seguridad contiene, leer el artículo respectivo y tratar de sacar mis propias conclusiones a partir de toda esa información. El periodista habrá indicado alguna fuente, usualmente limitándose al nombre de la institución que produjo los datos (e.g. MICIT, CONICIT) y en algunas ocasiones indicando el nombre de un informe o trabajo de investigación que los contenga o los haya producido (e.g. “adjudicación de becas de grado en el año 2014″). Solo en rarísimas ocasiones indicará una fuente inequívoca para los datos asociados (por ejemplo un enlace a la fuente original, o un archivo que los contenga), y en ocasiones aún más raras indicará un procedimiento que se pueda emplear en la práctica y que permita a algún lector reproducir el trabajo requerido para, partiendo de los mismos datos, llegar a la misma información.

Segundo principio fundamental de datos abiertos: publique los datos.

(y sí, estoy consciente de que mucha gente opinará que este debería ser el primero; yo difiero)

Un paso en la dirección correcta es entonces publicar al menos un archivo (o servicio de consulta) para los datos requeridos para reproducir un gráfico o infograma. Publicar los datos sin embargo no es suficiente. Por ejemplo, en el post anterior yo señalaba que esto correspondía a los datos para la imagen en cuestión. El archivo está comprimido con un programa ampliamente disponible, pero posiblemente no ampliamente utilizado. Una forma quizás más amigable, pero que igualmente tiene su cuota de problemas, es por ejemplo esta. Es el mismo contenido, solo cambia la forma. El archivo no ofrece grandes explicaciones respecto a qué son las columnas de las tablas, aunque no hay nada que evite tal cosa. La hoja electrónica sí contiene esa información.

Tercer principio fundamental de datos abiertos: publique los datos en una forma tal que otras personas los puedan acceder.

Ya he indicado varias veces que estos no son los datos originales. En ese archivo hay poco más de 4000 filas. El conjunto de datos original tiene más de 250 mil. Este es un problema usual a la hora de abrir datos: lleva un costo asociado, pues como mínimo alguien tiene que pagar la distribución de los archivos. Alguien además tiene que preparar los datos, que también tiene un costo, y alguien tiene que mantener los datos, que también tiene un costo. Menos evidente: una vez que se publican datos, se debe hacer todo lo posible para mantener cada una de las versiones de los archivos publicados en línea, pues habrán documentos en la web que hagan referencia a las versiones antiguas. El corolario que es los archivos con los datos deben tener alguna forma de identificar la versión de los mismos. En otras palabras: no sobreescriba los archivos para actualizarlos, déles un nuevo nombre.

Cuarto principio fundamental de datos abiertos: incluya el costo de la publicación y mantenimiento en su planeamiento.

Superado el problema del costo, todavía queda abierta la pregunta de la reducción. Es sumamente tentador publicar datos reducidos, pues elimina dos “problemas”.

El primero es que quien reciba los datos puede carecer del conocimiento o la experticia para realizar la reducción por cuenta propia. Es decir, la labor de reducción de los datos va plagada de buenas intenciones y las buenas intenciones todos sabemos a dónde llevan. Si esa es su única motivación, resista la tentación de hacer eso.

El segundo problema que se resuelve al reducir los datos publicados es que se cierra la posibilidad de que alguien reproduzca el proceso y encuentre errores o problemas. Por extraño que esto suene, mi experiencia es que existen personas y organizaciones que reducen los datos publicados exactamente con este objetivo. Un ejemplo llevado al absurdo es el caso de una oficina que en lugar de indicar que se compraron dos millones de colones en lápices, cincuenta mil colones en papel y cincuenta mil colones en grapas, en su presupuesto “abierto” indica simplemente que se compraron dos millones cien mil colones en “insumos de oficina”.

En el caso ideal, la información se publicaría individualizada, es decir, en lugar de indicar el monto total que se usó en lápices, se indicarían los montos para cada compra realizada. Es diferente realizar una compra de dos millones de colones vs veinte compras de cien mil, incluso si el total es el mismo. En un reporte individualizado podría indicarse por ejemplo la fecha (que permitiría derivar patrones); se podría incluir información sobre el proveedor; se podría incluir información sobre marcas; se podrían incluir muchas otras cosas que mejorarían las labores de control.

Antes ejemplificaba con periodistas porque es el ejemplo más común de esta situación, pero lo mismo aplica para (interpretaciones de) datos publicados por instituciones u organizaciones de la más variada índole. Por ejemplo, en el contexto de #OGPSanJosé existe este tweet:

Data Meic, el portal de #DatosAbiertos del Ministerio de Economía de Costa Rica. #OGPSanJose. Cc @EconomiaBo http://t.co/bW0TPxvcIQ

— Badanowski (@jbadani) noviembre 18, 2014

En la página web indicada (cuando se puede acceder), se encuentra uno con información altamente reducida y procesada. Por ejemplo, hay un listado de “empresas PYME por región según sector económico”. ¿Por qué no publican una tabla con todas las empresas, con una columna que indique el tipo de empresa (micro, pequeña, mediana, grande) y los sectores económicos donde se desempeña cada una? De algo así se podría derivar muy sencillamente la información que sí publican.

Quinto principio fundamental de datos abiertos: publique los datos de manera desagregada.

En el ejemplo que yo construí, la reducción que ocurrió entre el conjunto de datos grande y el pequeño es que el primero incluye todos los seguidores de todos los usuarios que publicaron usando el hashtag #OGPSanJosé. El conjunto pequeño incluye solo los seguidores que también publicaron usando el mismo hashtag. Es decir, en lugar de ver el universo de todos los seguidores de los usuarios (presuntamente) interesados en #OGPSanJosé, se ve el universo de los seguidores que también están interesados en el tema. La reducción tiene por objetivo identificar la estructura de la comunidad, si es que existe alguna, de los usuarios suficientemente interesados en el tema como para 1) escribir un tweet (contrario a solo retuitear) sobre el tema y 2) identificarlo con el hashtag respectivo. Puede haber gente moderadamente interesada en el tema, que nunca publica nada al respecto y se limita a marcar tuits como favoritos y retuitearlos. Esos usuarios observan a la (posible) comunidad, pero no son parte activa de la misma.

Y en esa última oración, inevitablemente, hay interpretación de la realidad.

Sexto principio fundamental de datos abiertos: si va a aplicar reducciones, explique cuáles y por qué.

¿Por qué digo que estos son datos casi abiertos?

Por dos motivos.

El primero es que los datos provienen de efectuar miles de consultas utilizando el API de Twitter. Al publicar estos datos en esta forma es posible que esté caminando sobre una línea muy delgada entre lo que la licencia de acceso al API permite y no permite hacer. Eso hace que la redistribución de los datos no esté tan libre de restricciones y ataduras como idealmente debería estarlo. Estoy seguro que puedo publicar los datos que estoy publicando precisamente porque son una colección de números sin sentido. No estaría tan seguro si estuviese publicando tweets, nombres de usuarios y otros datos asociados.

El segundo problema es que los datos provienen de efectuar miles de consultas utilizando el API de Twitter. Es perfectamente posible que si alguien reproduce este trabajo no obtenga exactamente los mismos datos, por un lado porque ya ha pasado tiempo desde que yo los obtuve (entre el 10 y el 14 de noviembre), y por otro lado porque la visibilidad de la información variará según quien haga la consulta (cuentas que no son públicas, diferentes formas de usar el API, etc). En otras palabras, la reproducibilidad de estos datos es cuestionable.

También es necesario señalar que es posible que todavía esté omitiendo información importante respecto al proceso, pero me interesa más el fondo del asunto que la forma.

No pretendo con esto dar una definición exhaustiva de qué son datos abiertos, ni enumerar todos los posibles factores que es necesario tomar en cuenta al publicarlos. Pretendo sin embargo poner una luz más en el camino para que tal cosa ocurra en una manera que sea útil y provechoso para todas las partes involucradas, específicamente en la situación donde se casa esto con el tema de Gobierno Abierto. Es sumamente tentador publicar tablas esencialmente aleatorias de datos y levantar la bandera de Gobierno Abierto. Es sumamente tentador asignar la tarea al recién llegado que menos entiende del tema. Es sumamente tentador conseguir financiamiento para montarse en el avión y participar en cuanta conferencia exista del tema para luego venir a presentarse como experto y pionero del tema. Es sumamente tentador establecer “alianzas” con empresas (que entienden que este es un negocio que no se acaba cuando cambie el gobierno de turno) con la finalidad de “acelerar” el proceso y “aprovechar las experiencias de otras latitudes”. Es sumamente tentador recurrir a la red social con las que nos sentimos más a gusto y a la gente que nos lleva tal vez solo uno o dos pasos de ventaja, e ignorar completamente a todos aquellos que van kilómetros por delante, con quienes tal vez no tenemos ninguna relación.

Son demasiadas tentaciones juntas. Estamos en un buen momento para evaluar críticamente si lo que estamos haciendo va por el camino correcto o no. Es también un buen momento para producir y publicar un plan que indique a dónde queremos llegar y cómo queremos llegar ahí.

PS: Para los curiosos: la imagen la produje usando Gephi luego de tomar los archivos indicados antes y procesarlos suficiente como para que el programa los pueda consumir.

Esto no son datos abiertos

El otro día, leyendo opiniones de diversa gente respecto a las bondades de los datos abiertos, hice esto:

Esto no son datos abiertos. No son datos (al menos no si uno supone que esto es una representación visual de un conjunto particular de datos, y no simplemente una colección de bytes que casualmente el navegador web interpreta como una imagen). Tampoco es información. Esto es, si acaso, lo que en el instituto llamábamos despectivamente una “imagen colorida”. Y sin embargo muchas veces algo equivalente a esto se hace pasar por datos abiertos.

Esto tampoco son datos abiertos. Eso es una colección de números sin sentido. Alguien podría imaginarse como pasar de ese archivo a la imagen de arriba. Alguien incluso podría imaginarse más detalles para lograr algo mucho más parecido a la imagen de arriba. Alguien que profesionalmente haga algo relacionado con áreas muy particulares del conocimiento podría incluso llegar a desarrollar una teoría respecto a qué es el contenido del archivo y cómo es que está organizado. Ese alguien podría seguramente tener una idea más clara de cómo llegar del archivo a la imagen, e incluso posiblemente podría darle sentido al tamaño y el color de los círculos.

Lo que no podría hacer es reconstruir exactamente la base de datos de la cual fue extraído ese archivo. Podría imaginarse como construir esa base de datos, y posiblemente alguien podría tener exactamenete la misma idea que yo tuve, e implementar un programa que obtenga los mismos datos de la misma fuenta. Digo “posiblemente” y no “seguramente” no porque crea que mi idea es única y especial, sino porque es mi idea. Otra persona queriendo obtener la misma información podría perfectamente tomar una ruta diferente y llegar a un sitio muy parecido.

Más importante que eso es el hecho que para pasar de la base de datos original al archivo indicado arriba, hubo datos que fueron destruídos por el simple hecho de que yo creí que no eran relevantes para el problema en cuestión. De hecho la destrucción de datos ocurrió precisamente con la finalidad de reducir la cantidad de ellos, para que la imagen de arriba tuviese al menos un chance remoto de tener algo de sentido. Al destruir parte de los datos yo tenía buenas intenciones. Admito que en los datos destruídos hay cosas interesantes, pero lo que yo creía que era la parte más útil es la que preservé. Alguien más podría tener una idea completamente diferente y llegar a conclusiones mucho más elucidantes que las mías.

¿Podría publicar la base de datos original? Sí, podría. Pero tengo incentivos para no hacerlo. En este caso específico el incentivo principal es ilustrar qué constituyen datos abiertos y qué no, y ejemplicar los problemas que resultan cuando alguien decide “limpiar” y “reducir” los datos. Un incentivo secundario es que ese archivo es grande. Dado que el archivo no es la fuente primaria de esos datos, podría publicar el programa que obtiene los datos desde la fuente primaria, pero nuevamente tengo incentivos para no hacer eso.

Eso ilustra un segundo punto, tal vez más sutil que el primero: producir y publicar los datos requiere de cierto nivel de experticia, no es solo “soplar y hacer bombitas”. Convertir esos datos en información también requiere un nivel de experticia, posiblemente de un tipo diferente al primero, pero experticia de todas formas. Trabajar con esa información, opinar sobre esa información, tomar decisiones con esa información, todo eso puede o no puede requerir experticia,y si la requiere puede ser en áreas muy diferentes una de otra, y puede ser en múltiples áreas que nunca se sobreponen. No es bueno caer en la tentación de confundir la producción de los datos con el consumo de los datos.

¿Quién se atreve a explicar qué es la imagen de arriba? Pista: tiene que ver con las personas que participaron de #OGPSanJosé.

Datos abiertos: experiencias en otras partes

Comentaba yo sobre el divorcio que parecemos tener entre el deseo por un gobierno abierto y (la falta de) datos abiertos, y decía que debemos comprar nuestra experiencia con la de otros sitios.

¿Cuáles han sido experiencias positivas en otros lugares?

Hace un par de años Tim O’Reilly alababa la experiencia en Chicago, narrada elocuentemente por John Tolva, quien señala que establecieron cuatro principios básicos:

La transparencia crea confianza.
La rendición de cuentas crea una mejor fuerza laboral.
El análisis crea nuevos procesos.
Los datos abiertos crean negocios.

Los dos primeros se tienen que ver con gobierno abierto y los dos últimos con datos abiertos. Partir de la conjunción de las cuatro cosas es un buen signo, ya que queda claro que no se puede alcanzar un gobierno abierto sin tener datos abiertos antes, pero también deja claro que no se pueden tener datos abiertos sin tener la intención de llegar a un gobierno abierto.

Las intenciones, por buenas que sean, eventualmente no alcanzan para reemplazar a las acciones. Cualquier iniciativa de gobierno abierto tiene que ir acompañada de una rápida materialización de una política de datos abiertos. Siguiendo con el ejemplo de Chicago, ellos han establecido un portal de datos que contiene toda clase de información y de metainformación. Un conjunto de datos que, comprensiblemente, atrae mucho la atención es el de los salarios anuales de los diferentes funcionarios de la ciudad. Hay sin embargo cosas que alimentan menos la curiosidad, pero que eventualmente podrían ser más útiles, como el listado completo y actualizado de los contratistas trabajando para la ciudad, el listado georeferenciado de las violaciones al límite de velocidad detectadas por las cámaras instaladas para tal efecto ó la cantidad de visitas mensuales a cada una de las bibliotecas públicas. Más importante que todos esos ejemplo es el hecho que la ciudad de Chicago ofrece un API para acceder toda la información de manera programática y en tiempo real. Chicago no solamente publica datos, también los mantiene actualizados. Por ejemplo, el listado de crímenes reportados no es el listado de los crímenes de hace cinco años, o del año pasado, o del primer semestre del año. Es el listado de los crímenes reportados que han ingresado de forma más reciente a la base de datos. Al momento de yo hacer la consulta había información de hace siete días.

La ciudad de Chicago no está sola en este esfuerzo. San Francisco hace lo propio. Puerto Rico también. el Reino Unido. Amsterdam. Berlín. Uruguay. Buenos Aires, la Unión Europea… muchas de estos sitios utilizan Socrata como plataforma de administración datos abiertos y otros utilizan CKAN. Independientemente del sistema, lo que tienen en común estas iniciativas es que tienen clara la importancia de no ser simplemente un sitio con cuadros y gráficos, sino que los datos estén ampliamente disponibles, utilizando interfaces y formatos bien documentados, y que se mantengan actualizados de forma contínua. Socrata ofrece una guía de campo donde explica en términos muy básicos como desarrollar una estrategia de datos abiertos.

El proyecto Ushahidi demuestra que las iniciativas de datos abiertos no son solo cosa de gobiernos. Lo que comenzó como una página web para promover el periodismo ciudadano en Kenia, se ha convertido en toda una plataforma para recoger información de los ciudadanos en tiempo real, pero también se ha desarrollado más allá de eso y provee herramientas para hacer mapas sin intervención o apoyo de un gobierno central, análisis de información, organización de datos de crisis, alertas durante emergencias, un gateway para mensajes de texto e incluso un aparato para mantener la conectividad a Internet en sitios donde de otra forma eso sería difícil o imposible.

Ushahidi no está solo. Existen otras cosas, grandes y pequeñas, por ejemplo Open Parliament es una iniciativa privada para mantener datos y registros de las decisiones del parlamento en Canadá. Fix my street es un sitio en el Reino Unido para reportar problemas a nivel comunitario, que se desarrolló en una plataforma que puede ser utilizada por cualquiera. La fundación Sunlight ofrece mecanismos para que los ciudadanos puedan mantenerse al tanto de las acciones de su gobierno. Hay muchos otros ejemplos de este tipo. De hecho, hay tantos que la idea de la sociedad civil utilizando medios tecnológicos para influir en el gobierno no es solo una idea bonita, es todo un tema.

En todas sus variantes, en el tema de datos abiertos la pregunta ya no es si hacerlo o no, la pregunta hoy en día es cuándo, porque ayer ya es tarde.

Gobierno abierto vs datos abiertos

Cuando Luis Guillermo Solís asumió la Presidencia de la República prometió que el gobierno sería una casa de cristal. La promesa fue seguida rápidamente por el acto simbólico de quitar los arbustos del frente de casa presidencial.

Y ahí se detuvo.

Yo he dicho varias veces que a mi me dicen “gobierno abierto” y “transparencia” y yo me la creo. Eso usualmente conduce a enormes decepciones, pues es muy fácil comenzar en un estado de poca apertura y poca transparencia, hacer un par de cositas simbólicas por aquí y por allá y salir a decir que ya alcanzamos un estado distinto y mejor. Sin embargo es muy difícil reconocer que el camino que falta por recorrer es mucho, que nunca se va a acabar, y lograr dimensionar los anuncios de forma concordante. Es mucho más satisfactorio decir “hicimos esto, y es enorme” a decir “hicimos esto, que es importante, pero entendemos que todavía nos falta todo esto otro.”

Eso es muy curioso, pues la apertura y la transparencia consisten en exactamente eso: no solo decir qué hemos logrado, sino también admitir abiertamente qué es lo que nos falta. Por ello, la primera publicación de cualquier iniciativa de apertura gubernamental tiene que ser una hoja de ruta continuamente actualizada que señale claramente qué es lo que se ha hecho, qué es lo que se planea hacer y qué es lo que es necesario hacer. Se requiere de mucho valor para reconocer la diferencia entre las dos últimas cosas, pues lo necesario es invariablemente más grande que lo planeado.

También es necesario reconocer que la idea de gobierno abierto es enemiga de lo que en Costa Rica conocemos como “patas”, es decir, no se trata solo de un cambio en la forma como se conducen los asuntos públicos, se trata también de una modificación cultural. Eso comienza desde la forma en la que se lleva adelante la iniciativa de gobierno abierto, donde han habido claros personalismos de por medio. Por ejemplo, si uno busca ingenuamente “gobierno abierto” en Costa Rica, llega a una página dentro del sitio web de “Gobierno fácil”. De la poca información que esa página contiene, lo más notable es el plan de acción de gobierno abierto para el 2013-2014. Y no hay nada más allá del 2014. Me atrevo a especular que eso es así porque “ese es el plan de otro, esa es la iniciativa de otro. La iniciativa mía va por otro lado.” Eso, que es cultural, y es algo a lo que le tenemos tantos nombres en nuestra sociedad, eso mina cualquier buena intención de avanzar hacia un gobierno abierto y transparente.

La otra componente que complica las cosas en nuestro medio son los datos abiertos, o mejor dicho la ausencia de ellos.

“Datos abiertos” no es publicar, por ejemplo, un informe, con todos sus gráficos, respecto a una encuesta, como lo hizo en múltiples ocasiones el CIEP durante la pasada campaña electoral. Que el informe esté disponible, que se pueda consultar, y que no haya que pagar para tener acceso a él, todo eso está muy bien, pero eso no son datos abiertos.

“Datos abiertos” tampoco es publicar, como lo hace el Estado de la Nación, por nombrar uno, un tabla donde se toman, por ejemplo, respuestas individuales a una encuesta nacional y se reducen por distrito, es decir, se toman todas las respuestas de un distrito y se juntan para producir una única fila de datos a partir de 20, 50, 100 o quién sabe cuántos datos originales. Para algunas cosas y en algunos casos es algo útil, pero eso no son datos abiertos. El Estado de la Nación también publica algunos de sus conjuntos de datos en formatos propietarios y mal documentados.

“Datos abiertos” tampoco es la grosería que hace el INEC, que es lo mismo que el caso anterior, pero en lugar de reducir los datos originales por distrito, los reducen por provincia, por género, por edad o por quién sabe cuántas otras categorías se les pueda ocurrir, todas amplísimas. Ellos reconocen el valor de los datos originales, por lo tanto uno puede accederlos a cambio de una no tan módica suma. Y para estar claros: datos obtenidos por una institución del Estado, con presupuesto del Estado, que son útiles para actividades en las que el Estado debería estar interesado, son accesibles contra solicitud y pago.

“Datos abiertos” tampoco es lo que hace el TSE, que es un caso muy especial, pues hace muchas cosas muy bien y muchas cosas muy mal. El TSE publica el padrón electoral completo, en un formato fácilmente legible por máquina. Eso es bueno. El TSE no publica los centros de votación de la misma forma. Esto quiere decir que es imposible construir una página web donde la gente pueda consultar si sitio de votación con solo ingresar su cédula. ¿Cómo es posible algo como esto entonces? Usando mecanismos no documentados que están disponibles hoy en día, que imponen una carga innecesaria en los servidores del TSE y que pueden, sin aviso alguno, desaparecer mañana. La otra cosa que el TSE no publica en formatos fácilmente legibles por máquina son los resultados de los procesos electorales que lleva a cabo. Lo que publica es una colección de copias electrónicas de las actas con los resultados en una forma tal que es sumamente engorroso traducirlos a formatos útiles. Igual algunos somos necios y hacemos todo ese proceso engorroso para que otros no tengan que pasar por lo mismo. El TSE tampoco publica la base de datos con la información de nacimientos y defunciones, y si uno la solicita le dan un portazo en la cara. ¿Cómo es posible entonces algo como el juguete con el que muchos se entretuvieron esta semana? Para mi es evidente, por los errores que se cuelan hasta los resultados, que ese juguete utiliza esa base de datos. ¿Si el TSE no la brinda, cómo es posible que exista esa página web? De la misma forma que yo tengo copia de una versión de hace unos años atrás de la misma: patas. Alguien que conozco conoce a alguien que conoce a alguien que tiene acceso a la base de datos, y de salto en salto esos datos terminaron en mi disco duro. ¿Está eso bien? Absolutamente no.

¿Hay alguien en alguna parte del planeta que haga esto bien? ¡Por supuesto! ¡Muchos! Para muestra un botón. Esos archivos contienen cada una de las respuestas brindadas por los entrevistados, junto con la entrevista que se les aplicó. No son los datos reducidos de manera antojadiza, sino los datos originales, tal cual se obtuvieron. Si bien es cierto que contienen la información de dónde se realizó la encuesta, no tienen información de a quién se encuestó. Tampoco estoy tratando de meter diez con hueco: admito que existe la posibilidad, dados los datos que contienen esos archivos, de llegar a identificar a muchos de los encuestados si uno realmente quisiera hacerlo. No digo que es fácil o que es ciertamente posible, pero si digo que con la información suministrada no se puede descartar completamente esa posibilidad. Eso es ciertamente un riesgo a considerar en cualquier circunstancia en la que se publiquen datos realmente abiertos, pero es mi opinión que esa situación es mejor que la alternativa, que queda ilustrada en el caso del TSE mencionado antes: si los datos no están disponibles de forma abierta, siempre existe la posibilidad de que se trafique con ellos por debajo de la mesa, y eso conduce a una situación donde una poca gente tiene acceso y la mayoría no.

La parte más complicada es la confluencia de estas dos cosas: gobierno abierto y datos abiertos. Es mi opinión que es imposible tener lo primero sin lo segundo. Si se considera por ejemplo las sesiones del consejo de gobierno, las actas, adecuadamente anotadas y con referencias cruzadas, constituyen datos. Las actas de cualquier junta directiva igualmente constituyen datos. Las actas de las sesiones de las comisiones de la Asamblea Legislativa constituyen datos. Las actas de todos los organismos que pretenden influir en el desarrollo de lo público constituyen datos. Y sin embargo ninguna de esas cosas está disponible en forma de datos abiertos, incluyendo las de aquellas organizaciones que han prometido públicamente harán lo propio. Menciono actas para dar un ejemplo, pero igual podría haber dicho presupuestos (planeamiento y ejecución), informes de viajes, o tantas otras cosas similares mucho antes de comenzar a pensar en encuestas y similares.

La primera piedra con la que se encuentran las organizaciones que tienen la buena voluntad de construir un gobierno abierto es que mantener datos abiertos es mucho trabajo. Suponiendo que se pudiesen ignorar todas las consideraciones referentes a privacidad e información confidencial, igual es mucho trabajo. Cualquiera puede subir un acta a Google Drive. No cualquiera puede colocar todas las anotaciones y todas las referencias cruzadas a un acta. Es fácil hacer eso una vez. No es fácil hacerlo continuamente.

La segunda piedra es la tentación de utilizar cualquier formato de datos o publicar la información de cualquier forma, o peor aún, de no conservar ninguna consistencia entre una publicación y la siguiente. Publicar PDFs en una página web no son ni datos abiertos ni gobierno abierto. Tiene que ocurrir una clasificación adecuada. Tiene que haber organización de la información. Tiene que haber documentación sobre la información que se presenta. Es cierto, dado que rara vez las organizaciones logran hacer esto bien al primer, segundo y enésimo intento, habemos gente al rededor de todo el mundo que realizamos limpienza y organización de lo que sea que sí publiquen, pero en algún momento hasta uno mismo llega a reconocer que ese tiempo se podría haber invertido mejor que analizar la información y no en tener que limpiarla y organizarla.

También está siempre la tentación de creer que esto es simplemente Politología. O Comunicación. O Sociología. O incluso ninguna de las anteriores. Que acá no es necesario entender de Matemática, de Estadística o de Computación. Que “la parte tecnológica no es primordial”. Peor aún, que “la parte tecnológica se puede ver después.”

La intención de la casa de cristal es buena y se aplaude, pero en algún momento quiero ver que las intenciones se traduzcan en acciones, comenzando por lo que se puede hacer ya. Se puede iniciar por todas esas cosas que no requieren pasar montado en un avión dos años antes de siquiera poder comenzar a pensar en qué hacer acá. Sí, es bonito no saber nada del tema y que lo manden a uno a “aprender” de las experiencias de otros países, ¿verdad? especialmente cuando no existe la obligación (o la intención) de dar un reporte respecto a ese aprendizaje.

No, así no se pueden hacer las cosas.

Ya es hora que pongamos un alto al síndrome de “esto no lo inventé yo” y que veamos seriamente qué es lo que ya hemos hecho acá y qué es lo que han hecho en otros lados, que recojamos lo que se puede recoger y que echemos a andar rápidamente las cosas que se pueden poner a funcionar rápidamente, al tiempo que se coordinan los esfuerzos en torno al resto.