Google <strike>Print</strike> Book Search

12-22-2005

Hace como dos semanas This Week in Tech (TWiT) comenzó con un nuevo show llamado Triangulation. Triangulation es un programa corto (30 min) con John C. Dvorak (columnista ácido y al punto, autor de la idea), Leo Laporte (periodista, creador de TWiT) y Lawrence Lessig (catedrático en Derecho de Harvard, autor de “The future of ideas” y “Free Culture”). La idea del programa es discutir sobre un único tema desde tres puntos de vista (no necesariamente divergentes). El primer podcast fue sobre “Google Book Search” (GBS), y mejor no pudo resultar: explicaciones claras, opiniones bien fundamentadas, en general muy bien armado.

GBS comenzó llamándose “Google Print”, pero aparentemente el nombre asustó a más de una compañía publicista y Google decidió cambiarlo a algo más neutral como “Book Search”. La idea básica es simple: Google adquiere copias de los libros, las escanea (y a juzgar por la velocidad con la que lo hace, tiene un ejército de un millón de monos escaneando libros), las pasa por un excelente sistema de OCR y de ahí para adelante nada más les aplica la magia que es Google a los datos. Resultado: se puede buscar el texto completo (no solo palabras clave o títulos o autores) de varios millones de libros (más de 25 millones de hecho, según el último dato que vi). Google coopera con varias bibliotecas para obtener material cuyo copyright ha caducado y se encuentra ahora en el dominio público (e.g. Noches Jerézanas). Google también coopera con varias editoriales para obtener permiso para presentar no solo un par de líneas de texto en los resultados de la búsqueda, sino páginas completas. GBS también permite ver las tablas de contenido y los índices de las obras, en caso de que existan.

¿Buena idea? Sí, para quienes vemos la información como algo que es útil solo en la medida que se disemine. ¿Qué información? Por ejemplo la disponibilidad de un libro sobre un tema particular y la posibilidad de revisar de previo que el libro efectivamente contiene lo que uno necesita y no solo una referencia obscura de dos líneas a lo que buscamos. Esto es bueno para mi como usuario/consumidor/lector y es bueno para la editorial/publicista/autor pues aumenta la visibilidad de la obra. Esa no es la forma en la cual lo ven algunas editoriales.

Paréntesis legal de un minuto: la doctrina de copyright se refiere a la actividad de copiar una obra, no se refiere a leerla, utilizar la información contenida ni nada de eso. De hecho tampoco se refiere a la actividad de citar partes de una obra, en tanto las citas se mantengan dentro de lo “razonable” — y la definición de razonable del sistema legal no necesariamente coincide con la noción de razonable de la gente de la calle, pero en general un par de párrafos cae dentro de “razonable”. El copyright entra a funcionar en el momento que se hacen copias.

El problema que las editoriales ven con la iniciativa de Google es básicamente que para poder crear el índice y proveer los resultados los libros deben ser digitalizados (es decir, copiados digitalmente). Google no está poniendo los libros completos a disposición del público, solo los está indexando. Las editoriales sin embargo son de la opinión, en el mejor de los casos, que Google les tiene que pagar derechos de uso por estar construyendo un servicio alrededor de su “producto”. En el peor de los casos se oponen completamente a la idea, pues ven peligro en que un usuario malicioso pueda utilizar el sistema para acceder a la totalidad del contenido de las obras. Otro aspecto con el cual las editoriales tienen problemas es el hecho que las bibliotecas participantes reciben una copia digital de los libros aportados, esto con el fin de que la obra pueda ser preservada a futuro (lo cual es más crítico con las obras más antigüas, y por razones técnicas, mientras mas reciente sea la impresión de un libro es más probable que se dañe significativamente en menor tiempo).

El asunto se reduce a eso precisamente: por un lado las editoriales quieren tener control no solo de todas las copias de las obras sino también de todos los usos de las obras. Si bien esto puede sonar lejano y ridículo, es un tema candente y muy cercano a Costa Rica: CAFTA. Nuestra legislación en materia de propiedad intelectual y más concretamente en materia de derechos de autor cumple con los requisitos de la OMC/WTO y Costa Rica es signataria de TRIPS. Hablando con algunos abogados respecto al tema me dicen que si bien la situación del país no es perfecta, al menos en lo que respecta al cumplimiento de requisitos en el tratado se está bastante al día (hay detalles pendientes). El problema está en que diversos grupos en EE.UU. no consideran los requisitos de TRIPS suficientes y han hecho lobby allá para endurecer sus leyes (e.g. DMCA) llevándolas más allá del dominio de copia de obras al de uso de las mismas. En el CAFTA (capítulo 15) por ejemplo se incluye un artículo (15.5) que requiere que en la legislación existan instrumentos que permitan a los autores prohibir el almacenamiento de versiones digitalizadas de las obras. También contiene lenguaje que básicamente solicita emular el DMCA en nuestra legislación (artículo 15.11, en todas sus 12 páginas de extensión).

¿Qué pasa si se aprueba el CAFTA? Que, suponiendo que Google desease hacerlo, de pronto se torna difícil para GBS poner uno de sus laboratorios de digitalización de obras acá en Costa Rica. Y eso es la punta del iceberg.

Para los interesados, Triangulation 001 se puede bajar con BitTorrent.



  « Anterior: Siguiente: »