Archivos cerrados: estas herramientas de extracción te facilitarán la vida

Sin título 1Por Tatta25

Una de las primeras lecciones aprendidas del Mooc de Periodismo de Datos, dictado por Sandra Crucianelli en el Knight Center, es la extracción de datos en archivos cerrados.

La maestra argentina nos enseñó a los participantes varias herramientas gratuitas de las que disponemos en la web los periodistas interesados en trabajar con datos atrapados en formato PDF. Algunas tienen más funcionalidades que otras, pero a ensayo y error se encontrarán las que más se ajusten a nuestras necesidades de trabajo. Por ejemplo, algunas ofrecen la opción de sólo extraer los datos de la primera página o de archivos con determinado peso.

¿Qué son los datos abiertos?

«Comencemos diciendo que un dato abierto está contenido en un documento abierto, es decir en un formato reutilizable, de modo que usted puede “llevarse” los datos a su computadora personal copiando y pegando los datos o directamente  descargándolos en un formato reutilizable, como Excel», dijo Crucianelli la primera semana del Mooc.

De esta manera entenderemos que los archivos convertidos a PDF, después de haber sido escaneados, tienden a ser cerrados porque no permiten copiar y pegar su información en otros programas para seguirla trabajando.

El Open Data Handbook define estos datos así:

Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de compartirse de la misma manera en que aparecen.

La definición de apertura completa da detalles precisos de lo que significa. Para resumir lo más importante:

  • Disponibilidad y acceso: la información debe estar disponible como un todo y a un costo razonable de reproducción, preferiblemente descargándola de internet. Además, la información debe estar disponible en una forma conveniente y modificable.

  • Reutilización y redistribución: los datos deben ser provistos bajo términos que permitan reutilizarlos y redistribuirlos, e incluso integrarlos con otros conjuntos de datos.

  • Participación universal: todos deben poder utilizar, reutilizar y redistribuir la información. No debe haber discriminación alguna en términos de esfuerzo, personas o grupos. Restricciones “no comerciales” que prevendrían el uso comercial de los datos; o restricciones de uso para ciertos propósitos (por ejemplo sólo para educación) no son permitidos.

Lea también la definición de datos abiertos de Wikipedia

¿Por qué son necesarios los datos abiertos?

Para extraer datos escaneados o guardarlos en PDF y poder manipularlos estas herramientas son recomendables:

Para convertir archivos PDF a formatos específicos:

Si conoces más herramientas de este tipo, agradecemos nos las compartas para ir agregándolas a este listado.

Más recursos:

2 Comments

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s