Por Tatta25
Una de las primeras lecciones aprendidas del Mooc de Periodismo de Datos, dictado por Sandra Crucianelli en el Knight Center, es la extracción de datos en archivos cerrados.
La maestra argentina nos enseñó a los participantes varias herramientas gratuitas de las que disponemos en la web los periodistas interesados en trabajar con datos atrapados en formato PDF. Algunas tienen más funcionalidades que otras, pero a ensayo y error se encontrarán las que más se ajusten a nuestras necesidades de trabajo. Por ejemplo, algunas ofrecen la opción de sólo extraer los datos de la primera página o de archivos con determinado peso.
¿Qué son los datos abiertos?
«Comencemos diciendo que un dato abierto está contenido en un documento abierto, es decir en un formato reutilizable, de modo que usted puede “llevarse” los datos a su computadora personal copiando y pegando los datos o directamente descargándolos en un formato reutilizable, como Excel», dijo Crucianelli la primera semana del Mooc.
De esta manera entenderemos que los archivos convertidos a PDF, después de haber sido escaneados, tienden a ser cerrados porque no permiten copiar y pegar su información en otros programas para seguirla trabajando.
El Open Data Handbook define estos datos así:
Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de compartirse de la misma manera en que aparecen.
La definición de apertura completa da detalles precisos de lo que significa. Para resumir lo más importante:
-
Disponibilidad y acceso: la información debe estar disponible como un todo y a un costo razonable de reproducción, preferiblemente descargándola de internet. Además, la información debe estar disponible en una forma conveniente y modificable.
-
Reutilización y redistribución: los datos deben ser provistos bajo términos que permitan reutilizarlos y redistribuirlos, e incluso integrarlos con otros conjuntos de datos.
-
Participación universal: todos deben poder utilizar, reutilizar y redistribuir la información. No debe haber discriminación alguna en términos de esfuerzo, personas o grupos. Restricciones “no comerciales” que prevendrían el uso comercial de los datos; o restricciones de uso para ciertos propósitos (por ejemplo sólo para educación) no son permitidos.
Para extraer datos escaneados o guardarlos en PDF y poder manipularlos estas herramientas son recomendables:
- Free OCR
- OCR Extract
- Online OCR
- Document Cloud (Hace correr un OCR que extrae contenidos mientras sube un archivo de texto, recomienda Sandra Crucianelli).
Para convertir archivos PDF a formatos específicos:
- PDF to Excel
- PDF to Word
- Zamzar
- @Miriescribe recomienda PDF Converter
Si conoces más herramientas de este tipo, agradecemos nos las compartas para ir agregándolas a este listado.
Más recursos:
- Listado de herramientas, propuesto por Sandra Crucianelli en el Mooc de Periodismo de Datos
- ¿Cómo abrir datos?
- Formatos de archivos
- Glosario
- Bases de datos de Latinoamérica
[…] https://nochesdemedia.com/2013/06/12/archivos-cerrados-estas-herramientas-de-extraccion-te-facilitara… […]
Reblogged this on Easy ML World.