viernes, 31 de octubre de 2014

La accesibilidad de los PDFs

Hoy en día, la accesibilidad de los documentos PDF es muy importante porque se publica mucha información en este formato en los sitios web.

Existen dos tipos de documentos PDF, los nativos y los escaneados, y los dos tipos pueden ser o no ser accesibles.

Un documento PDF nativo es un documento que se ha generado a partir de otro documento electrónico como puede ser un documento de texto (Microsoft Word o un simple fichero de texto plano), una página web, etc. Un documento PDF nativo contiene los caracteres, los espacios en blanco, el tipo de letra empleado, etc. del documento original.

Un documento PDF escaneado es una imagen insertada dentro de un documento PDF que ha sido adquirida o escaneada a partir de un documento original en papel. En principio, un documento PDF escaneado no contiene el texto original, aunque se pueden aplicar técnicas de OCR (Optical Character Recognition) para intentar reconstruir el texto del documento original.

Ambos tipos de documentos PDF pueden no ser accesibles, aunque claro, un documento PDF nativo puede tener cierto grado de accesibilidad aunque no se haga nada, porque contiene el texto original, mientras que un documento PDF escaneado como es una imagen no será accesible, a no ser que se aplique un OCR... y aquí viene un problema grave.

Adobe, la compañía propietaria del formato PDF ha alertado recientemente del problema que presentan muchos documentos PDF escaneados. En PDF accessibility starts with the author se explica que el uso de los OCR está dando la falsa sensación de que un documento PDF escaneado puede ser accesible simplemente con el procesamiento automático, y no es así.

El proceso de escaneado no es fiable al 100%, según la calidad del documento original se pueden producir muchos errores en el documento final. Además, normalmente el OCR no puede reconstruir información importante del documento original, como la estructura de encabezados o las tablas. Y por supuesto, un OCR no puede generar un texto alternativo para las imágenes que contenga un documento en papel.

Por tanto, sí, los OCR son buenos pero, no, a día de hoy no producen milagros. Como dice el artículo de Adobe, la accesibilidad de un PDF comienza con el autor del documento.

1 comentario:

Pedro R. Borges dijo...

Lás imágenes deberían distribuirse en formatos de archivos para imágenes. Muchas veces he recibido imágenes en archivos de Word, y eso solo complica la manipulación de esas imágenes.