• PDF y publicación

18/01/07

Los PDF y la publicación de textos


Hector D. Calabia

Además de mi actividad como periodista especializado en informática y audio-video, también me desempeño como traductor. En este carácter recibo muchas veces la pregunta de colegas y clientes: «¿Se puede traducir o modificar directamente este documento en PDF?»

Hace un tiempo publiqué un artículo sobre el asunto, en donde explicaba que el gran éxito de los documentos PDF es que se pueden leer e imprimir en toda clase de equipos y sistemas operativos; pero que no están pensados para modificarse. Es decir, son el equivalente de un documento impreso. Esto puede considerarse un inconveniente, pero es también una gran ventaja: salvo que el autor lo autorice expresamente, no pueden modificarse de ningún modo, lo cual brinda una gran seguridad para usos como emisión de facturas y otros documentos que no deben ser modificados.

Las versiones recientes de Acrobat traen opciones para la generación de formularios sobre PDF, que pueden ser contestados y devueltos al emisor. Como se ve, hay una cierta interactividad, pero expresamente limitada.

Pero ¿es posible traducir o modificar directamente un documento PDF?

En general, no. Es posible hacerlo muy limitadamente para quienes poseen el programa Acrobat completo, pero los resultados no siempre son óptimos. El problema es que Acrobat se basa en un estándar de impresión, no de creación de textos. Cuando uno quiere crear un documento PDF, primero lo crea con cualquier herramienta informática apropiada (MS Word, Excel, Quark Express…) y luego lo «imprime» como PDF. Este paso de «impresión» destruye la relación con el programa original y lo convierte en un documento «impreso», casi inmodificable.

Si se necesita extraer el texto, puede hacerse usando
la opción de «Seleccionar texto» en Acrobat Reader, y pulsar Ctrl-A (Seleccionar todo), y copiar el contenido al portapapeles; y luego pegarlo en el procesador de textos.

Esto no siempre resulta satisfactorio, porque depende mucho de la complejidad del diseño. Se mantienen algunas características del texto (como los tipos y tamaños de letras), aunque desaparecen otras (como las tablas) y las ilustraciones. Lo peor es que cada línea termina con un retorno de carro/línea nueva, que generalmente hay que reemplazar con un espacio para tener oraciones continuas de nuevo.

Conversores de PDF

La mejor opción suele ser utilizar un conversor de PDF. Los hay de dos clases: conversores «puros» de PDF a Word y los que trabajan mediante OCR (reconocimiento óptico de caracteres).
Se puede encontrar una cantidad notable de ambos tipos poniendo «PDF extraction» o «PDF conversion» en Google.

¿Cuál es la diferencia entre ellos?
A pesar de que los PDF son como documentos impresos, en muchos casos, se conservan los caracteres informáticos como tales. En estos casos, un conversor «puro» como Scansoft PDF Converter, puede trabajar bien. En cambio, si el PDF ha sido tomado de una fotocopia, por ejemplo, ya es todo él una imagen, sin caracteres por extraer. En estos casos, hay que usar un programa como Omnipage o Fine Reader para extraer el texto. Esto también es necesario cuando el texto está protegido por contraseña, y uno no la tiene. Estos últimos programas «miran» las páginas, sin utilizar su codificación interna para la conversión.

¿Cuál es el resultado?
Bastante bueno en general. Pero no hay que confiarse: para proveer una apariencia lo más parecida posible al original, los programas suelen utilizar toda clase de «trucos» tipográficos, que hacen muy delicada la copia generada. No suele ser fácil trabajar con ella directamente, sin hacer un poco de limpieza: hay muchos espacios y tamaños de caracteres no estándar, resultado de los esfuerzos del conversor por presentar un documento visualmente atractivo.

Una buena solución, en algunos casos, es pedir al conversor que conserve solamente el formato mínimo (tamaños y tipos de letras), y que no intente reproducir íntegramente la apariencia del original. Con esto se puede trabajar satisfactoriamente.

¿Es posible recrear el PDF original?

Sí... y no. No se puede recrear en forma directa, sino siempre pasando por un proceso de creación en otro programa (un editor de texto o, en muchos casos, en un software de publicación) y luego «imprimirlo» nuevamente como PDF. Siempre habrá algunas diferencias con el original, pero pueden mantenerse al mínimo si el diseñador es hábil. Una cosa que no puede reproducirse con la misma calidad son las ilustraciones. El paso por PDF las comprime de un modo que se degrada en una segunda compresión. Es bueno conseguir las fotografías e ilustraciones originales.

Revisiones con Acrobat Reader

Las versiones más recientes de Acrobat Reader, a partir de la 7.0, permiten «comentar» un texto en PDF, que haya sido enviado por su autor para «revisión». O sea, un revisor no necesita el paquete Acrobat completo para indicar modificaciones, pero sí debe tenerlo quien genera el archivo, quien debe habilitar expresamente esta posibilidad para cada archivo, que Acrobat envía luego por correo electrónico para revisar. Es una posibilidad que resulta muy práctica en grupos de trabajo.

Comentarios [2]

——————————————————

<<——>>