Buscar dentro de un Pdf.

cancel
Showing results for 
Search instead for 
Did you mean: 
hyrca
Member II

Buscar dentro de un Pdf.

Hola a todos….

Tengo una preguntilla Smiley Very Happy

Se podría hacer una busqueda y extraer texto de dentro de un Pdf para luego insertarlo en un metadato? Mi intención es crear un script que se ejecute con una regla al subir un fichero para rellenar el campo observaciones de los metadatos mas o menos asi…

document.properties.["cm:description"] = "resultado de la busqueda";
document.save();

El "resultado de la busqueda" sería una busqueda dentro del Pdf… Los documentos que se van a subir tienen todos la misma estructura y en una linea hay una frase que dice   RESULTADO: XXXXXXXXXXXXX , pues esa frase es la que me gustaría extraer y copiar en los metadatos del documento una vez que se sube automaticamente.

No se si me he explicado bien….

Muchas gracias, madre mía como cuesta aprender esto, espero que poco a poco todos podamos adaptar nuestros alfrescos!!! Smiley Tongue
1 Reply
venzia
Senior Member

Re: Buscar dentro de un Pdf.

Hola Hyrca,
Lo que comentas es totalmente factible, si bien no es sencillo (nosotros implementamos algo similar para un cliente, si bien era mucho más complejo pues validaba la información en BBDDs externas).
Básicamente lo que buscas es un "ocr zonal" para el contenido del pdf. Lo  complicado del proceso es declarar "objetos" para utilizar vía API javascript que te permitan trabajar con el contenido de dichos pdfs.
Otra opción es crear una regla de conversión de dicho pdf a texto plano y que el script busque en dicho contenido plano el valor que viene después de " RESULTADO: " .. toda esta parte es la que tendrías que afinar utilizando comandos tales como "indexOf" y "substring"..obviamente esta opción es menos elegante y eficiente que la primera.

Espero que sirva de ayuda.
Saludos, ánimo y suerte!