Alfresco no encuentra archivos PDF

cancel
Showing results for 
Search instead for 
Did you mean: 
fcamposmx2000
Member II

Alfresco no encuentra archivos PDF

Tengo un problema, recientemente mi alfresco ya no busca en archivos PDF con OCR, anteriormente si funcionaba.

Ya opté por reindexar lucene al full, pero sigo sin encontrar ningún archivo cuando se realiza una búsqueda.
7 Replies
psantis
Active Member II

Re: Alfresco no encuentra archivos PDF

no me queda claro si es la busqueda dentro de el pdf o el archivo que te dice el log?
fcamposmx2000
Member II

Re: Alfresco no encuentra archivos PDF

no me queda claro si es la busqueda dentro de el pdf o el archivo que te dice el log?

Tengo repositorios conteniendo archivos pdf a los que se aplico ocr, y al ejecutar búsquedas de palabras sobre ese repositorio, alfresco no encuentra ningun archivo que contenga esa palabra o frase, cuando el archivo si la contiene.

Gracias.
rmacian
Member II

Re: Alfresco no encuentra archivos PDF

Verifica que el proceso de OCR se está ejecutando. No se que OCR estarás pasando pero imagino que habrás definido el extractor. Activando en log4j los exctractores podrás ver si el OCR está dando algún problema:

log4j.logger.org.alfresco.util.exec.RuntimeExec=DEBUG
log4j.logger.org.alfresco.repo.content.transform.ContentTransformerRegistry=DEBUG

una manera de ver si esta funcionando bien es coger un documento PDF y mediante  las acciones convertirlo a texto plano.
fcamposmx2000
Member II

Re: Alfresco no encuentra archivos PDF

Ya intenté hacer lo que me comentas y obtuve el siguiente error:

No se pudieron ejecutar acciones debido al error: 05270232 Content conversion failed: reader: ContentAccessor[ contentUrl=store://2011/5/26/12/53/219e4b38-44d7-4c2b-bd96-479d41910958.bin, mimetype=application/pdf, size=774902, encoding=utf-8, locale=es_ES] writer: ContentAccessor[ contentUrl=store://2011/6/27/13/0/99764264-b3dd-48c3-a9eb-0bb1aeff063f.bin, mimetype=text/plain, size=0, encoding=utf-8, locale=es_ES] options: org.alfresco.service.cmr.repository.TransformationOptions@90eb6c
rmacian
Member II

Re: Alfresco no encuentra archivos PDF

Eso solo te pasa con el documento escaneado o con cualquier PDF ? Como estás haciendo el OCR ?
fcamposmx2000
Member II

Re: Alfresco no encuentra archivos PDF

Eso solo te pasa con el documento escaneado o con cualquier PDF ? Como estás haciendo el OCR ?

Cualquier PDF, de hecho estoy aplicando OCR con Acrobat Professional al momento de generar el PDF despues de escanear el documento, y el texto se encuentra dentro del archivo PDF, para darle la característica de PDF buscable.
fcamposmx2000
Member II

Re: Alfresco no encuentra archivos PDF

Ya encontré la raíz de mi problema:

Los archivos PDF que estoy integrando al Alfresco poseen clave de protección, entonces PDFBox no puede extraer los textos que Lucene requiere para incluir en el índice, alguien sabe como pasarle la clave a PDFBox de tal forma que pueda abrir los archivos?

Saludos.