Re: Simple OCR + Alfresco

slcunha · ‎17 Jul 2017

Sou novo no grupo e no uso do alfresco. Tenho uma instalação do alfresco em um VPS Linux para testes, e recentemente estou empacado no uso do Simple OCR, um add on do Alfresco.
Ele faz o que promete, passa o ocr em um documento recém scaneado, assim consigo realizar buscas dentro do documento, mas duas coisas acontecem:
1 - esse conteúdo do arquivo não é indexado, somente fica "procurável" quando estou com o arquivo em tela, na busca do próprio arquivo, caso faça uma procura geral no alfresco, não condigo localizar o conteúdo.
2 - o mesmo acontece se eu baixar o arquivo e abrir no adobe, não consigo procurar o conteúdo que teoricamente foi processado pelo OCR.

Alguém teria alguma dica, ou recomenda outra solução de OCR? Andei testando a solução de OCR da Anatel, mas só consigo que funcione em documentos de uma página. Qualquer ajuda será de extrema ajuda.

Grato.

douglascrp · ‎18 Jul 2017

Boa noite.

Eu já testei o componente que você comentou, e não observei o comportamento que você descreveu.

Você poderia dar mais detalhes de como exatamente você configurou?

Qual versão exata do addon e do Alfresco você está usando?

Você vê alguma mensagem de erro nos logs do Alfresco?

slcunha · ‎18 Jul 2017

Alfresco Community - 5.2.0 (r135134-b14)

Simple OCR 1.1.1 ( amp file - GitHub - keensoft/alfresco-simple-ocr: Simple OCR action for Alfresco )

Ubuntu 16.04.2 LTS

# cat > ocr.sh

export PATH=/usr/bin:$PATH

pdfsandwich $@

# chmod +x ocr.sh

/opt/alfresco-community/tomcat/shared/classes/alfresco-global.properties

#img.root=/opt/alfresco-community/common

#img.dyn=${img.root}/lib

#img.exe=${img.root}/bin/convert

img.root=/usr/share/doc/imagemagick

img.exe=/usr/bin/convert

img.config=${img.root}

img.coders=/usr/lib/x86_64-linux-gnu/ImageMagick-6.8.9/modules-Q16/coders

img.dyn=/usr/share/ghostscript/9.18/lib

img.gslib=/usr/share/ghostscript/9.18/lib

### PDF Sandwich ###

ocr.command=/root/ocr.sh

ocr.output.verbose=true

ocr.output.file.prefix.command=-o

ocr.extra.commands=-verbose -lang por+eng

ocr.server.os=linux

/opt/alfresco-community/tomcat/logs/catalina.out

2017-07-17 22:46:30,255 INFO [solr.component.AsyncBuildSuggestComponent] [Suggestor-alfresco-1] Building suggester index for: shingleBasedSuggestions
2017-07-17 22:46:31,415 INFO [solr.component.AsyncBuildSuggestComponent] [Suggestor-alfresco-1] Built suggester shingleBasedSuggestions, took 1159 ms
2017-07-17 22:46:58,963 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] EXIT VALUE: 0
2017-07-17 22:46:58,964 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] STDOUT: pdfsandwich version 0.1.4
Checking for convert:
convert -version
Version: ImageMagick 6.8.9-9 Q16 x86_64 2017-05-26 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2014 ImageMagick Studio LLC
Features: DPC Modules OpenMP
Delegates: bzlib cairo djvu fftw fontconfig freetype jbig jng jpeg lcms lqr ltdl lzma openexr pangocairo png rsvg tiff wmf x xml zlib

Checking for unpaper:
unpaper -version
6.1
Checking for tesseract:
tesseract -v
Checking for gs:
gs -v
GPL Ghostscript 9.18 (2015-10-05)
Copyright (C) 2015 Artifex Software, Inc. All rights reserved.
Input file: "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf"
Output file: "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf"
Number of pages in inputfile: 1
More threads than pages. Using 1 threads instead.
Processing page 1.
identify -format "%w\n%h\n" "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf[0]"
convert -type Bilevel -density 300x300 "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf[0]" /tmp/pdfsandwich2abee6.pbm
unpaper --overwrite --no-grayfilter --layout none /tmp/pdfsandwich2abee6.pbm /tmp/pdfsandwich36967b_unpaper.pbm
Processing sheet #1: /tmp/pdfsandwich2abee6.pbm -> /tmp/pdfsandwich36967b_unpaper.pbm
tesseract /tmp/pdfsandwich36967b_unpaper.pbm /tmp/pdfsandwich47daff -l por+eng pdf
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dDEVICEWIDTHPOINTS=595 -dDEVICEHEIGHTPOINTS=842 -dPDFFitPage -o /tmp/pdfsandwich165a75.pdf /tmp/pdfsandwich47daff.pdf
OCR done. Writing "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf"
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile="/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf" /tmp/pdfsandwich165a75.pdf

Done.

2017-07-17 22:46:58,964 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] STDERR: tesseract 3.04.01
leptonica-1.73
libgif 5.1.2 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.0

[image2 @ 0x12b5900] Encoder did not produce proper pts, making some up.
Tesseract Open Source OCR Engine v3.04.01 with Leptonica

douglascrp · ‎18 Jul 2017

I did a research on the message [image2 @ 0x12b5900] Encoder did not produce proper pts, making some up.

It seems it is a problem with unpaper, so I believe it would be better if you try to fix it first, as the problem is not related with the addon.

The same message appear in other projects using the unpaper project.

It would be good to try to install another version and check if it fixes the problem you are facing with.

vitorsrosa · ‎22 Dec 2017

Bom dia!

Eu estou com problemas nesse mesmo addon.

Porém, meu problema é que quando clico no botão OCR dentro do Alfresco, ele apresenta a seguinte mensagem de erro:

Some error happened when processing your request, OCR has not been applied to the document

Eu instalei o pdfsandwich pra intermediar a conversão dos documentos. porém, eu não estou conseguindo deixá-los indexaveis.

Alguém poderia me ajudar com isso?

Desde já, agradeço.

douglascrp · ‎22 Dec 2017

Boa tarde.

Quando erros assim acontecem, procure sempre compartilhar os arquivos de log, pois as mensagens na interface do usuário não ajudam em nada para descobrir os problemas.

Você pode usar o https://pastebin.com/

vitorsrosa · ‎22 Dec 2017

Tive um pouco de dificuldade em usar esse pastebin... rsrs

Estou colocando anexo os logs logo após reiniciar o alfresco. Se quiser ver mais algum arquivo, só falar que responderei prontamente.

Mais uma vez, obrigado

douglascrp · ‎28 Dec 2017

Bom dia.

Ainda não vejo seus arquivos de log.

Compartilhe em outro local e envie o link por aqui.

vitorsrosa · ‎28 Dec 2017

Parei um poquinho pra entender esse pastebin e copiei la..

Seguem os links:

alfresco.log

catalina.log

catalina.out

OBS: São os mesmos logs que postei anteriormente... Coletados logo após o reinicio do serviço alfresco.

Se precisar de algo mais, me avise que responderei o mais rápido possível.

douglascrp · ‎3 Jan 2018

Ah, parece que você instalou os 2 amps no share.

Veja:

simple-ocr-repo Platform Jar Module - SDK 3, 2.3.1, Platform JAR Module (to be included in the alfresco.war) - SDK 3

simple-ocr-share Share Jar Module - SDK 3, 2.3.1, Share JAR Module (to be included in the share.war) - SDK 3

Você deveria, como diz no log, incluir o simple-ocr-repo somente no Alfresco, e o simple-ocr-share somente no Share.

Me diga em que pastas exatamente você colocou os amps.

Simple OCR + Alfresco

Simple OCR + Alfresco