Sou novo no grupo e no uso do alfresco. Tenho uma instalação do alfresco em um VPS Linux para testes, e recentemente estou empacado no uso do Simple OCR, um add on do Alfresco.
Ele faz o que promete, passa o ocr em um documento recém scaneado, assim consigo realizar buscas dentro do documento, mas duas coisas acontecem:
1 - esse conteúdo do arquivo não é indexado, somente fica "procurável" quando estou com o arquivo em tela, na busca do próprio arquivo, caso faça uma procura geral no alfresco, não condigo localizar o conteúdo.
2 - o mesmo acontece se eu baixar o arquivo e abrir no adobe, não consigo procurar o conteúdo que teoricamente foi processado pelo OCR.
Alguém teria alguma dica, ou recomenda outra solução de OCR? Andei testando a solução de OCR da Anatel, mas só consigo que funcione em documentos de uma página. Qualquer ajuda será de extrema ajuda.
Grato.
Boa noite.
Eu já testei o componente que você comentou, e não observei o comportamento que você descreveu.
Você poderia dar mais detalhes de como exatamente você configurou?
Qual versão exata do addon e do Alfresco você está usando?
Você vê alguma mensagem de erro nos logs do Alfresco?
Alfresco Community - 5.2.0 (r135134-b14)
Simple OCR 1.1.1 ( amp file - GitHub - keensoft/alfresco-simple-ocr: Simple OCR action for Alfresco )
Ubuntu 16.04.2 LTS
# cat > ocr.sh
export PATH=/usr/bin:$PATH
pdfsandwich $@
# chmod +x ocr.sh
/opt/alfresco-community/tomcat/shared/classes/alfresco-global.properties
#img.root=/opt/alfresco-community/common
#img.dyn=${img.root}/lib
#img.exe=${img.root}/bin/convert
img.root=/usr/share/doc/imagemagick
img.exe=/usr/bin/convert
img.config=${img.root}
img.coders=/usr/lib/x86_64-linux-gnu/ImageMagick-6.8.9/modules-Q16/coders
img.dyn=/usr/share/ghostscript/9.18/lib
img.gslib=/usr/share/ghostscript/9.18/lib
### PDF Sandwich ###
ocr.command=/root/ocr.sh
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang por+eng
ocr.server.os=linux
/opt/alfresco-community/tomcat/logs/catalina.out
2017-07-17 22:46:30,255 INFO [solr.component.AsyncBuildSuggestComponent] [Suggestor-alfresco-1] Building suggester index for: shingleBasedSuggestions
2017-07-17 22:46:31,415 INFO [solr.component.AsyncBuildSuggestComponent] [Suggestor-alfresco-1] Built suggester shingleBasedSuggestions, took 1159 ms
2017-07-17 22:46:58,963 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] EXIT VALUE: 0
2017-07-17 22:46:58,964 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] STDOUT: pdfsandwich version 0.1.4
Checking for convert:
convert -version
Version: ImageMagick 6.8.9-9 Q16 x86_64 2017-05-26 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2014 ImageMagick Studio LLC
Features: DPC Modules OpenMP
Delegates: bzlib cairo djvu fftw fontconfig freetype jbig jng jpeg lcms lqr ltdl lzma openexr pangocairo png rsvg tiff wmf x xml zlib
Checking for unpaper:
unpaper -version
6.1
Checking for tesseract:
tesseract -v
Checking for gs:
gs -v
GPL Ghostscript 9.18 (2015-10-05)
Copyright (C) 2015 Artifex Software, Inc. All rights reserved.
Input file: "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf"
Output file: "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf"
Number of pages in inputfile: 1
More threads than pages. Using 1 threads instead.
Processing page 1.
identify -format "%w\n%h\n" "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf[0]"
convert -type Bilevel -density 300x300 "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650.pdf[0]" /tmp/pdfsandwich2abee6.pbm
unpaper --overwrite --no-grayfilter --layout none /tmp/pdfsandwich2abee6.pbm /tmp/pdfsandwich36967b_unpaper.pbm
Processing sheet #1: /tmp/pdfsandwich2abee6.pbm -> /tmp/pdfsandwich36967b_unpaper.pbm
tesseract /tmp/pdfsandwich36967b_unpaper.pbm /tmp/pdfsandwich47daff -l por+eng pdf
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dDEVICEWIDTHPOINTS=595 -dDEVICEHEIGHTPOINTS=842 -dPDFFitPage -o /tmp/pdfsandwich165a75.pdf /tmp/pdfsandwich47daff.pdf
OCR done. Writing "/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf"
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile="/opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_4128368533836054650_ocr.pdf" /tmp/pdfsandwich165a75.pdf
Done.
2017-07-17 22:46:58,964 INFO [alfresco.ocr.OCRTransformWorker] [defaultAsyncAction3] STDERR: tesseract 3.04.01
leptonica-1.73
libgif 5.1.2 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.0
[image2 @ 0x12b5900] Encoder did not produce proper pts, making some up.
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
I did a research on the message [image2 @ 0x12b5900] Encoder did not produce proper pts, making some up.
It seems it is a problem with unpaper, so I believe it would be better if you try to fix it first, as the problem is not related with the addon.
The same message appear in other projects using the unpaper project.
It would be good to try to install another version and check if it fixes the problem you are facing with.
Bom dia!
Eu estou com problemas nesse mesmo addon.
Porém, meu problema é que quando clico no botão OCR dentro do Alfresco, ele apresenta a seguinte mensagem de erro:
Some error happened when processing your request, OCR has not been applied to the document
Eu instalei o pdfsandwich pra intermediar a conversão dos documentos. porém, eu não estou conseguindo deixá-los indexaveis.
Alguém poderia me ajudar com isso?
Desde já, agradeço.
Boa tarde.
Quando erros assim acontecem, procure sempre compartilhar os arquivos de log, pois as mensagens na interface do usuário não ajudam em nada para descobrir os problemas.
Você pode usar o https://pastebin.com/
Tive um pouco de dificuldade em usar esse pastebin... rsrs
Estou colocando anexo os logs logo após reiniciar o alfresco. Se quiser ver mais algum arquivo, só falar que responderei prontamente.
Mais uma vez, obrigado
Bom dia.
Ainda não vejo seus arquivos de log.
Compartilhe em outro local e envie o link por aqui.
Parei um poquinho pra entender esse pastebin e copiei la..
Seguem os links:
OBS: São os mesmos logs que postei anteriormente... Coletados logo após o reinicio do serviço alfresco.
Se precisar de algo mais, me avise que responderei o mais rápido possível.
Ah, parece que você instalou os 2 amps no share.
Veja:
simple-ocr-share Share Jar Module - SDK 3, 2.3.1, Share JAR Module (to be included in the share.war) - SDK 3
Você deveria, como diz no log, incluir o simple-ocr-repo somente no Alfresco, e o simple-ocr-share somente no Share.
Me diga em que pastas exatamente você colocou os amps.
Discussions about Alfresco Content Services and Alfresco Process Services in Portuguese
Related:
By using this site, you are agreeing to allow us to collect and use cookies as outlined in Alfresco’s Cookie Statement and Terms of Use (and you have a legitimate interest in Alfresco and our products, authorizing us to contact you in such methods). If you are not ok with these terms, please do not use this website.