Simple OCR + Alfresco

cancel
Showing results for 
Search instead for 
Did you mean: 
vitorsrosa
Active Member II

Re: Simple OCR + Alfresco

Boa tarde Douglas.

Eu instalei no seguinte caminho:

/opt/alfresco-community/modules/share

não entendi muito bem a sua observação... no caso, onde seriam os diretórios corretos?

douglascrp
Advanced II

Re: Simple OCR + Alfresco

Então você usou o release como jar, e não amp.

Nesse caso, faça o seguinte:

Deixe apenas o arquivo simple-ocr-repo.jar em /opt/alfresco-community/modules/platform 

E apenas o arquivo simple-ocr-share.jar em /opt/alfresco-community/modules/share

Reinicie o Alfresco e deve funcionar.

vitorsrosa
Active Member II

Re: Simple OCR + Alfresco

Fiz o que me disse e ele parou de apresentar a mensagem. Porém, mesmo assim, o programa não converte o documento.

Segue o log após clicar no botão. percebi que há um erro de java mas não tenho a menor ideia de como resolver rsrsrs

catalina.log

douglascrp
Advanced II

Re: Simple OCR + Alfresco

O problema está na instalação que você fez dos componentes que o OCR precisa.

Veja se o que foi explicado nesta página te ajuda FAQ · keensoft/alfresco-simple-ocr Wiki · GitHub 

Do lado do Alfresco, está tudo certo.

bazorante14
Active Member

Re: Simple OCR + Alfresco

Bom dia Douglas. Estou com este problema "Some error happened when processing your request, OCR has not been applied to the document" quando clico no menu ocr. No meu caso não existe o diretório /opt/alfresco-community/modules/platform , então coloquei o simple-ocr-repo.jar e o simple-ocr-share.jar em /opt/alfresco-community/modules/share. Devo criar o diretório platform?
Desde já grato pela atenção.

douglascrp
Advanced II

Re: Simple OCR + Alfresco

Bom dia.

Sim, é preciso criar caso não exista, mas é preciso também configurar o Tomcat onde o Alfresco está rodando para que ele procure por módulos nessa pasta.

Use os dois arquivos a seguir como modelo:

alfresco-ubuntu-install/alfresco.xml at master · loftuxab/alfresco-ubuntu-install · GitHub 

alfresco-ubuntu-install/share.xml at master · loftuxab/alfresco-ubuntu-install · GitHub 

Esses arquivos devem estar em <alfresco>/tomcat/conf/Catalina/localhost

bazorante14
Active Member

Re: Simple OCR + Alfresco

Ambos estao da seguinte forma

share.xml
<?xml version='1.0' encoding='utf-8'?>
<Context crossContext="true">
<Loader className="org.apache.catalina.loader.VirtualWebappLoader" virtualClasspath="${catalina.base}/../modules/share/*.jar" />
</Context>

alfresco.xml

<?xml version='1.0' encoding='utf-8'?>
<Context crossContext="true">
<Loader className="org.apache.catalina.loader.VirtualWebappLoader" virtualClasspath="${catalina.base}/../modules/platform/*.jar" />
</Context>

Criei a pasta platform e movi o simple-ocr-repo.jar  do share para o platform.

Meu /opt/alfresco-community/tomcat/shared/classes/alfresco-global.properties foi adicionado:

###Configuracao OCR

ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o

ocr.extra.commands=-verbose -lang spa+eng+fra
ocr.server.os=linux

Já instalei também o pdfsandwich e suas dependências. Estou há 3 dias pesquisando já perdendo a esperança. Smiley Sad

 

douglascrp
Advanced II

Re: Simple OCR + Alfresco

Bom, aparentemente está tudo certo agora, e com essa mudança, você deve ter algo indicando o problema nos arquivos de log.

Compartilhe eles aqui e tentarei te ajudar.

bazorante14
Active Member

Re: Simple OCR + Alfresco

Segue o log em anexo. 

bazorante14
Active Member

Re: Simple OCR + Alfresco

Erro no catalina.out
Checking for convert:
convert -version
Version: ImageMagick 7.0.5-2 Q16 x86_64 2017-04-04 http://www.imagemagick.org
Copyright: © 1999-2017 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Featur
err: tesseract: /opt/alfresco-community/common/lib/libtiff.so.5: no version information available (required by /usr/lib/liblept.so.4)
tesseract: /opt/alfresco-community/common/lib/libjpeg.so.62: no version information available (required by /usr/lib/lible
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:86)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:181)
... 10 more
Caused by: org.alfresco.service.cmr.repository.ContentIOException: 00080083 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /usr/bin/pdfsandwich -verbose -lang spa+eng+fra /opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_6630307091445749108.pdf -o /opt/alfresco-community/tomcat/temp/Alfresco/OCRTransformWorker_source_6630307091445749108_ocr.pdf
succeeded: false
exit code: 2
out: pdfsandwich version 0.1.6
Checking for convert:
convert -version
Version: ImageMagick 7.0.5-2 Q16 x86_64 2017-04-04 http://www.imagemagick.org
Copyright: © 1999-2017 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Featur
err: tesseract: /opt/alfresco-community/common/lib/libtiff.so.5: no version information available (required by /usr/lib/liblept.so.4)
tesseract: /opt/alfresco-community/common/lib/libjpeg.so.62: no version information available (required by /usr/lib/lible
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:79)