Tesseract full integration

cancel
Showing results for 
Search instead for 
Did you mean: 
cesarista
Customer

Re: Tesseract full integration

Hola Urbano:

El script se ejecuta según el log en /home/urbano/Escritorio/ocr-simple.py, y por el error parece que no genera el archivo /tmp/tesser-6399.txt donde el numero es el proceso del shell script que se ejecuta en el comando popen de python. Ten en cuenta, que tesseract esta en /usr/bin/tesseract

Si me dices que te funciona el script en una terminal me descolocas un poco, porque hay dos posibles fuentes de error, o el comando tesseract no funciona correctamente (por ejemplo, las rutas no estan bien o no estan el path) y no da resultados en la salida estándar de modo que no se redirecciona al archivo temporal, o bien hay un problema de permisos. Y por lo que dices y veo, descarto el problema de permisos ya que el usuario que utilizas es tu usuario sin privilegios urbano, tanto en la terminal como en el proceso java de alfresco (por eso te da errores en el log con el ftp y con el cifs, porque no puedes abrir esos puertos sin privilegios) .

Por otro lado, el path del script de python se declara en el transformador (yo lo he puesto en /opt/alfresco/bin/). Pon el resultado que te da el script ocr-python.py en la terminal al aplicarlo sobre la imagen y lo miramos.

Un saludo.

–C.
cesarista
Customer

Re: Tesseract full integration

Por cierto:

Sin relación con el problema anterior os dejo un enlace con otros aspectos sobre la integración de tesseract con Alfresco.

http://tpeelen.wordpress.com/2010/12/17/alfresco-using-tesseract-ocr-on-ubuntu-linux/

Un saludo.

–C.
urban
Member II

Re: Tesseract full integration

Hola Urbano:

El script se ejecuta según el log en /home/urbano/Escritorio/ocr-simple.py, y por el error parece que no genera el archivo /tmp/tesser-6399.txt donde el numero es el proceso del shell script que se ejecuta en el comando popen de python. Ten en cuenta, que tesseract esta en /usr/bin/tesseract

Si me dices que te funciona el script en una terminal me descolocas un poco, porque hay dos posibles fuentes de error, o el comando tesseract no funciona correctamente (por ejemplo, las rutas no estan bien o no estan el path) y no da resultados en la salida estándar de modo que no se redirecciona al archivo temporal, o bien hay un problema de permisos. Y por lo que dices y veo, descarto el problema de permisos ya que el usuario que utilizas es tu usuario sin privilegios urbano, tanto en la terminal como en el proceso java de alfresco (por eso te da errores en el log con el ftp y con el cifs, porque no puedes abrir esos puertos sin privilegios) .

Por otro lado, el path del script de python se declara en el transformador (yo lo he puesto en /opt/alfresco/bin/). Pon el resultado que te da el script ocr-python.py en la terminal al aplicarlo sobre la imagen y lo miramos.

Un saludo.

–C.

Gracias por tu rápida respuesta Cesar, ahora he colocado el script en la ruta /usr/share/tomcat6/bin y también he especificado esta ruta en ocr-context.xml, he probado el script desde la linea de comandos de la siguiente forma: ./ocr-simple.py simple.tif salida y se ejecuta con exito, el fichero "salida" contiene el texto de la imagen. Después he reiniciado el servidor de alfresco y he subido la imagen simple.tif a este pero no me realiza la búsqueda. Como tu indicabas no se ha generado ningun fichero tesser-xxxx en /tmp, este es el contenido de /tmp/ocr.log
/tmp/tomcat6-temp/Alfresco/RuntimeExecutableContentTransformerWorker_source_3474341795967203523.tiff

Un saludo, Urbano.
dvillasevil
Member II

Re: Tesseract full integration

Un post estupendo!, estamos probando Alfresco en nuestra organización y contamos con una cantidad importante de documentos escaneados.

Voy a probar lo que ponéis por aquí aunque me gustaría si alguien sabe como tratar directamente con ficheros PDF ya que las máquinas modernas de escaneo ya generan PDF multipágina de manera predeterminada.

Un saludo y muchas gracias.
malleshwari
Member II

Re: Tesseract full integration

hi,

  i am trying to integrate alfresco with tesseract in linux environment, i done in windows but i am facing problem in linux environment please help me.


OCR.sh

echo "hello">>tmp/ocrtransform.log
SOURCE=$1
    TARGET=$2
    TMPDIR=tmp/ocrtransform.log
    FILENAME=`basename $SOURCE`
    sudo OCRFILE=$FILENAME.tif
    # to see what happens
    sudo echo "from $SOURCE to $TARGET" >>tmp/ocrtransform.log
    sudo cp -f $SOURCE $TMPDIR/$OCRFILE
    # call tesseract and redirect output to $TARGET
    sudo /root/tesseract-ocr/tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng
    sudo rm -f $TMPDIR/$OCRFILE

this is the errror i am getting.

os:         Linux
   command:    tesseract /var/www/html/alfresco/ocr.sh
   succeeded:  false
   exit code:  1
   out:       
   err:        tesseract: /var/www/html/alfresco/common/lib/libstdc++.so.6: version `GLIBCXX_3.4.11' not found (required by /usr/local/lib/libtesseract.so.3)
  
   tesseract: /var/www/html/alfresco/common/lib/libstdc++.so.6: version `GLIBCXX_3.4.9' not found (required by
23:48:32,570 INFO  [org.alfresco.repo.management.subsystems.ChildApplicationContextFactory] Starting 'Transformers' subsystem, ID: [Transformers, default]


Thanks,

os:         Linux
   command:    tesseract /var/www/html/alfresco/ocr.sh
   succeeded:  false
   exit code:  1
   out:       
   err:        tesseract: /var/www/html/alfresco/common/lib/libstdc++.so.6: version `GLIBCXX_3.4.11' not found (required by /usr/local/lib/libtesseract.so.3)
  
   tesseract: /var/www/html/alfresco/common/lib/libstdc++.so.6: version `GLIBCXX_3.4.9' not found (required by
23:48:32,570 INFO  [org.alfresco.repo.management.subsystems.ChildApplicationContextFactory] Starting 'Transformers' subsystem, ID: [Transformers, default]


thanks,
Malleshwari.
miguelangel81
Member II

Re: Tesseract full integration

Intenté el script probarlo por sí sólo y funciona (el primer script de linux), pero al integrarlo en alfresco no funciona. Estoy usando Alfresco-5.0.a.
Gracias