AnsweredAssumed Answered

ifresco AutoOCR Transformer – OCR in Alfresco integriert

Question asked by wmay on May 18, 2012
AutoOCR ist ein OCR Service/Server der auf der momentan wohl besten OCR Engine von Abbyy aufbaut und über eine REST/SOAP Schnittstelle verfügt. AutoOCR ist in der Lage Image- und PDF-Dateien in durchsuchbare PDF zu konvertieren. Zusätzlich lassen sich aber auch TXT, DOC(X), XLS(X), PPT(X), XML, RTF und HTML erzeugen.

Die Konfiguration ist denkbar einfach und erfolgt über OCR Profile welche alle möglichen Einstellungen zusammenfassen. Über ein AMP Install-Modul erfolgt die direkte Integration von AutoOCR mit Alfresco. OCR Funktionen stehen damit in Alfresco als dynamisch konfigurierbare Transformer zur Verfügung. Entsprechende Bindings erlauben die Verwendung der der OCR Dienste auch aus JavaScript und Java heraus. Ab Alfresco 4.0 erfolgt die Konfiguration und Überwachung direkt über das UI der Share Administrator Konsole.

Darüber hinaus haben wir die Alfresco Share Dokumenten-Aktionen um die Alfresco Transformer Integration erweitert. Transformer Funktionen stehen damit beim jedem Dokument über die Share Oberfläche zur Verfügung und erlaubt die Konvertierung von Dokumenten in unterschiedliche Formate.

AutoOCR als Alfresco Transformer:
Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Alfresco Share – “Transform” Dokumentenaktion
Durch die Implementierung der “Transform” Dokumentenaktion in das Alfresco Share UI stehen neben der AutoOCR Verarbeitung auch alle anderen Alfresco Dokumententransformer zur Verfügung. Die Share “Transform” Funktion wurde allgemein und nicht nur auf die OCR Verarbeitung bezogen implementiert.

Highlights / Funktionen:
    Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
        Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
        Basierend auf ABBYY – der führenden OCR Engine
        Einfache Konfiguration über Auswahl von OCR Profilen – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammengefasst.
        Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
        Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
        JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
        Java-Client für den AutoOCR Service, zur Verwendung in Java Code. Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.
        Dokumentenaktion “Transform” erweitert Alfresco Share nicht nur um OCR sondern um alle von Alfresco unterstützen Transformationen.
Voraussetzung:
    Alfresco 4.x – dynamische Konfiguration über Share Userinterface
        Alfresco 3.x – manuelle Konfiguration ohne Share UI
        AutoOCR ab Version 1.9.8 unter Microsoft-Windows als Dienst
        ABBYY FineReader Engine 10 (Lizenz ab 10.000 Seiten pro Monat)
Weitere Infos unter
http://www.pdfblog.at/?cat=51
http://www.ifresco.at/de/products/autoocr/overview.html

Test und Demoversion ist auf Anfrage verfügbar - http://www.xkey.at/de/site/kontakt.html

Kaufen kann man die Lösung im ECM-Market: http://www.ecm-market.de

Outcomes