OCR Integration mit Dokumentindizierung

marcus2012 · ‎27 Jul 2012

Hallo,

ich arbeite zurzeit daran, eine auf OCR basierende Sortierlösung für hochgeladene eingescannte Dokumente einzurichten.

Die Erkennung des Dokument-Inhalts funktioniert mit Tesseract und läuft auch soweit. Im zweiten Schritt suche ich nun eine Möglichkeit, den Text des gescannten Dokuments als Eigenschaft im Dokument selber zu hinterlegen.

Ziel des Ganzen ist es, dass ich dann über diesen hinterlegten Text die Dokumente über die Suche finden und - wenn benötigt - auch über die Regeln sortieren kann. Mein erster Gedanke war, dass ich die Eigenschaften des Dokuments erweitere (so wie es das tagging-sample aus dem SDK vorgibt).

Darum meine Frage: Wäre eine Implementierung ähnlich der des tagging-samples aus dem SDK sinnvoll oder gibt es noch einfachere und vor allem effektivere Wege dies zu tun? Mir geht es erstmal nur darum den besten Weg dafür zu finden.

MfG,
Marcus

afaust · ‎27 Jul 2012

Hallo,

ich verstehe nicht ganz, wie man auf Basis des Dokumentinhalts sortieren möchte - oder ist hier ein bestimmtes Merkmal gemeint, dass aus der Seite extrahiert wird?
Ich würde den OCR erkannten Dokumentinhalt überhaupt nicht an einem Node speichern wollen - dieser wird "nur" für die Indizierung benötigt und sollte daher lediglich im Rahmen dieser extrahiert (Mimetype X => Text Transformer) und dann wieder verworfen werden. Wenn jedoch ein Sortiermerkmal (z.B. Seitenzahl / ID o.ä.) extrahiert wird, dann kann es als weiteres text-Property abgelegt werden und entsprechend Verwendung finden.

Das SDK habe ich schon eine Ewigkeit nicht mehr betrachtet und gerade nicht im Zugriff, um das entsprechende Sample zu prüfen.

Gruß
Axel

marcus2012 · ‎27 Jul 2012

Danke für die schnelle Antwort.

Um es genauer zu formulieren: Der Text der durch das OCR-Tool erkannt wurde, soll einfach so hinterlegt werden, dass man hinterher einfach Regeln für den Inhalt definieren kann, nach welchen das Dokument dann hinterher verschoben oder kopiert werden kann. Des weiteren soll es auch über die Suche auffindbar sein.

Folgendes Szenario steckt dahinter:

Ein eingehender Brief wird eingescannt und in Alfresco hochgeladen, danach soll die OCR-Software den Inhalt erkennen. Der Inhalt soll dann dem Dokument zugeordnet werden, sodass man das Dokument auch über die Suche finden kann. Knackpunkt hierbei ist aber, dass die Dokumente als TIFF- oder andere Bilddateien erhalten bleiben sollen, nur eben ein zusätzliches Property bekommen.

Darum war meine Idee dahinter, dass ich einfach die Properties eines Nodes erweitere und darin dann den gescannten Inhalt hinterlege. Ich wollte eigentlich nur wissen ob das der richtige Weg wäre oder ob es einfachere und vor allem effektivere Wege gibt dies zu lösen.

Gruß,
Marcus

afaust · ‎27 Jul 2012

Hallo,

also für die Suche muss wie gesagt kein extra Property angelegt werden - das wäre sogar etwas umständlicher, da man dann noch systemweit einstellen müsste, dass auch das neue Property bei einer einfachen Schlagwortsuche durchsucht wird, sonst bringt es nämlich nichts.
Für die Auswertung über Regeln oder Automatismen macht es natürlich Sinn. Es gibt hier im Grunde zwei Varianten: Eine neue Property als Text (Inhalt in Datenbank) oder Content (Inhalt im ContentStore, d.h. i.d.R. Festplatte). Ich würde letzteren wählen.

Eine bessere Lösung sehe ich kaum. Man könnte alternativ jedes Mal, wenn man die Daten braucht, erneut die OCR drüber laufen lassen und das nicht "doppelt" speichern, aber lasttechnisch ist das nicht unbedingt schön. Man sollte nur sicherstellen, dass die OCR nochmal läuft, sollte sich das gescannte Dokument ändern (erster Scann schlecht => Wiederholung => neue Version).

Gruß
Axel

marcus2012 · ‎27 Jul 2012

Hallo,

danke für deine Einschätzung.

Mir ist schon bewusst, dass die Einführung eines neuen Property durchaus umständlich sein kann, dennoch wäre ich aber gewillt diesen Weg zu gehen, auch in dem Bewusstsein das dies dann etwas länger dauern könnte.

Was denkst müsste ich an Zeit investieren, wenn ich das jetzt wirklich so umsetzen würde (Änderung der Suche, Erweiterung der Properties, etc.)?

Gruß,
Marcus

afaust · ‎27 Jul 2012

Hallo,

ich habe gelernt, bei Schätzungen sehr vorsichtig zu sein - gerade bei Alfresco spielt die Erfahrung und individuelle Neigungen (Script vs. Java u.ä.) eine sehr große Rolle und ich kenne den Gegenüber im Forum ja kaum. Ich persönlich würde mir, wenn ich das an deiner Stelle umsetzen würde, dafür etwas unter einem Tag (inkl. Tests aber ohne OCR / Tesseract Coding / Anpassungen) einplanen.

Gruß
Axel

marcus2012 · ‎27 Jul 2012

Hallo,

ich danke dir für deine Einschätzung und Hilfe.

Da ich bei Alfresco mit meinen Erfahrungen erst am Anfang stehe, werde ich wahrscheinlich etwas länger wie du veranschlagt hast brauchen, aber das ist halb so wild.

Ich denke ich werde, sofern ich Fragen habe, eventuell noch einmal auf dich zurückkommen.

Gruß,
Marcus

jalbersdorfer · ‎2 Dec 2016

Hi, hast du's hinbekommen? - Ich habe gerade das gleiche vor und frage mich ob es tatsächlich sein kann das so etwas nicht von mindestens allen anderen Alfresco Anwendern benötigt wird.

Habe ich was falsch verstanden? - oder sortieren andere Anwender ihren Content nicht automatisiert?

Darum geht's doch, oder?

afaust · ‎2 Dec 2016

Es ist relativ unwahrscheinlich, dass Marcus auf einen neuen Post in diesem alten Thread reagiert. Es war soweit ersichtlich seine einzige Partizipation und das Forumsystem wurden jüngst erst auf eine neue Plattform migriert, so dass ggf. keine aktuelle Mailadresse hinterlegt ist bzw. er keine Zugangsdaten hat.

In der Tat werden automatisierte Ablagestrukturen / Sortierungen je nach Kunde/Organisation extrem unterschiedlich - wenn überhaupt - genutzt. In den meisten mir untergekommenen Organisationen wurde sehr stark mit einer organisch wachsenden Ablagestruktur gearbeitet. In anderen gibt es mehr oder weniger einmalig vorgegebene Strukturen und Inhalte wurden nach vorgegebenen Kriterien von Anwendern oder integrierten Fachanwendungen nach strikten Regeln abgelegt.

Der Bedarf für automatische Klassifizierung und Datenextraktion durch OCR war bisher nur in speziellen Anwendungsfällen gefordert. Z.B. im Kontext von Mailroom-Automatisierungen. Hierzu gibt es aber schon andere, spezialisierte Software die mit Alfresco integriert werden kann, so dass diese Funktionen selten in Alfresco selber gebraucht waren. Ephesoft, Kofax, ABBYY und Co. sind hier gängige Anbieter.

jalbersdorfer · ‎2 Dec 2016

Hallo Axel,

vielen Dank für deine schnelle Antwort. In der Tat geht es bei mir primär um eine "Mailroom-Automatisierung". - Also um die Eingangspost-Erfassung. Jedoch mache ich das nur für mich selbst und meine persönliche Post, weshalb für mich nahezu keine kommerzielle Lösung in Frage kommt. - Gibt's da auch was aus dem OpenSource Bereich?

Da ich gerade erst mit Alfresco gestartet bin, komme ich mit der Volltextsuche noch ganz gut klar.

Ich kann mir jedoch vorstellen das sich das mit der Zeit ändert, wenn die Dokumenteflut zunimmt.

Dann wäre eine Tag- oder Aspectbasierte Filterung / Sortierung sicher vorteilhaft.