AnsweredAssumed Answered

OCR Integration mit Dokumentindizierung

Question asked by marcus2012 on Jul 27, 2012
Latest reply on Feb 10, 2017 by res44
Hallo,

ich arbeite zurzeit daran, eine auf OCR basierende Sortierlösung für hochgeladene eingescannte Dokumente einzurichten.

Die Erkennung des Dokument-Inhalts funktioniert mit Tesseract und läuft auch soweit. Im zweiten Schritt suche ich nun eine Möglichkeit, den Text des gescannten Dokuments als Eigenschaft im Dokument selber zu hinterlegen.

Ziel des Ganzen ist es, dass ich dann über diesen hinterlegten Text die Dokumente über die Suche finden und - wenn benötigt - auch über die Regeln sortieren kann. Mein erster Gedanke war, dass ich die Eigenschaften des Dokuments erweitere (so wie es das tagging-sample aus dem SDK vorgibt).

Darum meine Frage: Wäre eine Implementierung ähnlich der des tagging-samples aus dem SDK sinnvoll oder gibt es noch einfachere und vor allem effektivere Wege dies zu tun? Mir geht es erstmal nur darum den besten Weg dafür zu finden.

MfG,
Marcus

Outcomes