OCR + Alfresco

cancel
Showing results for 
Search instead for 
Did you mean: 
hlander10
Member II

OCR + Alfresco

Bonjour,

Voila mon problème meta physique.

J'ai tout le necessaire pour numériser un document, le convertir en PDF et le déposer dans alfresco. J'ai aussi une interface a qui me permet de saisie en amont les meta donnée.

Maintenant je réalise un OCR de l'image, j'obtiens un flux texte et mon image . Tout ça avant l'intégration dans alfresco.

Voici mon dilem, je trouve préférable d'injecter le document PDF tel qu'il provient du scanner pour garder la mise en forme en autre. Mais j'aimerais pouvoir faire une recherche sur le contenu donc le flux texte provenant de l'OCR.

Alors j'ai bien pensé mettre le flux texte dans une meta donnée, mais si mon doc fait 15 ou 50 pages le flux va être énorme et j'ai peur du résultat pour la base et le temps de recherche.

Avez vous un avis, ou mieux un retour d'expérience.

Merci
2 Replies
rguinot
Customer

Re: OCR + Alfresco

Je n'ai jamais mis en oeuvre ce genre de technologies à titre personnel, en revanche il existe des pages sur le wiki basées sur Kofax.

http://wiki.alfresco.com/wiki/Kofax_Release_Script
http://wiki.alfresco.com/wiki/Image_Management

Peut être cela vous donnera de plus amples informations.
pdubois
Active Member

Re: OCR + Alfresco

Bonjour,

le modèle Alfresco est extensible.
Cela signifie que vous pouvez garder dans un repository Alfresco votre document sous la forme d'une image et de texte résultat de l'OCR dans 2 propriétés de type "d:content".

Pour ma part, je stockerai le résultat de l'OCR dans la propriété appelée "cm:content" pour qu'elle soit indexée en full texte.
Ensuite j'ajouterai une autre propriété avec un aspect. La propriété également de type cm:content dans laquelle je stockerai l'image.

De totes façon, il vous faudra également concevoir interface pour cela et je vous conseille de contacter un partenaire Alfresco pour cela.