AnsweredAssumed Answered

Extraire les données d'un lot de pdf indexables

Question asked by proote on Nov 9, 2012
Latest reply on Dec 11, 2013 by proote
Bonjour à tous,

Je suis tombé sur Alfresco il y'a quelques jours, et je cherche si ce bel outil pourrait me rendre service, aujourd'hui j'ai un besoin "ponctuel" mais si ça fonctionne ça pourrait se développer sur différents usages dans l'entreprise (pour l'instant il y'a un frein psychologique sur la GED, mais avec un premier pas réussi ça peut vite se débloquer)

J'ai un lot de quelques milliers de fichiers pdf, contenant des tas de valeurs, c'est structurés à chaque fois de la même manière (un peu comme les factures d'un fournisseur), c'est du pdf "indexable" (le pdf est généré par un logiciel, ça n'est pas de l'image sortie d'un scanner), le texte est sélectionnable, c'est propre.
A force de recherches j'ai compris qu'on peut lier Alfresco avec un OCR, mais je me demande si c'est utile dans le cas d'un pdf indexable ?

Est-ce qu'avec Alfresco "seul" je pourrai définir des zones à analyser dans le fichier pdf pour en extraire les données ? (et les mettre dans une bdd, ou dans un fichier, peu importe, je ne pense pas que la difficulté se trouve là)

Merci :)

Outcomes