Bom dia.
Estou a investigar a utilização de extração de metadados, mas estou com algumas dúvidas.
A extração dos metadados de um ficheiro é só feito a nível das propriedades associadas ao ficheiro ( tipo: autor, data de criação, titulo, etc) ou também se pode extrair partes do conteúdo do ficheiro?
O que estou a tentar fazer é criar um extractor associado a um model de tipo de documento, que contem propriedades que serão preenchidas automaticamente.
Estou com algumas dificuldades em entender a documentação em relação aos extractores, podem dar umas dicas de modo a simplificar o que preciso fazer ou indicar outro sitio com exemplos que possa ver?
Obrigado,
MN
Boa tarde.
Não sei se a minha ultima mensagem está perceptível o que pretendo fazer e se é possível.
De modo simplificado, o que quero fazer é algo do género.
Este ficheiro (em PDF) é carregado no Alfresco associado a um modelo de tipo personalizado com 3 propriedades, Assunto, Numero e Data.
Ao carregar este ficheiro é feito a extracção dos campos a vermelho no PDF e é feito o preenchido de forma automática dos metadados do modelo personalizado.
Isto é possível ser feito no Alfresco directamente ou terá se recorrer a outros App com integração no Alfresco?
Estou mesmo perdido neste assunto por isso agradeço qualquer ajuda que me possam dar.
Obrigado,
MN
Bom dia.
Os extratores do Alfresco são utilizados apenas para extrair, como você mencionou na pergunta original, atributos do arquivo/documento, e não do conteúdo de texto do documento.
O que você precisa é desenvolver essa funcionalidade, pois o Alfresco não oferece essa funcionalidade.
Aliás, nem seria muito recomendado você fazer isso no Alfresco, pois você pode acabar sobrecarregando ele com o processamento dessas imagens.
O ideal mesmo seria você usar um software específico para essa finalidade, que normalmente vem em pacotes de digitalização, que incluem outras funcionalidades, como melhoria da imagem, OCR e extração. Nós utilizamos o ChronoScan
Você poderia também, caso decida desenvolver a solução por conta, escrever um utilitário que extrai as informações que você precisa antes de enviar o documento para o Alfresco, e aí fazer a carga do documento e usar as informações extraídas para preencher os campos que você precisa. Dessa forma, você evita o problema de sobrecarregar o servidor que mencionei antes.
Caso você realmente decida partir para a solução dentro do Alfresco, então você deveria dar uma olhada neste projeto GitHub - sgirardin/easyContent2Metadata: Alfresco extension to help easily extract metadata from con...
O que ele faz é exatamente o que você está precisando, mas da última vez que eu tentei usar (fiz inclusive algumas contribuições simples para o projeto), ele não estava muito maduro, e eu não acompanhei mais depois disso.
Se tentar, avise depois como foi.
Douglas C. R. Paes, mais uma vez agradeço a sua ajuda.
Vou avaliar a informação que me disponibilizou, mas tenho uma dúvida.
Em relação ao ChronoScan ele faz a extracção completa, ou dá para configurar de modo a extrair partes isoladas do conteúdo, e associar essa informação com os metadados do ficheiro a carregar no alfresco?
Se o ChronoScan fizer a extracção completa, você tem alguma dica de como eu possa extrair partes da informação?
Agradeço a ajuda prestada,
MN
Boa noite.
O ChronoScan pode fazer as duas coisas.
Essa função de extrair o texto de uma área específica é chamada de OCR Zonal.
Veja no video a seguir como se configura: Basic Data Field Definition on ChronoScan - YouTube
Douglas, já estive a avaliar um pouco o ChronoScan e surgir-me uma duvida como você integra o texto extraído nos metadados do documento a ser criado?
Tenho um projeto no eclipse que comunica através do CMIS com o repositório Alfresco.
Existe alguma forma de conseguir atribuir o texto extraído pelo ChronoScan a um projecto no eclipse de modo a associar ás propriedades do documento a ser criado?
Estou a seguir a sua primeira sugestão de modo a não sobrecarregar o servidor do Alfresco.
O ChronoScan contém um módulo de CMIS, que se não me engano, já te permite mapear os atributos de forma automática durante o upload.
Douglas,
Mesmo se o documento já "nascer" digital é necessário o uso de OCR?
Não é possível extrair algumas informações textuais de um documento digital?
Discussions about Alfresco Content Services and Alfresco Process Services in Portuguese
Related:
By using this site, you are agreeing to allow us to collect and use cookies as outlined in Alfresco’s Cookie Statement and Terms of Use (and you have a legitimate interest in Alfresco and our products, authorizing us to contact you in such methods). If you are not ok with these terms, please do not use this website.