Extração de Metadados

pmans · ‎6 Mar 2018

Bom dia.

Estou a investigar a utilização de extração de metadados, mas estou com algumas dúvidas.

A extração dos metadados de um ficheiro é só feito a nível das propriedades associadas ao ficheiro ( tipo: autor, data de criação, titulo, etc) ou também se pode extrair partes do conteúdo do ficheiro?

O que estou a tentar fazer é criar um extractor associado a um model de tipo de documento, que contem propriedades que serão preenchidas automaticamente.

Estou com algumas dificuldades em entender a documentação em relação aos extractores, podem dar umas dicas de modo a simplificar o que preciso fazer ou indicar outro sitio com exemplos que possa ver?

Obrigado,

MN

pmans · ‎7 Mar 2018

Boa tarde.

Não sei se a minha ultima mensagem está perceptível o que pretendo fazer e se é possível.

De modo simplificado, o que quero fazer é algo do género.

Este ficheiro (em PDF) é carregado no Alfresco associado a um modelo de tipo personalizado com 3 propriedades, Assunto, Numero e Data.

Ao carregar este ficheiro é feito a extracção dos campos a vermelho no PDF e é feito o preenchido de forma automática dos metadados do modelo personalizado.

Isto é possível ser feito no Alfresco directamente ou terá se recorrer a outros App com integração no Alfresco?

Estou mesmo perdido neste assunto por isso agradeço qualquer ajuda que me possam dar.

Obrigado,

MN

douglascrp · ‎9 Mar 2018

Bom dia.

Os extratores do Alfresco são utilizados apenas para extrair, como você mencionou na pergunta original, atributos do arquivo/documento, e não do conteúdo de texto do documento.

O que você precisa é desenvolver essa funcionalidade, pois o Alfresco não oferece essa funcionalidade.

Aliás, nem seria muito recomendado você fazer isso no Alfresco, pois você pode acabar sobrecarregando ele com o processamento dessas imagens.

O ideal mesmo seria você usar um software específico para essa finalidade, que normalmente vem em pacotes de digitalização, que incluem outras funcionalidades, como melhoria da imagem, OCR e extração. Nós utilizamos o ChronoScan

Você poderia também, caso decida desenvolver a solução por conta, escrever um utilitário que extrai as informações que você precisa antes de enviar o documento para o Alfresco, e aí fazer a carga do documento e usar as informações extraídas para preencher os campos que você precisa. Dessa forma, você evita o problema de sobrecarregar o servidor que mencionei antes.

Caso você realmente decida partir para a solução dentro do Alfresco, então você deveria dar uma olhada neste projeto GitHub - sgirardin/easyContent2Metadata: Alfresco extension to help easily extract metadata from con...

O que ele faz é exatamente o que você está precisando, mas da última vez que eu tentei usar (fiz inclusive algumas contribuições simples para o projeto), ele não estava muito maduro, e eu não acompanhei mais depois disso.

Se tentar, avise depois como foi.

pmans · ‎9 Mar 2018

Douglas C. R. Paes, mais uma vez agradeço a sua ajuda.

Vou avaliar a informação que me disponibilizou, mas tenho uma dúvida.

Em relação ao ChronoScan ele faz a extracção completa, ou dá para configurar de modo a extrair partes isoladas do conteúdo, e associar essa informação com os metadados do ficheiro a carregar no alfresco?

Se o ChronoScan fizer a extracção completa, você tem alguma dica de como eu possa extrair partes da informação?

Agradeço a ajuda prestada,

MN

douglascrp · ‎11 Mar 2018

Boa noite.

O ChronoScan pode fazer as duas coisas.

Essa função de extrair o texto de uma área específica é chamada de OCR Zonal.

Veja no video a seguir como se configura: Basic Data Field Definition on ChronoScan - YouTube

pmans · ‎15 Mar 2018

Douglas, já estive a avaliar um pouco o ChronoScan e surgir-me uma duvida como você integra o texto extraído nos metadados do documento a ser criado?

Tenho um projeto no eclipse que comunica através do CMIS com o repositório Alfresco.

Existe alguma forma de conseguir atribuir o texto extraído pelo ChronoScan a um projecto no eclipse de modo a associar ás propriedades do documento a ser criado?

Estou a seguir a sua primeira sugestão de modo a não sobrecarregar o servidor do Alfresco.

douglascrp · ‎15 Mar 2018

O ChronoScan contém um módulo de CMIS, que se não me engano, já te permite mapear os atributos de forma automática durante o upload.

robsoncardoso_t · ‎11 Jun 2018

Douglas,

Mesmo se o documento já "nascer" digital é necessário o uso de OCR?

Não é possível extrair algumas informações textuais de um documento digital?