Pesquisa Lucene e indexação de conteúdo em documentos PDF

cancel
Showing results for 
Search instead for 
Did you mean: 
ricardoc-moreda
Member II

Pesquisa Lucene e indexação de conteúdo em documentos PDF

Boa tarde a todos,

Tenho obtido falhas em pesquisas Lucene, sobre diversos documentos PDF.

Para exemplo, fiz o upload de dois ficheiros para teste, com características idênticas (tamanho, motor de conversão PDF, programa que os converteu, versão do formato PDF, etc.). Estão ambos colocados no mesmo espaço.

Obtenho o seguinte nas pesquisas:

Search Language:    lucene
Search:    PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*"

Results (2 rows)
Name    Node    Parent
actions-article.pdf    workspace://SpacesStore/1e8a97a4-a7b7-4108-8584-7708cd3b2fbc    workspace://SpacesStore/d1822abb-4be2-43a6-abc2-ac602c2806f8
content-article.pdf    workspace://SpacesStore/c724c44d-880b-4432-931e-10ca1b99dbe1    workspace://SpacesStore/d1822abb-4be2-43a6-abc2-ac602c2806f8

****

Search Language:    lucene
Search:    PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*" AND ( TEXT:*admin* )

Results (1 rows)
Name    Node    Parent
content-article.pdf    workspace://SpacesStore/c724c44d-880b-4432-931e-10ca1b99dbe1    workspace://SpacesStore/d1822abb-4be2-43a6-abc2-ac602c2806f8

****

Search Language:    lucene
Search:    PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*" AND ( TEXT:admin )

Results (0 rows)
Name    Node    Parent

****

Note-se que ambos têm as propriedades:
{http://www.alfresco.org/model/content/1.0}creator admin
{http://www.alfresco.org/model/content/1.0}modifier admin


No contentModel.xml:


         Creator
        d:text
        true
        true
       
                  true
                  false
                  both
       



         Modifier
         d:text
         true
         true
       
                  true
                  false
                  both
       


Pode-se notar com as propriedades padrão do Alfresco a falha na pesquisa Lucene, como nos exemplos acima indicados. Neste caso concreto, ao nível dos metadados das propriedades.

Alguém tem ideia do que estará errado? Haverá mais alguma configuração que eu deva rever?


Abraços,
Ricardo
7 Replies
williamsilva
Established Member II

Re: Pesquisa Lucene e indexação de conteúdo em documentos PDF

Olá Ricardo,
    Poderia dar maiores detalhes desses documentos.:
ficheiros para teste, com características idênticas (tamanho, motor de conversão PDF, programa que os converteu, versão do formato PDF, etc.). Estão ambos colocados no mesmo espaço.
Qual o tipo de ferramenta vc. usou para conversão dos documentos para o formato PDF.Independente do Alfresco usar o Lucene como motor de pesquisa e indexão o Alfresco utiliza o  "pdf2swf "do SWF Tools  para visualizar os documentos.Já efetuei esses mesmos testes em pesquisas no repositório tanto em documentos como conteúdo de arquivos .doc,docx,.pdf ,etc.com sucesso.
Faça o mesmo teste com o Alfresco Share criando um projeto comum tanto para o Alfresco DM e para o Alfresco Share no espaço"Company Home > Web Projects > documentLibrary ".Apesar de utulizar o SO Windows e Alfresco Community Edition 3.2r creio que isso seja  indiferente. se puder envie os arquivos para o meu e-mail  - wos.silva@uol.com.br -.
O ideal é vc. renomear a sua pasta alfresco e fazer uma nova instalação sem alterar o "contentModel.xml",estude uma forma também de etiquetar os seus documentos usando "categorias".
Verifique se está apontando para o "espaço" correto ao usar a pesquisa avançada.
Mande um abraço ao pessoal da Moredata  ai em  portugal, gosto muito do trabalho de vcs.
Qualquer coisa retorne ok….

sds.
ricardoc-moreda
Member II

Re: Pesquisa Lucene e indexação de conteúdo em documentos PDF

WilliamSilva wrote: Olá Ricardo,
    Poderia dar maiores detalhes desses documentos.:
ficheiros para teste, com características idênticas (tamanho, motor de conversão PDF, programa que os converteu, versão do formato PDF, etc.). Estão ambos colocados no mesmo espaço.
Qual o tipo de ferramenta vc. usou para conversão dos documentos para o formato PDF.Independente do Alfresco usar o Lucene como motor de pesquisa e indexão o Alfresco utiliza o  "pdf2swf "do SWF Tools  para visualizar os documentos.Já efetuei esses mesmos testes em pesquisas no repositório tanto em documentos como conteúdo de arquivos .doc,docx,.pdf ,etc.com sucesso.
Faça o mesmo teste com o Alfresco Share criando um projeto comum tanto para o Alfresco DM e para o Alfresco Share no espaço"Company Home > Web Projects > documentLibrary ".Apesar de utulizar o SO Windows e Alfresco Community Edition 3.2r creio que isso seja  indiferente. se puder envie os arquivos para o meu e-mail  - wos.silva@uol.com.br -.
O ideal é vc. renomear a sua pasta alfresco e fazer uma nova instalação sem alterar o "contentModel.xml",estude uma forma também de etiquetar os seus documentos usando "categorias".
Verifique se está apontando para o "espaço" correto ao usar a pesquisa avançada.
Mande um abraço ao pessoal da Moredata  ai em  portugal, gosto muito do trabalho de vcs.
Qualquer coisa retorne ok….

sds.

Viva William,

Antes do mais, agradeço a resposta.

Os links para estes dois documentos são:
http://ecmarchitect.com/images/articles/alfresco-actions/actions-article.pdf
http://ecmarchitect.com/images/articles/alfresco-content/content-article.pdf

Mas posso adiantar as suas características (para ambos):
Producer - OpenOffice 2.0
Creator - Writer
Security - No
Format - PDF-1.4

Tanto quanto sei, o Alfresco usa PDFBox para transformar o conteúdo dos documentos PDF em texto. Mas neste caso, apenas estou a testar acesso aos metadados das properties "creator" e "modifier", definidas em contentModel.xml. Quanto a alterações a este ficheiro, apenas me limitei a criar as linhas para forçar a indexação destas propriedades:

true
false
both

Isto porque as pesquisas iniciais sem estas linhas também falhavam, e procurei esta solução. Sem qualquer bom resultado, infelizmente.

Para além destas duas propriedades padrão dos documentos em Alfresco, estou a utilizar um modelo personalizado onde acrescento outras propriedades, mas que passam pelo mesmo problema. Daí ter colocado nos exemplos apenas estas duas. O modelo personalizado torna-se irrelevante para esta análise. Mas essa é a razão porque não estou a utilizar categorias. Nos vários tipos de documentos descritos nesse modelo personalizado, utilizo inúmeras propriedades para cada um (data de saída, classificação, processo, destinatário, origem, etc.). Não se tornaria prático com categorias, imagino.

Estou apontando para o espaço correctamente, como se pode ver nos três exemplos de pesquisa que coloquei. O estranho aqui é que, se procurar documentos nesse espaço obtenho os tais dois, se acrescentar à pesquisa o TEXT:*admin* já só obtenho um (apesar de ambos os documentos terem as mesmas propriedades, rigorosamente), e se o acréscimo for por TEXT:admin simplesmente nenhum documento é encontrado!

Haverá alguma explicação para isto?!
ricardoc-moreda
Member II

Re: Pesquisa Lucene e indexação de conteúdo em documentos PDF

Ah! Um grande abraço de todo o pessoal da MoreData para o amigo William.  Smiley Happy

É sempre bom sabermos que temos amigos para lá do Atlântico.
williamsilva
Established Member II

Re: Pesquisa Lucene e indexação de conteúdo em documentos PDF

Olá Ricardo,
Um link sobre .:
http://forums.alfresco.com/en/viewtopic.php?f=8&t=24033&start=0&st=0&sk=t&sd=a
Na customização/implantação que comentei acima foi utilizado o "Adobe Acrobat 9.0 Pro", pois uma das regras do projeto pedia  pesquisa "container + navio",  os documentos foram convertidos para PDF, tratados (= análise, revisão, aprovação, etc) antecipadamente e depois povoados no DM com os metadados.No momento estou em transito , mais   estarei lendo com mais calma o post e com certeza acharemos uma resposta.
abraços.
sds.
ricardoc-moreda
Member II

Re: Pesquisa Lucene e indexação de conteúdo em documentos PDF

Obrigado William,

Estive a ler esses posts que me indicaste. Segundo entendi, o problema residia na forma como o PDF era gerado ou modificado, certo?

Contudo, nos exemplos que eu coloquei, os dois ficheiros foram gerados pelo mesmo mecanismo (OpenOffice Writer 2.0), e não sofreram qualquer modificação. Além disso, até têm tamanhos idênticos. Logo, ambos estão em igualdade de circunstâncias. Mas numa das pesquisas pelo Node Browser que indiquei (TEXT:*admin*), apenas um deles é encontrado e, mais estranho ainda, com TEXT:admin, nenhum aparece! Apesar de ambos terem metadados com 'admin', como indiquei.

Ou será que me escapou alguma coisa nesses posts?
sammuel
Member II

Re: Pesquisa Lucene e indexação de conteúdo em documentos PDF

Estou com um problema nesse diretório também, e não faço a mínima ideia de como resolver

13:52:44,956 ERROR [org.alfresco.repo.search.impl.lucene.index.IndexInfo] Failed building filter reader beneath f041ae5b-d09c-4d84-9670-12ea5bc1aa2e
java.io.EOFException
at java.io.DataInputStream.readInt(DataInputStream.java:375)
at org.alfresco.repo.search.impl.lucene.index.IndexInfo.getDeletions(IndexInfo.java:1091)
at org.alfresco.repo.search.impl.lucene.index.IndexInfo.createMainIndexReader(IndexInfo.java:2056)
at org.alfresco.repo.search.impl.lucene.index.IndexInfo.getMainIndexReferenceCountingReadOnlyIndexReader(IndexInfo.java:1219)
at org.alfresco.repo.search.impl.lucene.AbstractLuceneBase.getSearcher(AbstractLuceneBase.java:168)
at org.alfresco.repo.search.impl.lucene.ADMLuceneSearcherImpl.query(ADMLuceneSearcherImpl.java:286)

Caused by: org.alfresco.repo.search.impl.lucene.LuceneIndexException: 03130000 Failed to open IndexSarcher for /opt/alfresco-3.4.d/alf_data/lucene-indexes/workspace/SpacesStore/
at org.alfresco.repo.search.impl.lucene.AbstractLuceneBase.getSearcher(AbstractLuceneBase.java:184)
at org.alfresco.repo.search.impl.lucene.ADMLuceneSearcherImpl.query(ADMLuceneSearcherImpl.java:286)
at org.alfresco.repo.search.SearcherComponent.query(SearcherComponent.java:78)
at org.alfresco.repo.node.index.AbstractReindexComponent.isTxnIdPresentInIndex(AbstractReindexComponent.java:500)
at org.alfresco.repo.node.index.AbstractReindexComponent.isTxnPresentInIndex(AbstractReindexComponent.java:421)
at org.alfresco.repo.node.index.FullIndexRecoveryComponent.areTxnsInStartSample(FullIndexRecoveryComponent.java:265)
at org.alfresco.repo.node.index.FullIndexRecoveryComponent.reindexImpl(FullIndexRecoveryComponent.java:188)
at org.alfresco.repo.node.index.AbstractReindexComponent$1.execute(AbstractReindexComponent.java:300)
at org.alfresco.repo.transaction.RetryingTransactionHelper.doInTransaction(RetryingTransactionHelper.java:381)
at org.alfresco.repo.transaction.RetryingTransactionHelper.doInTransaction(RetryingTransactionHelper.java:272)
at org.alfresco.repo.node.index.AbstractReindexComponent.reindex(AbstractReindexComponent.java:306)
… 35 more
Caused by: java.io.EOFException
at java.io.DataInputStream.readInt(DataInputStream.java:375)
at org.alfresco.repo.search.impl.lucene.index.IndexInfo.getDeletions(IndexInfo.java:1091)
at org.alfresco.repo.search.impl.lucene.index.IndexInfo.createMainIndexReader(IndexInfo.java:2056)
at org.alfresco.repo.search.impl.lucene.index.IndexInfo.getMainIndexReferenceCountingReadOnlyIndexReader(IndexInfo.java:1219)
at org.alfresco.repo.search.impl.lucene.AbstractLuceneBase.getSearcher(AbstractLuceneBase.java:168)
… 45 more
13:53:06,749 INFO [org.springframework.extensions.webscripts.DeclarativeRegistry] Registered 264 Web Scripts (+0 failed), 274 URLs
13:53:06,751 INFO [org.springframework.extensions.webscripts.DeclarativeRegistry] Registered 8 Package Description Documents (+0 failed)
13:53:06,751 INFO [org.springframework.extensions.webscripts.DeclarativeRegistry] Registered 0 Schema Description Documents (+0 failed)
13:53:07,354 INFO [org.springframework.extensions.webscripts.AbstractRuntimeContainer] Initialised Spring Surf Container Web Script Container (in 4490.937ms)
13:53:07,524 INFO [org.springframework.extensions.webscripts.TemplateProcessorRegistry] Registered template processor freemarker for extension ftl
13:53:07,871 INFO [org.springframework.extensions.webscripts.ScriptProcessorRegistry] Registered script processor javascript for extension js
13:53:08,351 INFO [org.springframework.extensions.webscripts.TemplateProcessorRegistry] Registered template processor freemarker for extension ftl
13:53:08,370 INFO [org.springframework.extensions.webscripts.ScriptProcessorRegistry] Registered script processor javascript for extension js
13:53:08,614 INFO [org.springframework.extensions.webscripts.TemplateProcessorRegistry] Registered template processor freemarker for extension ftl
13:53:08,625 INFO [org.springframework.extensions.webscripts.ScriptProcessorRegistry] Registered script processor javascript for extension js
13:53:09,038 INFO [org.alfresco.web.site.servlet.SSOAuthenticationFilter] NTLMAuthenticationFilter initialised. <code/>
douglascrp
Advanced II

Re: Pesquisa Lucene e indexação de conteúdo em documentos PDF

O seu problema parece diferente.

Pelas mensagens de erro, eu diria que os arquivos de index do solr estão corrompidos.
Nesse caso, o ideal seria você forçar a reindexação de toda a base e ver se isso corrige seu problema.

Qual a versão do Alfresco que você está usando?